論文の概要: P3P: Pseudo-3D Pre-training for Scaling 3D Voxel-based Masked Autoencoders
- arxiv url: http://arxiv.org/abs/2408.10007v3
- Date: Wed, 21 May 2025 12:52:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:56.811684
- Title: P3P: Pseudo-3D Pre-training for Scaling 3D Voxel-based Masked Autoencoders
- Title(参考訳): P3P: Pseudo-3Dによる3次元Voxelベースマスクオートエンコーダの事前学習
- Authors: Xuechao Chen, Ying Chen, Jialin Li, Qiang Nie, Hanqiu Deng, Yong Liu, Qixing Huang, Yang Li,
- Abstract要約: 本稿では,数百万の画像を3次元事前学習コーパスに組み込んだ,自己教師型事前学習フレームワークを提案する。
本手法は,3次元分類,少数ショット学習,および3次元分割における最先端性能を実現する。
- 参考スコア(独自算出の注目度): 34.64343313442465
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: 3D pre-training is crucial to 3D perception tasks. Nevertheless, limited by the difficulties in collecting clean and complete 3D data, 3D pre-training has persistently faced data scaling challenges. In this work, we introduce a novel self-supervised pre-training framework that incorporates millions of images into 3D pre-training corpora by leveraging a large depth estimation model. New pre-training corpora encounter new challenges in representation ability and embedding efficiency of models. Previous pre-training methods rely on farthest point sampling and k-nearest neighbors to embed a fixed number of 3D tokens. However, these approaches prove inadequate when it comes to embedding millions of samples that feature a diverse range of point numbers, spanning from 1,000 to 100,000. In contrast, we propose a tokenizer with linear-time complexity, which enables the efficient embedding of a flexible number of tokens. Accordingly, a new 3D reconstruction target is proposed to cooperate with our 3D tokenizer. Our method achieves state-of-the-art performance in 3D classification, few-shot learning, and 3D segmentation. Code is available at https://github.com/XuechaoChen/P3P-MAE.
- Abstract(参考訳): 3D事前学習は3D知覚タスクに不可欠である。
それでも、クリーンで完全な3Dデータの収集が難しいため、3D事前トレーニングはデータスケーリングの課題に絶えず直面している。
本研究では,大規模深度推定モデルを活用することで,数百万のイメージを3次元事前学習コーパスに組み込んだ自己教師付き事前学習フレームワークを提案する。
新しい事前学習コーパスは、モデルの表現能力と埋め込み効率において新しい課題に直面する。
以前の事前学習法は、固定数の3Dトークンを埋め込むために、最遠点サンプリングとk-アネレスト隣人に依存していた。
しかし、1000から10万までの多様な点数を持つ数百万のサンプルを埋め込むという点では、これらのアプローチは不十分である。
対照的に,フレキシブルな数のトークンを効率的に埋め込むことができる線形時間複雑性のトークン化器を提案する。
そこで本研究では,新たな3次元再構築ターゲットを提案する。
本手法は,3次元分類,少数ショット学習,および3次元分割における最先端性能を実現する。
コードはhttps://github.com/XuechaoChen/P3P-MAEで入手できる。
関連論文リスト
- DINeMo: Learning Neural Mesh Models with no 3D Annotations [7.21992608540601]
カテゴリーレベルの3D/6Dポーズ推定は、総合的な3Dシーン理解に向けた重要なステップである。
最近の研究は、分析バイシンセサイザーの観点から、2Dおよび3Dタスクにアプローチするニューラルネットワークモデルについて検討している。
疑似対応を利用して3次元アノテーションを使わずにトレーニングした新しいニューラルネットワークモデルであるDINeMoを提案する。
論文 参考訳(メタデータ) (2025-03-26T04:23:53Z) - Bayesian Self-Training for Semi-Supervised 3D Segmentation [59.544558398992386]
3Dセグメンテーションはコンピュータビジョンの中核的な問題である。
完全に教師されたトレーニングを採用するために、3Dポイントクラウドを密にラベル付けすることは、労働集約的で高価です。
半教師付きトレーニングは、ラベル付きデータの小さなセットのみを付与し、より大きなラベル付きデータセットを伴って、より実用的な代替手段を提供する。
論文 参考訳(メタデータ) (2024-09-12T14:54:31Z) - ALPI: Auto-Labeller with Proxy Injection for 3D Object Detection using 2D Labels Only [5.699475977818167]
3Dオブジェクト検出は、自動運転車、ロボット工学、拡張現実など、さまざまな応用において重要な役割を果たす。
画像から2次元境界ボックスアノテーションにのみ依存する弱教師付き3次元アノテータを提案する。
論文 参考訳(メタデータ) (2024-07-24T11:58:31Z) - DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Learning Occupancy for Monocular 3D Object Detection [25.56336546513198]
モノクローナル3次元検出のための占有度学習法であるtextbfOccupancy M3D を提案する。
フラストムと3D空間の占有を直接学習し、より差別的で情報的な3D特徴や表現をもたらす。
KITTIとオープンデータセットの実験により,提案手法が新たな最先端技術を実現し,他の手法をはるかに上回っていることが示された。
論文 参考訳(メタデータ) (2023-05-25T04:03:46Z) - Video Pretraining Advances 3D Deep Learning on Chest CT Tasks [63.879848037679224]
大規模自然画像分類データセットの事前学習は、データスカース2D医療タスクのモデル開発に役立っている。
これらの2Dモデルは、3Dコンピュータビジョンベンチマークで3Dモデルに勝っている。
3Dモデルのためのビデオ事前トレーニングにより、より小さなデータセットでより高性能な3D医療タスクを実現することができることを示す。
論文 参考訳(メタデータ) (2023-04-02T14:46:58Z) - Few-shot Class-incremental Learning for 3D Point Cloud Objects [11.267975876074706]
FSCIL(Few-shot class-incremental Learning)は、新しいクラスのセットのためにベースクラスでトレーニングされたモデルを段階的に微調整することを目的としている。
FSCILの最近の取り組みは、主に2次元画像データに基づいてこの問題に対処している。
カメラ技術の進歩により、3Dポイントのクラウドデータがこれまで以上に利用できるようになった。
論文 参考訳(メタデータ) (2022-05-30T16:33:53Z) - Data Efficient 3D Learner via Knowledge Transferred from 2D Model [30.077342050473515]
我々は、RGB-D画像を介して強力な2Dモデルから知識を伝達することで、3Dタスクのデータ不足に対処する。
擬似ラベルを用いたRGB-D画像の強化には,2次元画像の強いセマンティック・セマンティック・セマンティック・セマンティック・セマンティクス・モデルを用いる。
提案手法は,3次元ラベルの効率向上に適した既存の最先端技術よりも優れている。
論文 参考訳(メタデータ) (2022-03-16T09:14:44Z) - Advancing 3D Medical Image Analysis with Variable Dimension Transform
based Supervised 3D Pre-training [45.90045513731704]
本稿では,革新的でシンプルな3Dネットワーク事前学習フレームワークを再考する。
再設計された3Dネットワークアーキテクチャにより、データ不足の問題に対処するために、修正された自然画像が使用される。
4つのベンチマークデータセットに関する総合的な実験により、提案した事前学習モデルが収束を効果的に加速できることが示されている。
論文 参考訳(メタデータ) (2022-01-05T03:11:21Z) - RandomRooms: Unsupervised Pre-training from Synthetic Shapes and
Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。
最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。
本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:56:12Z) - Exemplar Fine-Tuning for 3D Human Model Fitting Towards In-the-Wild 3D
Human Pose Estimation [107.07047303858664]
3次元の地平線アノテーションを持つ大規模な人的データセットは、野生では入手が困難である。
既存の2Dデータセットを高品質な3Dポーズマッチングで拡張することで、この問題に対処する。
結果として得られるアノテーションは、3Dのプロシージャネットワークをスクラッチからトレーニングするのに十分である。
論文 参考訳(メタデータ) (2020-04-07T20:21:18Z) - D3Feat: Joint Learning of Dense Detection and Description of 3D Local
Features [51.04841465193678]
私たちは3Dポイントクラウドに3D完全畳み込みネットワークを活用しています。
本稿では,3次元点ごとに検出スコアと記述特徴の両方を密に予測する,新しい,実践的な学習機構を提案する。
本手法は,屋内と屋外の両方のシナリオで最先端の手法を実現する。
論文 参考訳(メタデータ) (2020-03-06T12:51:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。