論文の概要: P3P: Pseudo-3D Pre-training for Scaling 3D Masked Autoencoders
- arxiv url: http://arxiv.org/abs/2408.10007v2
- Date: Wed, 12 Mar 2025 14:13:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:36:05.343293
- Title: P3P: Pseudo-3D Pre-training for Scaling 3D Masked Autoencoders
- Title(参考訳): P3P: Pseudo-3Dによる3次元マスクオートエンコーダの事前学習
- Authors: Xuechao Chen, Ying Chen, Jialin Li, Qiang Nie, Hanqiu Deng, Yong Liu, Qixing Huang, Yang Li,
- Abstract要約: 3Dの事前学習は、3D知覚タスクの進行に欠かせない。
しかし、クリーンな3Dデータの不足は、3D事前学習のスケールアップに重大な課題をもたらす。
革新的な自己指導型事前学習フレームワークを導入する。
本手法は,3次元分類,検出,少数ショット学習における最先端性能を実現する。
- 参考スコア(独自算出の注目度): 34.64343313442465
- License:
- Abstract: Pre-training in 3D is pivotal for advancing 3D perception tasks. However, the scarcity of clean 3D data poses significant challenges for scaling 3D pre-training efforts. Drawing inspiration from semi-supervised learning, which effectively combines limited labeled data with abundant unlabeled data, we introduce an innovative self-supervised pre-training framework. This framework leverages both authentic 3D data and pseudo-3D data generated from images using a robust depth estimation model. Another critical challenge is the efficiency of the pre-training process. Existing approaches, such as Point-BERT and Point-MAE, utilize k-nearest neighbors for 3D token embedding, resulting in quadratic time complexity. To address this, we propose a novel token embedding strategy with linear time complexity, coupled with a training-efficient 2D reconstruction target. Our method not only achieves state-of-the-art performance in 3D classification, detection, and few-shot learning but also ensures high efficiency in both pre-training and downstream fine-tuning processes.
- Abstract(参考訳): 3Dの事前学習は、3D知覚タスクの進行に欠かせない。
しかし、クリーンな3Dデータの不足は、3D事前学習のスケールアップに重大な課題をもたらす。
制限付きラベル付きデータと豊富なラベル付きデータとを効果的に組み合わせた半教師付き学習からインスピレーションを得て、革新的な自己教師付き事前学習フレームワークを導入する。
このフレームワークは、頑健な深度推定モデルを用いて、画像から生成された真正な3Dデータと擬似3Dデータの両方を活用する。
もうひとつの重要な課題は、事前学習プロセスの効率性です。
Point-BERT や Point-MAE のような既存のアプローチでは、3Dトークンの埋め込みに k-nearest の隣り合わせを使い、2次時間の複雑さをもたらす。
そこで本稿では, 学習効率のよい2次元再構成ターゲットと組み合わせた, 線形時間複雑性を持つ新しいトークン埋め込み戦略を提案する。
提案手法は,3次元分類,検出,少数ショット学習における最先端性能を実現するだけでなく,事前学習および下流の微調整プロセスにおいて高い効率を実現する。
関連論文リスト
- Bayesian Self-Training for Semi-Supervised 3D Segmentation [59.544558398992386]
3Dセグメンテーションはコンピュータビジョンの中核的な問題である。
完全に教師されたトレーニングを採用するために、3Dポイントクラウドを密にラベル付けすることは、労働集約的で高価です。
半教師付きトレーニングは、ラベル付きデータの小さなセットのみを付与し、より大きなラベル付きデータセットを伴って、より実用的な代替手段を提供する。
論文 参考訳(メタデータ) (2024-09-12T14:54:31Z) - ALPI: Auto-Labeller with Proxy Injection for 3D Object Detection using 2D Labels Only [5.699475977818167]
3Dオブジェクト検出は、自動運転車、ロボット工学、拡張現実など、さまざまな応用において重要な役割を果たす。
画像から2次元境界ボックスアノテーションにのみ依存する弱教師付き3次元アノテータを提案する。
論文 参考訳(メタデータ) (2024-07-24T11:58:31Z) - DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Learning Occupancy for Monocular 3D Object Detection [25.56336546513198]
モノクローナル3次元検出のための占有度学習法であるtextbfOccupancy M3D を提案する。
フラストムと3D空間の占有を直接学習し、より差別的で情報的な3D特徴や表現をもたらす。
KITTIとオープンデータセットの実験により,提案手法が新たな最先端技術を実現し,他の手法をはるかに上回っていることが示された。
論文 参考訳(メタデータ) (2023-05-25T04:03:46Z) - Video Pretraining Advances 3D Deep Learning on Chest CT Tasks [63.879848037679224]
大規模自然画像分類データセットの事前学習は、データスカース2D医療タスクのモデル開発に役立っている。
これらの2Dモデルは、3Dコンピュータビジョンベンチマークで3Dモデルに勝っている。
3Dモデルのためのビデオ事前トレーニングにより、より小さなデータセットでより高性能な3D医療タスクを実現することができることを示す。
論文 参考訳(メタデータ) (2023-04-02T14:46:58Z) - Few-shot Class-incremental Learning for 3D Point Cloud Objects [11.267975876074706]
FSCIL(Few-shot class-incremental Learning)は、新しいクラスのセットのためにベースクラスでトレーニングされたモデルを段階的に微調整することを目的としている。
FSCILの最近の取り組みは、主に2次元画像データに基づいてこの問題に対処している。
カメラ技術の進歩により、3Dポイントのクラウドデータがこれまで以上に利用できるようになった。
論文 参考訳(メタデータ) (2022-05-30T16:33:53Z) - Data Efficient 3D Learner via Knowledge Transferred from 2D Model [30.077342050473515]
我々は、RGB-D画像を介して強力な2Dモデルから知識を伝達することで、3Dタスクのデータ不足に対処する。
擬似ラベルを用いたRGB-D画像の強化には,2次元画像の強いセマンティック・セマンティック・セマンティック・セマンティック・セマンティクス・モデルを用いる。
提案手法は,3次元ラベルの効率向上に適した既存の最先端技術よりも優れている。
論文 参考訳(メタデータ) (2022-03-16T09:14:44Z) - RandomRooms: Unsupervised Pre-training from Synthetic Shapes and
Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。
最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。
本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:56:12Z) - Exemplar Fine-Tuning for 3D Human Model Fitting Towards In-the-Wild 3D
Human Pose Estimation [107.07047303858664]
3次元の地平線アノテーションを持つ大規模な人的データセットは、野生では入手が困難である。
既存の2Dデータセットを高品質な3Dポーズマッチングで拡張することで、この問題に対処する。
結果として得られるアノテーションは、3Dのプロシージャネットワークをスクラッチからトレーニングするのに十分である。
論文 参考訳(メタデータ) (2020-04-07T20:21:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。