論文の概要: P3P: Pseudo-3D Pre-training for Scaling 3D Masked Autoencoders
- arxiv url: http://arxiv.org/abs/2408.10007v1
- Date: Mon, 19 Aug 2024 13:59:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 16:03:38.469363
- Title: P3P: Pseudo-3D Pre-training for Scaling 3D Masked Autoencoders
- Title(参考訳): P3P: Pseudo-3Dによる3次元マスクオートエンコーダの事前学習
- Authors: Xuechao Chen, Ying Chen, Jialin Li, Qiang Nie, Yong Liu, Qixing Huang, Yang Li,
- Abstract要約: 本研究では,画像から持ち上げた実データと擬似3Dデータを利用した自己教師付き事前学習フレームワークを,大深度推定モデルにより提案する。
提案手法は,3次元分類および少数ショット学習における最先端性能を高い事前学習と下流微調整効率を維持しながら達成する。
- 参考スコア(独自算出の注目度): 32.85484320025852
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: 3D pre-training is crucial to 3D perception tasks. However, limited by the difficulties in collecting clean 3D data, 3D pre-training consistently faced data scaling challenges. Inspired by semi-supervised learning leveraging limited labeled data and a large amount of unlabeled data, in this work, we propose a novel self-supervised pre-training framework utilizing the real 3D data and the pseudo-3D data lifted from images by a large depth estimation model. Another challenge lies in the efficiency. Previous methods such as Point-BERT and Point-MAE, employ k nearest neighbors to embed 3D tokens, requiring quadratic time complexity. To efficiently pre-train on such a large amount of data, we propose a linear-time-complexity token embedding strategy and a training-efficient 2D reconstruction target. Our method achieves state-of-the-art performance in 3D classification and few-shot learning while maintaining high pre-training and downstream fine-tuning efficiency.
- Abstract(参考訳): 3D事前学習は3D知覚タスクに不可欠である。
しかし、クリーンな3Dデータ収集の難しさにより、3D事前トレーニングは一貫してデータスケーリングの課題に直面した。
本研究では,限定ラベル付きデータと大量のラベル付きデータを活用した半教師付き学習に触発され,実データと画像から持ち上げられた擬似3Dデータを利用した自己教師付き事前学習フレームワークを提案する。
もうひとつの課題は効率性です。
Point-BERT(英語版)やPoint-MAE(英語版)のような以前の手法では、3Dトークンを埋め込むのに近接する k 個の隣人を雇っている。
このような大量のデータを効率的に事前学習するために,線形時間・複雑トークン埋め込み戦略と,訓練効率のよい2次元再構成ターゲットを提案する。
提案手法は,3次元分類および少数ショット学習における最先端性能を高い事前学習と下流微調整効率を維持しながら達成する。
関連論文リスト
- Bayesian Self-Training for Semi-Supervised 3D Segmentation [59.544558398992386]
3Dセグメンテーションはコンピュータビジョンの中核的な問題である。
完全に教師されたトレーニングを採用するために、3Dポイントクラウドを密にラベル付けすることは、労働集約的で高価です。
半教師付きトレーニングは、ラベル付きデータの小さなセットのみを付与し、より大きなラベル付きデータセットを伴って、より実用的な代替手段を提供する。
論文 参考訳(メタデータ) (2024-09-12T14:54:31Z) - ALPI: Auto-Labeller with Proxy Injection for 3D Object Detection using 2D Labels Only [5.699475977818167]
3Dオブジェクト検出は、自動運転車、ロボット工学、拡張現実など、さまざまな応用において重要な役割を果たす。
画像から2次元境界ボックスアノテーションにのみ依存する弱教師付き3次元アノテータを提案する。
論文 参考訳(メタデータ) (2024-07-24T11:58:31Z) - DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Learning Occupancy for Monocular 3D Object Detection [25.56336546513198]
モノクローナル3次元検出のための占有度学習法であるtextbfOccupancy M3D を提案する。
フラストムと3D空間の占有を直接学習し、より差別的で情報的な3D特徴や表現をもたらす。
KITTIとオープンデータセットの実験により,提案手法が新たな最先端技術を実現し,他の手法をはるかに上回っていることが示された。
論文 参考訳(メタデータ) (2023-05-25T04:03:46Z) - Video Pretraining Advances 3D Deep Learning on Chest CT Tasks [63.879848037679224]
大規模自然画像分類データセットの事前学習は、データスカース2D医療タスクのモデル開発に役立っている。
これらの2Dモデルは、3Dコンピュータビジョンベンチマークで3Dモデルに勝っている。
3Dモデルのためのビデオ事前トレーニングにより、より小さなデータセットでより高性能な3D医療タスクを実現することができることを示す。
論文 参考訳(メタデータ) (2023-04-02T14:46:58Z) - Few-shot Class-incremental Learning for 3D Point Cloud Objects [11.267975876074706]
FSCIL(Few-shot class-incremental Learning)は、新しいクラスのセットのためにベースクラスでトレーニングされたモデルを段階的に微調整することを目的としている。
FSCILの最近の取り組みは、主に2次元画像データに基づいてこの問題に対処している。
カメラ技術の進歩により、3Dポイントのクラウドデータがこれまで以上に利用できるようになった。
論文 参考訳(メタデータ) (2022-05-30T16:33:53Z) - Data Efficient 3D Learner via Knowledge Transferred from 2D Model [30.077342050473515]
我々は、RGB-D画像を介して強力な2Dモデルから知識を伝達することで、3Dタスクのデータ不足に対処する。
擬似ラベルを用いたRGB-D画像の強化には,2次元画像の強いセマンティック・セマンティック・セマンティック・セマンティック・セマンティクス・モデルを用いる。
提案手法は,3次元ラベルの効率向上に適した既存の最先端技術よりも優れている。
論文 参考訳(メタデータ) (2022-03-16T09:14:44Z) - RandomRooms: Unsupervised Pre-training from Synthetic Shapes and
Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。
最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。
本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:56:12Z) - Exemplar Fine-Tuning for 3D Human Model Fitting Towards In-the-Wild 3D
Human Pose Estimation [107.07047303858664]
3次元の地平線アノテーションを持つ大規模な人的データセットは、野生では入手が困難である。
既存の2Dデータセットを高品質な3Dポーズマッチングで拡張することで、この問題に対処する。
結果として得られるアノテーションは、3Dのプロシージャネットワークをスクラッチからトレーニングするのに十分である。
論文 参考訳(メタデータ) (2020-04-07T20:21:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。