論文の概要: SPOT: Scalable 3D Pre-training via Occupancy Prediction for Learning Transferable 3D Representations
- arxiv url: http://arxiv.org/abs/2309.10527v3
- Date: Thu, 25 Jul 2024 11:26:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-26 19:56:25.693501
- Title: SPOT: Scalable 3D Pre-training via Occupancy Prediction for Learning Transferable 3D Representations
- Title(参考訳): SPOT: 学習可能な3次元表現のための操作予測によるスケーラブルな3次元事前学習
- Authors: Xiangchao Yan, Runjian Chen, Bo Zhang, Hancheng Ye, Renqiu Xia, Jiakang Yuan, Hongbin Zhou, Xinyu Cai, Botian Shi, Wenqi Shao, Ping Luo, Yu Qiao, Tao Chen, Junchi Yan,
- Abstract要約: トレーニング-ファインタニングアプローチは、さまざまな下流データセットとタスクをまたいだトレーニング済みのバックボーンを微調整することで、ラベル付けの負担を軽減することができる。
本稿では, 一般表現学習が, 占領予測のタスクを通じて達成できることを, 初めて示す。
本研究は,LiDAR 点の理解を促進するとともに,LiDAR の事前訓練における今後の進歩の道を開くことを目的とする。
- 参考スコア(独自算出の注目度): 76.45009891152178
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Annotating 3D LiDAR point clouds for perception tasks is fundamental for many applications e.g., autonomous driving, yet it still remains notoriously labor-intensive. Pretraining-finetuning approach can alleviate the labeling burden by fine-tuning a pre-trained backbone across various downstream datasets as well as tasks. In this paper, we propose SPOT, namely Scalable Pre-training via Occupancy prediction for learning Transferable 3D representations under such a label-efficient fine-tuning paradigm. SPOT achieves effectiveness on various public datasets with different downstream tasks, showcasing its general representation power, cross-domain robustness and data scalability which are three key factors for real-world application. Specifically, we both theoretically and empirically show, for the first time, that general representations learning can be achieved through the task of occupancy prediction. Then, to address the domain gap caused by different LiDAR sensors and annotation methods, we develop a beam re-sampling technique for point cloud augmentation combined with class-balancing strategy. Furthermore, scalable pre-training is observed, that is, the downstream performance across all the experiments gets better with more pre-training data. Additionally, such pre-training strategy also remains compatible with unlabeled data. The hope is that our findings will facilitate the understanding of LiDAR points and pave the way for future advancements in LiDAR pre-training.
- Abstract(参考訳): 認識タスクのために3D LiDARポイントクラウドを注釈付けすることは、例えば自動運転など多くのアプリケーションにとって基本的なことですが、依然として労働集約的です。
トレーニング-ファインタニングアプローチは、さまざまな下流データセットとタスクをまたいだトレーニング済みのバックボーンを微調整することで、ラベル付けの負担を軽減することができる。
本稿では,SPOT,すなわち,ラベル効率のよい微調整パラダイムの下で,トランスファーブルな3次元表現を学習するために,Occupancy予測によるスケーラブルな事前学習を提案する。
SPOTは、さまざまなダウンストリームタスクを持つ公開データセットにおいて、その汎用的な表現力、クロスドメインの堅牢性、および実際のアプリケーションにとって重要な3つの要素であるデータのスケーラビリティを示す。
具体的には、我々は理論的にも経験的にも、一般表現の学習は、占有予測のタスクを通じて達成できることを初めて示す。
そこで我々は,異なるLiDARセンサとアノテーション手法によって生じる領域ギャップに対処するため,ビーム再サンプリング技術を開発した。
さらに、スケーラブルな事前トレーニング、すなわち、すべての実験におけるダウンストリームのパフォーマンスは、より多くの事前トレーニングデータで改善される。
さらに、そのような事前トレーニング戦略は、ラベルのないデータとも互換性が保たれている。
本研究の成果は,LiDARポイントの理解を促進し,LiDAR事前トレーニングの今後の進歩への道を開くことを願っている。
関連論文リスト
- 4D Contrastive Superflows are Dense 3D Representation Learners [62.433137130087445]
我々は,LiDARとカメラのペアを連続的に利用して事前学習の目的を確立するための,新しいフレームワークであるSuperFlowを紹介する。
学習効率をさらに向上するため,カメラビューから抽出した知識の整合性を高めるプラグイン・アンド・プレイ・ビュー・一貫性モジュールを組み込んだ。
論文 参考訳(メタデータ) (2024-07-08T17:59:54Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - Improving 3D Occupancy Prediction through Class-balancing Loss and Multi-scale Representation [7.651064601670273]
自動運転システムには3D環境認識が不可欠である。
Birds-Eye-View(BEV)に基づく認識は,このタスクのSOTA性能を達成している。
この問題を解決するために,新しいUNetライクなマルチスケールOccupancy Headモジュールを導入する。
論文 参考訳(メタデータ) (2024-05-25T07:13:13Z) - Pre-training on Synthetic Driving Data for Trajectory Prediction [61.520225216107306]
軌道予測におけるデータ不足の問題を緩和するパイプラインレベルのソリューションを提案する。
我々は、駆動データを生成するためにHDマップ拡張とトラジェクトリ合成を採用し、それらを事前学習することで表現を学習する。
我々は、データ拡張と事前学習戦略の有効性を実証するための広範な実験を行う。
論文 参考訳(メタデータ) (2023-09-18T19:49:22Z) - Towards Large-scale 3D Representation Learning with Multi-dataset Point Prompt Training [44.790636524264]
ポイント・プロンプト・トレーニング(Point Prompt Training)は、3D表現学習の文脈におけるマルチデータセットのシナジスティック学習のための新しいフレームワークである。
シナジスティック学習に関連する負の移動を克服し、一般化可能な表現を生成する。
教師付きマルチデータセットトレーニングを備えた1つの重み付きモデルを用いて、各データセットの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-18T17:59:57Z) - Consecutive Pretraining: A Knowledge Transfer Learning Strategy with
Relevant Unlabeled Data for Remote Sensing Domain [25.84756140221655]
自然言語処理(NLP)における事前学習を停止しないという考え方に基づいて,CSPT(ConSecutive PreTraining)を提案する。
提案したCSPTは、タスク対応モデルトレーニングのためのラベルなしデータの巨大な可能性を公開することもできる。
その結果,提案したCSPTをタスク認識モデルトレーニングに活用することにより,従来の教師付きプレトレーニング-then-fine-tuning法よりもRTDのダウンストリームタスクのほとんどを上回り得ることがわかった。
論文 参考訳(メタデータ) (2022-07-08T12:32:09Z) - Open-Set Semi-Supervised Learning for 3D Point Cloud Understanding [62.17020485045456]
半教師付き学習(SSL)では、ラベル付きデータと同じ分布からラベル付きデータが引き出されることが一般的である。
サンプル重み付けによりラベルなしデータを選択的に活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T16:09:17Z) - PointContrast: Unsupervised Pre-training for 3D Point Cloud
Understanding [107.02479689909164]
本研究では,3次元表現学習の研究を支援することを目的とする。
教師なし事前学習が3Dシーンの大規模なソースセットに与える影響を計測する。
論文 参考訳(メタデータ) (2020-07-21T17:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。