論文の概要: SPOT: Scalable 3D Pre-training via Occupancy Prediction for Autonomous
Driving
- arxiv url: http://arxiv.org/abs/2309.10527v1
- Date: Tue, 19 Sep 2023 11:13:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 14:54:09.282566
- Title: SPOT: Scalable 3D Pre-training via Occupancy Prediction for Autonomous
Driving
- Title(参考訳): SPOT: 自動運転のための作業予測によるスケーラブルな3D事前トレーニング
- Authors: Xiangchao Yan, Runjian Chen, Bo Zhang, Jiakang Yuan, Xinyu Cai, Botian
Shi, Wenqi Shao, Junchi Yan, Ping Luo, Yu Qiao
- Abstract要約: 職業予測は一般表現の学習に有望であることが示されている。
SPOTは、ポイントクラウド拡張にビーム再サンプリング技術を使用し、クラスバランス戦略を適用している。
- 参考スコア(独自算出の注目度): 84.22159537581742
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Annotating 3D LiDAR point clouds for perception tasks including 3D object
detection and LiDAR semantic segmentation is notoriously
time-and-energy-consuming. To alleviate the burden from labeling, it is
promising to perform large-scale pre-training and fine-tune the pre-trained
backbone on different downstream datasets as well as tasks. In this paper, we
propose SPOT, namely Scalable Pre-training via Occupancy prediction for
learning Transferable 3D representations, and demonstrate its effectiveness on
various public datasets with different downstream tasks under the
label-efficiency setting. Our contributions are threefold: (1) Occupancy
prediction is shown to be promising for learning general representations, which
is demonstrated by extensive experiments on plenty of datasets and tasks. (2)
SPOT uses beam re-sampling technique for point cloud augmentation and applies
class-balancing strategies to overcome the domain gap brought by various LiDAR
sensors and annotation strategies in different datasets. (3) Scalable
pre-training is observed, that is, the downstream performance across all the
experiments gets better with more pre-training data. We believe that our
findings can facilitate understanding of LiDAR point clouds and pave the way
for future exploration in LiDAR pre-training. Codes and models will be
released.
- Abstract(参考訳): 3Dオブジェクト検出やLiDARセマンティックセグメンテーションを含む知覚タスクのための3D LiDARポイントクラウドの注釈付けは、時間とエネルギーを消費することで知られる。
ラベル付けの負担を軽減するため、大規模な事前トレーニングを行い、さまざまな下流データセットとタスクでトレーニング済みのバックボーンを微調整することを約束している。
本稿では,トランスファー可能な3次元表現を学習するための占有率予測によるスケーラブルな事前学習を提案し,ラベル効率設定下で下流タスクが異なる様々な公開データセットにおいてその効果を示す。
1) 作業予測は汎用表現の学習に有望であることが示され,多くのデータセットやタスクに関する広範な実験によって実証された。
2) SPOTは,ビーム再サンプリング技術を用いて点雲拡大を行い,様々なLiDARセンサによる領域ギャップを克服し,異なるデータセットにおけるアノテーション戦略を適用した。
(3) スケーラブルな事前トレーニング,すなわち,すべての実験におけるダウンストリームのパフォーマンスは,事前トレーニングデータによって向上する。
我々の発見はLiDAR点雲の理解を容易にし、LiDAR事前学習における将来の探索の道を開くことができると信じている。
コードとモデルがリリースされます。
関連論文リスト
- 4D Contrastive Superflows are Dense 3D Representation Learners [62.433137130087445]
我々は,LiDARとカメラのペアを連続的に利用して事前学習の目的を確立するための,新しいフレームワークであるSuperFlowを紹介する。
学習効率をさらに向上するため,カメラビューから抽出した知識の整合性を高めるプラグイン・アンド・プレイ・ビュー・一貫性モジュールを組み込んだ。
論文 参考訳(メタデータ) (2024-07-08T17:59:54Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - Improving 3D Occupancy Prediction through Class-balancing Loss and Multi-scale Representation [7.651064601670273]
自動運転システムには3D環境認識が不可欠である。
Birds-Eye-View(BEV)に基づく認識は,このタスクのSOTA性能を達成している。
この問題を解決するために,新しいUNetライクなマルチスケールOccupancy Headモジュールを導入する。
論文 参考訳(メタデータ) (2024-05-25T07:13:13Z) - Pre-training on Synthetic Driving Data for Trajectory Prediction [61.520225216107306]
軌道予測におけるデータ不足の問題を緩和するパイプラインレベルのソリューションを提案する。
我々は、駆動データを生成するためにHDマップ拡張とトラジェクトリ合成を採用し、それらを事前学習することで表現を学習する。
我々は、データ拡張と事前学習戦略の有効性を実証するための広範な実験を行う。
論文 参考訳(メタデータ) (2023-09-18T19:49:22Z) - Towards Large-scale 3D Representation Learning with Multi-dataset Point Prompt Training [44.790636524264]
ポイント・プロンプト・トレーニング(Point Prompt Training)は、3D表現学習の文脈におけるマルチデータセットのシナジスティック学習のための新しいフレームワークである。
シナジスティック学習に関連する負の移動を克服し、一般化可能な表現を生成する。
教師付きマルチデータセットトレーニングを備えた1つの重み付きモデルを用いて、各データセットの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-18T17:59:57Z) - Consecutive Pretraining: A Knowledge Transfer Learning Strategy with
Relevant Unlabeled Data for Remote Sensing Domain [25.84756140221655]
自然言語処理(NLP)における事前学習を停止しないという考え方に基づいて,CSPT(ConSecutive PreTraining)を提案する。
提案したCSPTは、タスク対応モデルトレーニングのためのラベルなしデータの巨大な可能性を公開することもできる。
その結果,提案したCSPTをタスク認識モデルトレーニングに活用することにより,従来の教師付きプレトレーニング-then-fine-tuning法よりもRTDのダウンストリームタスクのほとんどを上回り得ることがわかった。
論文 参考訳(メタデータ) (2022-07-08T12:32:09Z) - Open-Set Semi-Supervised Learning for 3D Point Cloud Understanding [62.17020485045456]
半教師付き学習(SSL)では、ラベル付きデータと同じ分布からラベル付きデータが引き出されることが一般的である。
サンプル重み付けによりラベルなしデータを選択的に活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T16:09:17Z) - PointContrast: Unsupervised Pre-training for 3D Point Cloud
Understanding [107.02479689909164]
本研究では,3次元表現学習の研究を支援することを目的とする。
教師なし事前学習が3Dシーンの大規模なソースセットに与える影響を計測する。
論文 参考訳(メタデータ) (2020-07-21T17:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。