論文の概要: Shelf-Supervised Cross-Modal Pre-Training for 3D Object Detection
- arxiv url: http://arxiv.org/abs/2406.10115v3
- Date: Tue, 15 Oct 2024 14:54:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 13:58:53.363067
- Title: Shelf-Supervised Cross-Modal Pre-Training for 3D Object Detection
- Title(参考訳): 3次元物体検出のためのシェルフスーパービジョンクロスモーダル事前訓練
- Authors: Mehar Khurana, Neehar Peri, James Hays, Deva Ramanan,
- Abstract要約: 最先端の3Dオブジェクト検出器は、しばしば大量のラベル付きデータセットで訓練される。
近年の研究では、ラベル付きデータによる自己教師付き事前学習が、ラベル付きラベルによる検出精度を向上させることが示されている。
組合わせRGBとLiDARデータからゼロショット3Dバウンディングボックスを生成するためのシェルフ制御手法を提案する。
- 参考スコア(独自算出の注目度): 52.66283064389691
- License:
- Abstract: State-of-the-art 3D object detectors are often trained on massive labeled datasets. However, annotating 3D bounding boxes remains prohibitively expensive and time-consuming, particularly for LiDAR. Instead, recent works demonstrate that self-supervised pre-training with unlabeled data can improve detection accuracy with limited labels. Contemporary methods adapt best-practices for self-supervised learning from the image domain to point clouds (such as contrastive learning). However, publicly available 3D datasets are considerably smaller and less diverse than those used for image-based self-supervised learning, limiting their effectiveness. We do note, however, that such 3D data is naturally collected in a multimodal fashion, often paired with images. Rather than pre-training with only self-supervised objectives, we argue that it is better to bootstrap point cloud representations using image-based foundation models trained on internet-scale data. Specifically, we propose a shelf-supervised approach (e.g. supervised with off-the-shelf image foundation models) for generating zero-shot 3D bounding boxes from paired RGB and LiDAR data. Pre-training 3D detectors with such pseudo-labels yields significantly better semi-supervised detection accuracy than prior self-supervised pretext tasks. Importantly, we show that image-based shelf-supervision is helpful for training LiDAR-only, RGB-only and multi-modal (RGB + LiDAR) detectors. We demonstrate the effectiveness of our approach on nuScenes and WOD, significantly improving over prior work in limited data settings. Our code is available at https://github.com/meharkhurana03/cm3d
- Abstract(参考訳): 最先端の3Dオブジェクト検出器は、しばしば大量のラベル付きデータセットで訓練される。
しかし、3Dバウンディングボックスの注釈付けは、特にLiDARにとって、非常に高価で時間を要する。
代わりに、最近の研究はラベル付きデータによる自己教師付き事前トレーニングがラベル付きラベルによる検出精度を向上させることを実証している。
現代の手法は、画像領域から点雲(対照的な学習など)への自己教師型学習のベストプラクティスに適応する。
しかし、公開されている3Dデータセットは、画像ベースの自己教師付き学習で使用されるデータセットよりもかなり小さく、多様性が低いため、その有効性は制限されている。
しかし、このような3Dデータは自然にマルチモーダルな方法で収集され、しばしば画像と組み合わせられていることに留意する。
自己管理目的のみを用いて事前トレーニングを行うよりは、インターネット規模のデータに基づいてトレーニングされたイメージベース基盤モデルを用いて、ポイントクラウド表現をブートストラップする方がよい、と我々は主張する。
具体的には,2組のRGBとLiDARデータからゼロショット3Dバウンディングボックスを生成するためのシェルフ管理手法を提案する。
このような擬似ラベルを持つ事前学習された3D検出器は、事前の自己教師付きプリテキストタスクよりも、半教師付き検出精度が大幅に向上する。
重要なことは、画像ベースシェルフスーパービジョンは、LiDARのみ、RGBのみ、およびマルチモーダル(RGB + LiDAR)検出器のトレーニングに有用であることを示す。
我々はnuScenesとWADに対するアプローチの有効性を実証し、制限されたデータ設定における以前の作業よりも大幅に改善した。
私たちのコードはhttps://github.com/meharkhurana03/cm3dで利用可能です。
関連論文リスト
- Training an Open-Vocabulary Monocular 3D Object Detection Model without 3D Data [57.53523870705433]
我々はOVM3D-Detと呼ばれる新しいオープン語彙単分子オブジェクト検出フレームワークを提案する。
OVM3D-Detは、入力または3Dバウンディングボックスを生成するために高精度のLiDARや3Dセンサーデータを必要としない。
オープンボキャブラリ2Dモデルと擬似LiDARを使用して、RGB画像に3Dオブジェクトを自動的にラベル付けし、オープンボキャブラリ単分子3D検出器の学習を促進する。
論文 参考訳(メタデータ) (2024-11-23T21:37:21Z) - Finetuning Pre-trained Model with Limited Data for LiDAR-based 3D Object Detection by Bridging Domain Gaps [8.897884780881535]
LiDARベースの3Dオブジェクト検出器は、センサーの設定が異なるターゲットドメインにうまく適応できないことが多い。
近年の研究では、トレーニング済みのバックボーンは大規模でラベルのないLiDARフレームで自己管理的に学習できることが示唆されている。
本研究では,対象データに制限のある事前学習モデルを適用するために,DADT(Domain Adaptive Distill-Tuning)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T08:22:42Z) - View-to-Label: Multi-View Consistency for Self-Supervised 3D Object
Detection [46.077668660248534]
本稿では,RGBシーケンスのみから,自己監督型3Dオブジェクト検出を行う手法を提案する。
KITTI 3Dデータセットを用いた実験では,最先端の自己管理手法と同等の性能を示した。
論文 参考訳(メタデータ) (2023-05-29T09:30:39Z) - Weakly Supervised Monocular 3D Object Detection using Multi-View
Projection and Direction Consistency [78.76508318592552]
モノクロ3Dオブジェクト検出は、その容易なアプリケーションのための自動駆動において、主流のアプローチとなっている。
現在のほとんどの方法は、トレーニングフェーズで使用される真実をラベル付けするために、まだ3Dポイントのクラウドデータに依存しています。
画像にマークされた2次元ラベルだけでモデルを訓練できる,弱教師付きモノクル3次元オブジェクト検出法を提案する。
論文 参考訳(メタデータ) (2023-03-15T15:14:00Z) - Generalized Few-Shot 3D Object Detection of LiDAR Point Cloud for
Autonomous Driving [91.39625612027386]
我々は,一般的な(ベース)オブジェクトに対して大量のトレーニングデータを持つが,レア(ノーベル)クラスに対してはごく少数のデータしか持たない,一般化された数発の3Dオブジェクト検出という新しいタスクを提案する。
具体的には、画像と点雲の奥行きの違いを分析し、3D LiDARデータセットにおける少数ショット設定の実践的原理を示す。
この課題を解決するために,既存の3次元検出モデルを拡張し,一般的なオブジェクトと稀なオブジェクトの両方を認識するためのインクリメンタルな微調整手法を提案する。
論文 参考訳(メタデータ) (2023-02-08T07:11:36Z) - An Empirical Study of Pseudo-Labeling for Image-based 3D Object
Detection [72.30883544352918]
異なる条件下で,擬似ラベルがベースラインモデルに対して効果的に監視できるかどうかを検討する。
ベルとホイッスルを使わずにKITTI-3Dテストセットの適度なレベルを20.23 APで達成し、ベースラインモデルを6.03 APで改善した。
この研究が、半教師付き環境下で画像に基づく3D検出コミュニティに洞察を与えてくれることを願っている。
論文 参考訳(メタデータ) (2022-08-15T12:17:46Z) - Self-Supervised Pretraining of 3D Features on any Point-Cloud [40.26575888582241]
3D登録なしで任意の3Dデータを扱うことができる簡単な自己監督関連方法を紹介します。
オブジェクト検出、セマンティックセグメンテーション、オブジェクト分類の9つのベンチマークでモデルを評価し、最新の結果を達成し、教師付きプリトレーニングを上回ります。
論文 参考訳(メタデータ) (2021-01-07T18:55:21Z) - PointContrast: Unsupervised Pre-training for 3D Point Cloud
Understanding [107.02479689909164]
本研究では,3次元表現学習の研究を支援することを目的とする。
教師なし事前学習が3Dシーンの大規模なソースセットに与える影響を計測する。
論文 参考訳(メタデータ) (2020-07-21T17:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。