論文の概要: Shelf-Supervised Cross-Modal Pre-Training for 3D Object Detection
- arxiv url: http://arxiv.org/abs/2406.10115v2
- Date: Sat, 14 Sep 2024 00:38:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 01:46:04.805474
- Title: Shelf-Supervised Cross-Modal Pre-Training for 3D Object Detection
- Title(参考訳): 3次元物体検出のためのシェルフスーパービジョンクロスモーダル事前訓練
- Authors: Mehar Khurana, Neehar Peri, James Hays, Deva Ramanan,
- Abstract要約: 最先端の3Dオブジェクト検出器は、しばしば大量のラベル付きデータセットで訓練される。
近年の研究では、ラベル付きデータによる自己教師付き事前学習が、ラベル付きラベルによる検出精度を向上させることが示されている。
組合わせRGBとLiDARデータからゼロショット3Dバウンディングボックスを生成するためのシェルフ制御手法を提案する。
- 参考スコア(独自算出の注目度): 52.66283064389691
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art 3D object detectors are often trained on massive labeled datasets. However, annotating 3D bounding boxes remains prohibitively expensive and time-consuming, particularly for LiDAR. Instead, recent works demonstrate that self-supervised pre-training with unlabeled data can improve detection accuracy with limited labels. Contemporary methods adapt best-practices for self-supervised learning from the image domain to point clouds (such as contrastive learning). However, publicly available 3D datasets are considerably smaller and less diverse than those used for image-based self-supervised learning, limiting their effectiveness. We do note, however, that such data is naturally collected in a multimodal fashion, often paired with images. Rather than pre-training with only self-supervised objectives, we argue that it is better to bootstrap point cloud representations using image-based foundation models trained on internet-scale image data. Specifically, we propose a shelf-supervised approach (e.g. supervised with off-the-shelf image foundation models) for generating zero-shot 3D bounding boxes from paired RGB and LiDAR data. Pre-training 3D detectors with such pseudo-labels yields significantly better semi-supervised detection accuracy than prior self-supervised pretext tasks. Importantly, we show that image-based shelf-supervision is helpful for training LiDAR-only and multi-modal (RGB + LiDAR) detectors. We demonstrate the effectiveness of our approach on nuScenes and WOD, significantly improving over prior work in limited data settings. Our code is available at https://github.com/meharkhurana03/cm3d
- Abstract(参考訳): 最先端の3Dオブジェクト検出器は、しばしば大量のラベル付きデータセットで訓練される。
しかし、3Dバウンディングボックスの注釈付けは、特にLiDARにとって、非常に高価で時間を要する。
代わりに、最近の研究はラベル付きデータによる自己教師付き事前トレーニングがラベル付きラベルによる検出精度を向上させることを実証している。
現代の手法は、画像領域から点雲(対照的な学習など)への自己教師型学習のベストプラクティスに適応する。
しかし、公開されている3Dデータセットは、画像ベースの自己教師付き学習で使用されるデータセットよりもかなり小さく、多様性が低いため、その有効性は制限されている。
しかし、このようなデータは自然にマルチモーダルな方法で収集され、しばしば画像と組み合わせられることに留意する。
インターネット規模の画像データに基づいてトレーニングされた画像ベース基盤モデルを用いて、自己管理対象のみを事前学習するよりも、ポイントクラウド表現をブートストラップする方がよい、と我々は主張する。
具体的には,2組のRGBとLiDARデータからゼロショット3Dバウンディングボックスを生成するためのシェルフ管理手法を提案する。
このような擬似ラベルを持つ事前学習された3D検出器は、事前の自己教師付きプリテキストタスクよりも、半教師付き検出精度が大幅に向上する。
重要なことは、画像ベースシェルフスーパービジョンは、LiDARのみおよびマルチモーダル(RGB + LiDAR)検出器のトレーニングに有用であることを示す。
我々はnuScenesとWADに対するアプローチの有効性を実証し、制限されたデータ設定における以前の作業よりも大幅に改善した。
私たちのコードはhttps://github.com/meharkhurana03/cm3dで利用可能です。
関連論文リスト
- View-to-Label: Multi-View Consistency for Self-Supervised 3D Object
Detection [46.077668660248534]
本稿では,RGBシーケンスのみから,自己監督型3Dオブジェクト検出を行う手法を提案する。
KITTI 3Dデータセットを用いた実験では,最先端の自己管理手法と同等の性能を示した。
論文 参考訳(メタデータ) (2023-05-29T09:30:39Z) - Weakly Supervised Monocular 3D Object Detection using Multi-View
Projection and Direction Consistency [78.76508318592552]
モノクロ3Dオブジェクト検出は、その容易なアプリケーションのための自動駆動において、主流のアプローチとなっている。
現在のほとんどの方法は、トレーニングフェーズで使用される真実をラベル付けするために、まだ3Dポイントのクラウドデータに依存しています。
画像にマークされた2次元ラベルだけでモデルを訓練できる,弱教師付きモノクル3次元オブジェクト検出法を提案する。
論文 参考訳(メタデータ) (2023-03-15T15:14:00Z) - Generalized Few-Shot 3D Object Detection of LiDAR Point Cloud for
Autonomous Driving [91.39625612027386]
我々は,一般的な(ベース)オブジェクトに対して大量のトレーニングデータを持つが,レア(ノーベル)クラスに対してはごく少数のデータしか持たない,一般化された数発の3Dオブジェクト検出という新しいタスクを提案する。
具体的には、画像と点雲の奥行きの違いを分析し、3D LiDARデータセットにおける少数ショット設定の実践的原理を示す。
この課題を解決するために,既存の3次元検出モデルを拡張し,一般的なオブジェクトと稀なオブジェクトの両方を認識するためのインクリメンタルな微調整手法を提案する。
論文 参考訳(メタデータ) (2023-02-08T07:11:36Z) - Self-Supervised Pre-training of 3D Point Cloud Networks with Image Data [6.121574833847397]
大規模なアンラベリングデータセット上での自己教師付き事前トレーニングは、手動アノテーションの量を減らす方法のひとつだ。
本研究では,画像と点雲のモダリティを組み合わせて,まず自己教師付き画像の特徴を学習し,これらの特徴を用いて3Dモデルを訓練する。
多くの3Dデータセットに含まれる画像データを組み込むことで、事前学習にはシーンの1つのスキャンしか必要としない。
論文 参考訳(メタデータ) (2022-11-21T19:09:52Z) - An Empirical Study of Pseudo-Labeling for Image-based 3D Object
Detection [72.30883544352918]
異なる条件下で,擬似ラベルがベースラインモデルに対して効果的に監視できるかどうかを検討する。
ベルとホイッスルを使わずにKITTI-3Dテストセットの適度なレベルを20.23 APで達成し、ベースラインモデルを6.03 APで改善した。
この研究が、半教師付き環境下で画像に基づく3D検出コミュニティに洞察を与えてくれることを願っている。
論文 参考訳(メタデータ) (2022-08-15T12:17:46Z) - Boosting 3D Object Detection by Simulating Multimodality on Point Clouds [51.87740119160152]
本稿では,LiDAR 画像検出器に追従する特徴や応答をシミュレートすることで,単一モダリティ (LiDAR) 3次元物体検出器を高速化する新しい手法を提案する。
このアプローチでは、単一モダリティ検出器をトレーニングする場合のみ、LiDARイメージデータを必要とし、十分にトレーニングされた場合には、推論時にのみLiDARデータが必要である。
nuScenesデータセットの実験結果から,本手法はSOTA LiDARのみの3D検出器よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-06-30T01:44:30Z) - Self-Supervised Pretraining of 3D Features on any Point-Cloud [40.26575888582241]
3D登録なしで任意の3Dデータを扱うことができる簡単な自己監督関連方法を紹介します。
オブジェクト検出、セマンティックセグメンテーション、オブジェクト分類の9つのベンチマークでモデルを評価し、最新の結果を達成し、教師付きプリトレーニングを上回ります。
論文 参考訳(メタデータ) (2021-01-07T18:55:21Z) - PointContrast: Unsupervised Pre-training for 3D Point Cloud
Understanding [107.02479689909164]
本研究では,3次元表現学習の研究を支援することを目的とする。
教師なし事前学習が3Dシーンの大規模なソースセットに与える影響を計測する。
論文 参考訳(メタデータ) (2020-07-21T17:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。