論文の概要: ALPI: Auto-Labeller with Proxy Injection for 3D Object Detection using 2D Labels Only
- arxiv url: http://arxiv.org/abs/2407.17197v1
- Date: Wed, 24 Jul 2024 11:58:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-25 14:04:14.550075
- Title: ALPI: Auto-Labeller with Proxy Injection for 3D Object Detection using 2D Labels Only
- Title(参考訳): ALPI:2次元ラベルのみを用いた3次元物体検出のためのプロキシインジェクション付きオートラボラ
- Authors: Saad Lahlali, Nicolas Granger, Hervé Le Borgne, Quoc-Cuong Pham,
- Abstract要約: 3Dオブジェクト検出は、自動運転車、ロボット工学、拡張現実など、さまざまな応用において重要な役割を果たす。
画像から2次元境界ボックスアノテーションにのみ依存する弱教師付き3次元アノテータを提案する。
- 参考スコア(独自算出の注目度): 5.699475977818167
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: 3D object detection plays a crucial role in various applications such as autonomous vehicles, robotics and augmented reality. However, training 3D detectors requires a costly precise annotation, which is a hindrance to scaling annotation to large datasets. To address this challenge, we propose a weakly supervised 3D annotator that relies solely on 2D bounding box annotations from images, along with size priors. One major problem is that supervising a 3D detection model using only 2D boxes is not reliable due to ambiguities between different 3D poses and their identical 2D projection. We introduce a simple yet effective and generic solution: we build 3D proxy objects with annotations by construction and add them to the training dataset. Our method requires only size priors to adapt to new classes. To better align 2D supervision with 3D detection, our method ensures depth invariance with a novel expression of the 2D losses. Finally, to detect more challenging instances, our annotator follows an offline pseudo-labelling scheme which gradually improves its 3D pseudo-labels. Extensive experiments on the KITTI dataset demonstrate that our method not only performs on-par or above previous works on the Car category, but also achieves performance close to fully supervised methods on more challenging classes. We further demonstrate the effectiveness and robustness of our method by being the first to experiment on the more challenging nuScenes dataset. We additionally propose a setting where weak labels are obtained from a 2D detector pre-trained on MS-COCO instead of human annotations.
- Abstract(参考訳): 3Dオブジェクト検出は、自動運転車、ロボット工学、拡張現実など、さまざまな応用において重要な役割を果たす。
しかし、3D検出器のトレーニングには、大規模なデータセットへのアノテーションのスケーリングの障害となる、コストのかかる正確なアノテーションが必要である。
この課題に対処するために,画像から2次元境界ボックスアノテーションのみに依存する弱教師付き3Dアノテータを提案する。
1つの大きな問題は、異なる3Dポーズと同一の2Dプロジェクションとのあいまいさのため、2Dボックスのみを用いた3D検出モデルを監督することは信頼性が低いことである。
私たちはアノテーションを使って3Dプロキシオブジェクトを構築し、それらをトレーニングデータセットに追加します。
我々の手法は、新しいクラスに適応するために、サイズのみを必要とする。
そこで本手法は,2次元損失の新たな表現と深度不変性を両立させる。
最後に、より困難なインスタンスを検出するために、アノテータはオフラインの擬似ラベリング方式に従い、3Dの擬似ラベルを徐々に改善する。
KITTIデータセットの大規模な実験により,本手法は車種別だけでなく,より難易度の高いクラスにおける完全教師付き手法に近い性能が得られることが示された。
より挑戦的なnuScenesデータセットを最初に実験することで,提案手法の有効性とロバスト性をさらに実証する。
また、人間のアノテーションの代わりにMS-COCOで事前訓練された2D検出器から弱いラベルを得る環境を提案する。
関連論文リスト
- Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance [72.6809373191638]
本稿では,3次元ラベルを必要とせずに2次元ドメインと3次元ドメイン間の制約を活用できるフレームワークを提案する。
具体的には、LiDARと画像特徴をオブジェクト認識領域に基づいて整列する特徴レベルの制約を設計する。
第二に、出力レベルの制約は、2Dと投影された3Dボックスの推定の重なりを強制するために開発される。
第3に、トレーニングレベルの制約は、視覚データと整合した正確で一貫した3D擬似ラベルを生成することによって利用される。
論文 参考訳(メタデータ) (2023-12-12T18:57:25Z) - Weakly Supervised Monocular 3D Object Detection using Multi-View
Projection and Direction Consistency [78.76508318592552]
モノクロ3Dオブジェクト検出は、その容易なアプリケーションのための自動駆動において、主流のアプローチとなっている。
現在のほとんどの方法は、トレーニングフェーズで使用される真実をラベル付けするために、まだ3Dポイントのクラウドデータに依存しています。
画像にマークされた2次元ラベルだけでモデルを訓練できる,弱教師付きモノクル3次元オブジェクト検出法を提案する。
論文 参考訳(メタデータ) (2023-03-15T15:14:00Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z) - FGR: Frustum-Aware Geometric Reasoning for Weakly Supervised 3D Vehicle
Detection [81.79171905308827]
3Dアノテーションを使わずに点雲中の車両を検出するためのフラストラム対応幾何推論(FGR)を提案する。
本手法は粗い3次元セグメンテーションと3次元バウンディングボックス推定の2段階からなる。
2Dバウンディングボックスとスパースポイントクラウドだけで、3D空間内のオブジェクトを正確に検出できます。
論文 参考訳(メタデータ) (2021-05-17T07:29:55Z) - FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection [78.00922683083776]
一般的な2D検出器をこの3Dタスクで動作させることは簡単ではない。
本報告では,完全畳み込み型単段検出器を用いた手法を用いてこの問題を考察する。
私たちのソリューションは、NeurIPS 2020のnuScenes 3D検出チャレンジのすべてのビジョンのみの方法の中で1位を獲得します。
論文 参考訳(メタデータ) (2021-04-22T09:35:35Z) - PLUME: Efficient 3D Object Detection from Stereo Images [95.31278688164646]
既存の手法では、2つのステップでこの問題に対処する: 第一深度推定を行い、その深さ推定から擬似LiDAR点雲表現を計算し、3次元空間で物体検出を行う。
この2つのタスクを同一のメトリック空間で統一するモデルを提案する。
提案手法は,既存の手法と比較して推定時間を大幅に削減し,挑戦的なKITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-17T05:11:38Z) - Move to See Better: Self-Improving Embodied Object Detection [35.461141354989714]
本研究では,テスト環境における物体検出の改善手法を提案する。
エージェントは、多視点データを収集し、2Dおよび3D擬似ラベルを生成し、その検出器を自己監督的に微調整する。
論文 参考訳(メタデータ) (2020-11-30T19:16:51Z) - Learning to Predict the 3D Layout of a Scene [0.3867363075280544]
本稿では,単一のRGB画像のみを使用する手法を提案し,LiDARセンサを持たないデバイスや車両に適用できるようにする。
KITTIデータセットは,クラスラベル付き道路交通シーン,2D境界ボックス,自由度7自由度3Dアノテーションで構成される。
我々は、公式のKITTIベンチマークで要求されるように、結合閾値70%の3次元交差で測定された適度に困難なデータに対して平均47.3%の平均精度を達成し、従来の最先端のRGBのみの手法よりも大きなマージンで上回った。
論文 参考訳(メタデータ) (2020-11-19T17:23:30Z) - 3D for Free: Crossmodal Transfer Learning using HD Maps [36.70550754737353]
最新の2Dデータセットの大規模なクラスタコノミクスと、最先端2D検出手法の堅牢性を活用している。
私たちは、自動運転車からラベルのないマルチモーダル運転ログ1151のコレクションをマイニングしています。
よりラベルのないデータをマイニングすることにより,検出器の性能が向上することを示す。
論文 参考訳(メタデータ) (2020-08-24T17:54:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。