論文の概要: IDEAL-M3D: Instance Diversity-Enriched Active Learning for Monocular 3D Detection
- arxiv url: http://arxiv.org/abs/2511.19301v1
- Date: Mon, 24 Nov 2025 16:49:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.326131
- Title: IDEAL-M3D: Instance Diversity-Enriched Active Learning for Monocular 3D Detection
- Title(参考訳): IDEAL-M3D: 一眼的3次元検出のための多変量強化型能動学習
- Authors: Johannes Meier, Florian Günther, Riccardo Marin, Oussema Dhaouadi, Jacques Kaiser, Daniel Cremers,
- Abstract要約: I-M3Dはモノクロ3D検出のための最初のインスタンスレベルのパイプラインである。
不均一なバックボーンとタスクに依存しない特徴で多様性を誘導する。
我々は、KITTIの検証とテストセットに関するAP3Dを、全体として同じ検出器を訓練するのと比べて、類似またはより良いAP3Dを実現している。
- 参考スコア(独自算出の注目度): 42.50500002758336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular 3D detection relies on just a single camera and is therefore easy to deploy. Yet, achieving reliable 3D understanding from monocular images requires substantial annotation, and 3D labels are especially costly. To maximize performance under constrained labeling budgets, it is essential to prioritize annotating samples expected to deliver the largest performance gains. This prioritization is the focus of active learning. Curiously, we observed two significant limitations in active learning algorithms for 3D monocular object detection. First, previous approaches select entire images, which is inefficient, as non-informative instances contained in the same image also need to be labeled. Secondly, existing methods rely on uncertainty-based selection, which in monocular 3D object detection creates a bias toward depth ambiguity. Consequently, distant objects are selected, while nearby objects are overlooked. To address these limitations, we propose IDEAL-M3D, the first instance-level pipeline for monocular 3D detection. For the first time, we demonstrate that an explicitly diverse, fast-to-train ensemble improves diversity-driven active learning for monocular 3D. We induce diversity with heterogeneous backbones and task-agnostic features, loss weight perturbation, and time-dependent bagging. IDEAL-M3D shows superior performance and significant resource savings: with just 60% of the annotations, we achieve similar or better AP3D on KITTI validation and test set results compared to training the same detector on the whole dataset.
- Abstract(参考訳): 単眼の3D検出は1台のカメラに頼っているため、簡単に展開できる。
しかし、モノクロ画像から信頼できる3D理解を実現するには、かなりのアノテーションが必要であり、特に3Dラベルはコストがかかる。
制約付きラベル付け予算の下での性能を最大化するためには、最大のパフォーマンス向上をもたらすことが期待される注釈付きサンプルを優先することが不可欠である。
この優先順位付けは活発な学習の焦点です。
3次元単眼物体検出のための能動学習アルゴリズムでは,2つの重要な限界がみられた。
まず、以前のアプローチでは、同じ画像に含まれる非表現的なインスタンスもラベル付けする必要があるため、非効率な画像全体を選択する。
第二に、既存の手法は不確実性に基づく選択に依存しており、モノクローナルな3次元物体検出では深さのあいまいさに対するバイアスが生じる。
その結果、近くの物体が見落としている間、遠くの物体が選択される。
これらの制約に対処するため、モノクル3D検出のための最初のインスタンスレベルのパイプラインであるIDEAL-M3Dを提案する。
はじめに,単分子3Dの多様で高速なアンサンブルにより,多様性駆動型能動的学習が向上することが実証された。
不均一なバックボーンとタスクに依存しない特徴、損失重量の摂動、時間依存的なバギングで多様性を誘導する。
IDEAL-M3Dは、パフォーマンスとリソースの節約に優れており、アノテーションのたった60%で、KITTIの検証とテストセットの結果に対して、データセット全体の同じ検出器をトレーニングするのと比べて、類似またはより良いAP3Dを実現しています。
関連論文リスト
- PLOT: Pseudo-Labeling via Video Object Tracking for Scalable Monocular 3D Object Detection [35.524943073010675]
モノクロ3Dオブジェクト検出(M3OD)は、高アノテーションコストと固有の2Dから3Dの曖昧さに起因するデータの不足により、長年にわたって課題に直面してきた。
ビデオデータのみを使用し、マルチビュー設定、追加センサー、カメラポーズ、ドメイン固有のトレーニングを必要とせず、より堅牢な疑似ラベルフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-03T07:46:39Z) - Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - ODM3D: Alleviating Foreground Sparsity for Semi-Supervised Monocular 3D
Object Detection [15.204935788297226]
ODM3Dフレームワークは、トレーニング中にLiDARドメインの知識を単分子検出器に注入するために、様々なレベルでのクロスモーダルな知識蒸留を必要とする。
既存手法の準最適トレーニングの主要因として,前景の空間空間を同定することにより,LiDAR点に埋め込まれた正確な位置化情報を活用する。
KITTI検証とテストベンチマークの両方で1位にランクインし、教師付きまたは半教師付きである既存のモノクラー手法をはるかに上回っている。
論文 参考訳(メタデータ) (2023-10-28T07:12:09Z) - SimDistill: Simulated Multi-modal Distillation for BEV 3D Object
Detection [56.24700754048067]
多視点カメラによる3Dオブジェクト検出は低コストで普及しているが、カメラデータのみから正確に3D形状を推定することは依然として困難である。
モデルアーキテクチャと蒸留戦略を慎重に構築し,シミュレートされたマルチモーダル蒸留(SimDistill)法を提案する。
我々のSimDistillは、コスト効率のよいカメラのみの配置を維持しながら、3Dオブジェクト検出のためのより良い特徴表現を学習することができる。
論文 参考訳(メタデータ) (2023-03-29T16:08:59Z) - M3DSSD: Monocular 3D Single Stage Object Detector [82.25793227026443]
特徴アライメントと非対称非局所的注意を有するモノクロ3次元単段物体検出器(M3DSSD)を提案する。
提案したM3DSSDは,KITTIデータセット上のモノラルな3Dオブジェクト検出手法よりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2021-03-24T13:09:11Z) - IAFA: Instance-aware Feature Aggregation for 3D Object Detection from a
Single Image [37.83574424518901]
単一の画像からの3Dオブジェクト検出は、自動運転において重要なタスクです。
本稿では,3次元物体検出の精度向上のために有用な情報を集約するインスタンス認識手法を提案する。
論文 参考訳(メタデータ) (2021-03-05T05:47:52Z) - SESS: Self-Ensembling Semi-Supervised 3D Object Detection [138.80825169240302]
具体的には、ラベルのない新しい未知のデータに基づくネットワークの一般化を促進するための、徹底的な摂動スキームを設計する。
我々のSESSは、50%のラベル付きデータを用いて、最先端の完全教師付き手法と比較して、競争性能を達成している。
論文 参考訳(メタデータ) (2019-12-26T08:48:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。