論文の概要: Difficulty-Aware Label-Guided Denoising for Monocular 3D Object Detection
- arxiv url: http://arxiv.org/abs/2511.13195v1
- Date: Mon, 17 Nov 2025 10:02:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:25.11583
- Title: Difficulty-Aware Label-Guided Denoising for Monocular 3D Object Detection
- Title(参考訳): モノクローナル3次元物体検出のための難解なラベル誘導型デノイング
- Authors: Soyul Lee, Seungmin Baek, Dongbo Min,
- Abstract要約: そこで本研究では,MonoDLGDを提案する。
MonoDLGDは、検出の不確実性に基づいて、地絡ラベルを適応的に摂動し、再構築する。
KITTIベンチマークの実験は、MonoDLGDがあらゆる難易度で最先端のパフォーマンスを達成することを示した。
- 参考スコア(独自算出の注目度): 17.487124484503322
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular 3D object detection is a cost-effective solution for applications like autonomous driving and robotics, but remains fundamentally ill-posed due to inherently ambiguous depth cues. Recent DETR-based methods attempt to mitigate this through global attention and auxiliary depth prediction, yet they still struggle with inaccurate depth estimates. Moreover, these methods often overlook instance-level detection difficulty, such as occlusion, distance, and truncation, leading to suboptimal detection performance. We propose MonoDLGD, a novel Difficulty-Aware Label-Guided Denoising framework that adaptively perturbs and reconstructs ground-truth labels based on detection uncertainty. Specifically, MonoDLGD applies stronger perturbations to easier instances and weaker ones into harder cases, and then reconstructs them to effectively provide explicit geometric supervision. By jointly optimizing label reconstruction and 3D object detection, MonoDLGD encourages geometry-aware representation learning and improves robustness to varying levels of object complexity. Extensive experiments on the KITTI benchmark demonstrate that MonoDLGD achieves state-of-the-art performance across all difficulty levels.
- Abstract(参考訳): モノクロ3D物体検出は、自律走行やロボット工学などの応用には費用対効果があるが、本質的に曖昧な深度が原因で、基本的には不適切である。
近年のDETRに基づく手法は、世界的な注目と補助的な深度予測を通じてこれを緩和しようとするが、それでも不正確な深度推定に苦慮している。
さらに、これらの手法は、オクルージョン、距離、トランケーションなどのインスタンスレベルの検出困難さを無視し、最適以下の検出性能をもたらすことが多い。
我々は,検出の不確実性に基づいて,地中トラスラベルを適応的に摂動・再構成する,難易度対応ラベル誘導型新フレームワークMonoDLGDを提案する。
具体的には、MonoDLGDはより強力な摂動を適用し、インスタンスを容易にし、より弱いインスタンスをより難しいケースに分割し、それらを再構築して、明示的な幾何学的監督を効果的に提供する。
ラベル再構成と3Dオブジェクト検出を共同で最適化することにより、MonoDLGDは幾何学的認識による表現学習を促進し、さまざまなレベルのオブジェクトの複雑さに対する堅牢性を向上させる。
KITTIベンチマークの大規模な実験は、MonoDLGDがあらゆる難易度で最先端のパフォーマンスを達成することを示した。
関連論文リスト
- PLOT: Pseudo-Labeling via Video Object Tracking for Scalable Monocular 3D Object Detection [35.524943073010675]
モノクロ3Dオブジェクト検出(M3OD)は、高アノテーションコストと固有の2Dから3Dの曖昧さに起因するデータの不足により、長年にわたって課題に直面してきた。
ビデオデータのみを使用し、マルチビュー設定、追加センサー、カメラポーズ、ドメイン固有のトレーニングを必要とせず、より堅牢な疑似ラベルフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-03T07:46:39Z) - MonoVQD: Monocular 3D Object Detection with Variational Query Denoising and Self-Distillation [0.6144680854063939]
我々は,DETRに基づくモノクル3D検出を高速化する新しいフレームワークであるMonoVQDを紹介する。
Mask Separated Self-Attentionメカニズムにより、DeTRアーキテクチャへのデノナイズプロセスの統合が可能になる。
本稿では,従来のデノナイズ手法の消滅問題に対処するために,変分クエリ・デノナイズ手法を提案する。
厳密な実験により、MonoVQDは挑戦的なKITTI単分子ベンチマークよりも優れたパフォーマンスを達成している。
論文 参考訳(メタデータ) (2025-06-14T14:49:12Z) - Diff3DETR:Agent-based Diffusion Model for Semi-supervised 3D Object Detection [33.58208166717537]
3次元物体検出は3次元シーンの理解に不可欠である。
半教師付き手法の最近の発展は、教師による学習フレームワークを用いて、未ラベルの点群に対する擬似ラベルを生成することにより、この問題を緩和しようとしている。
半教師付き3次元物体検出のためのエージェントベース拡散モデル(Diff3DETR)を提案する。
論文 参考訳(メタデータ) (2024-08-01T05:04:22Z) - Augment and Criticize: Exploring Informative Samples for Semi-Supervised
Monocular 3D Object Detection [64.65563422852568]
我々は、一般的な半教師付きフレームワークを用いて、難解な単分子3次元物体検出問題を改善する。
我々は、ラベルのないデータから豊富な情報的サンプルを探索する、新しい、シンプルで効果的なAugment and Criticize'フレームワークを紹介します。
3DSeMo_DLEと3DSeMo_FLEXと呼ばれる2つの新しい検出器は、KITTIのAP_3D/BEV(Easy)を3.5%以上改善した。
論文 参考訳(メタデータ) (2023-03-20T16:28:15Z) - GLENet: Boosting 3D Object Detectors with Generative Label Uncertainty Estimation [70.75100533512021]
本稿では,対象物の潜在的可算有界箱の多様性として,ラベルの不確実性問題を定式化する。
本稿では,条件付き変分オートエンコーダを応用した生成フレームワークであるGLENetを提案する。
GLENetが生成するラベルの不確実性はプラグアンドプレイモジュールであり、既存のディープ3D検出器に便利に統合することができる。
論文 参考訳(メタデータ) (2022-07-06T06:26:17Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z) - Delving into Localization Errors for Monocular 3D Object Detection [85.77319416168362]
単眼画像から3Dバウンディングボックスを推定することは、自動運転に不可欠な要素です。
本研究では, 各サブタスクがもたらす影響を定量化し, 局所化誤差を求めることが, モノクロ3次元検出の抑制に欠かせない要因である。
論文 参考訳(メタデータ) (2021-03-30T10:38:01Z) - SESS: Self-Ensembling Semi-Supervised 3D Object Detection [138.80825169240302]
具体的には、ラベルのない新しい未知のデータに基づくネットワークの一般化を促進するための、徹底的な摂動スキームを設計する。
我々のSESSは、50%のラベル付きデータを用いて、最先端の完全教師付き手法と比較して、競争性能を達成している。
論文 参考訳(メタデータ) (2019-12-26T08:48:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。