論文の概要: LeAD-M3D: Leveraging Asymmetric Distillation for Real-time Monocular 3D Detection
- arxiv url: http://arxiv.org/abs/2512.05663v1
- Date: Fri, 05 Dec 2025 12:08:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:57.015562
- Title: LeAD-M3D: Leveraging Asymmetric Distillation for Real-time Monocular 3D Detection
- Title(参考訳): LeAD-M3D:リアルタイムモノクロ3D検出のための非対称蒸留の活用
- Authors: Johannes Meier, Jonathan Michel, Oussema Dhaouadi, Yung-Hsu Yang, Christoph Reich, Zuria Bauer, Stefan Roth, Marc Pollefeys, Jacques Kaiser, Daniel Cremers,
- Abstract要約: LeAD-M3Dは最先端のモノクル3D検出器であり、余分なモダリティを伴わずに最先端の精度とリアルタイムの推論を実現する。
非対称増強脱ノイズ蒸留(A2D2)は、幾何学的知識をクリーンイメージの教師からミックスアップノイズの学生に伝達する。
3D-Aware Consistent Matching (CM3D) は、予測と地上の真理の割り当てを改善する。
CGI3D(Confidence-Gated 3D Inference)は、高額な3Dレグレッションをトップ信頼領域に制限することで、検出を加速する。
- 参考スコア(独自算出の注目度): 72.97402509843484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-time monocular 3D object detection remains challenging due to severe depth ambiguity, viewpoint shifts, and the high computational cost of 3D reasoning. Existing approaches either rely on LiDAR or geometric priors to compensate for missing depth, or sacrifice efficiency to achieve competitive accuracy. We introduce LeAD-M3D, a monocular 3D detector that achieves state-of-the-art accuracy and real-time inference without extra modalities. Our method is powered by three key components. Asymmetric Augmentation Denoising Distillation (A2D2) transfers geometric knowledge from a clean-image teacher to a mixup-noised student via a quality- and importance-weighted depth-feature loss, enabling stronger depth reasoning without LiDAR supervision. 3D-aware Consistent Matching (CM3D) improves prediction-to-ground truth assignment by integrating 3D MGIoU into the matching score, yielding more stable and precise supervision. Finally, Confidence-Gated 3D Inference (CGI3D) accelerates detection by restricting expensive 3D regression to top-confidence regions. Together, these components set a new Pareto frontier for monocular 3D detection: LeAD-M3D achieves state-of-the-art accuracy on KITTI and Waymo, and the best reported car AP on Rope3D, while running up to 3.6x faster than prior high-accuracy methods. Our results demonstrate that high fidelity and real-time efficiency in monocular 3D detection are simultaneously attainable - without LiDAR, stereo, or geometric assumptions.
- Abstract(参考訳): リアルタイムのモノクロ3次元物体検出は, 深度あいまいさ, 視点シフト, 3次元推論の計算コストが高いため, 依然として困難である。
既存のアプローチでは、不足した深さを補うためにLiDARや幾何学的事前に頼っているか、競争精度を達成するために効率を犠牲にする。
我々は, 余分なモダリティを伴わずに, 最先端の精度とリアルタイムの推論を実現する, 単分子3D検出器LeAD-M3Dを紹介する。
私たちの方法は3つのキーコンポーネントでできています。
非対称増悪減音法(A2D2)は、LDARの監督なしにより強力な深度推論を可能にするため、清潔なイメージの教師から、品質と重み付けされた深度効果の損失を通じて、幾何的知識を混合した学生に伝達する。
3D-Aware Consistent Matching (CM3D)は、3D MGIoUをマッチングスコアに統合することにより、予測と地上の真理割当を改善する。
CGI3D(Confidence-Gated 3D Inference)は、高額な3Dレグレッションをトップ信頼領域に制限することにより、検出を高速化する。
LeAD-M3DはKITTIとWaymoで最先端の精度を達成し、Rope3Dで最も報告された自動車APは3.6倍高速で走行する。
以上の結果から,LiDAR,ステレオ,幾何学的仮定を使わずに,モノクル3次元検出における高忠実度とリアルタイムの効率を同時に達成できることが示唆された。
関連論文リスト
- Weakly Supervised Monocular 3D Detection with a Single-View Image [58.57978772009438]
モノクロ3D検出は、単一視点画像からの正確な3Dオブジェクトのローカライゼーションを目的としている。
SKD-WM3Dは弱い教師付き単分子3D検出フレームワークである。
我々は,SKD-WM3Dが最先端技術を超え,多くの完全教師付き手法と同等であることを示した。
論文 参考訳(メタデータ) (2024-02-29T13:26:47Z) - Bridging Stereo Geometry and BEV Representation with Reliable Mutual Interaction for Semantic Scene Completion [45.171150395915056]
3Dセマンティックシーン補完(SSC)は、限られた観測から密集した3Dシーンを推定する必要がある不適切な認識課題である。
従来のカメラベースの手法は、固有の幾何学的曖昧さと不完全な観察のため、正確なセマンティックシーンを予測するのに苦労した。
我々は,SSCにおけるステレオマッチング技術と鳥眼ビュー(BEV)表現学習を利用して,そのような問題に対処する。
論文 参考訳(メタデータ) (2023-03-24T12:33:44Z) - Attention-Based Depth Distillation with 3D-Aware Positional Encoding for
Monocular 3D Object Detection [10.84784828447741]
ADDは、3D対応の位置符号化を備えた注意に基づく深度知識蒸留フレームワークである。
教師の設計によると、私たちのフレームワークはシームレスで、ドメインギャップフリーで、実装が容易で、オブジェクト指向の地層深度と互換性があります。
我々は,3つの代表的な単分子検出器上でのフレームワークを実装し,予測計算コストの増大を伴わず,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-11-30T06:39:25Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z) - SM3D: Simultaneous Monocular Mapping and 3D Detection [1.2183405753834562]
本稿では,同時マッピングと3次元検出のための,革新的で効率的なマルチタスク深層学習フレームワーク(SM3D)を提案する。
両モジュールのエンドツーエンドのトレーニングにより、提案したマッピングと3D検出は、最先端のベースラインを10.0%、精度13.2%で上回っている。
我々の単分子マルチタスクSM3Dは純粋なステレオ3D検出器の2倍以上の速度で、2つのモジュールを別々に使用するより18.3%速い。
論文 参考訳(メタデータ) (2021-11-24T17:23:37Z) - M3DSSD: Monocular 3D Single Stage Object Detector [82.25793227026443]
特徴アライメントと非対称非局所的注意を有するモノクロ3次元単段物体検出器(M3DSSD)を提案する。
提案したM3DSSDは,KITTIデータセット上のモノラルな3Dオブジェクト検出手法よりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2021-03-24T13:09:11Z) - SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint
Estimation [3.1542695050861544]
3Dの向きとオブジェクトの変換を推定することは、インフラストラクチャレスの自律走行と運転に不可欠である。
SMOKEと呼ばれる新しい3次元オブジェクト検出手法を提案する。
構造的単純さにもかかわらず、提案するSMOKEネットワークは、KITTIデータセット上の既存のモノクル3D検出方法よりも優れている。
論文 参考訳(メタデータ) (2020-02-24T08:15:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。