論文の概要: MonoVQD: Monocular 3D Object Detection with Variational Query Denoising and Self-Distillation
- arxiv url: http://arxiv.org/abs/2506.14835v1
- Date: Sat, 14 Jun 2025 14:49:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.418777
- Title: MonoVQD: Monocular 3D Object Detection with Variational Query Denoising and Self-Distillation
- Title(参考訳): MonoVQD: 変分クエリによる単眼3次元物体検出と自己拡張
- Authors: Kiet Dang Vu, Trung Thai Tran, Duc Dung Nguyen,
- Abstract要約: 我々は,DETRに基づくモノクル3D検出を高速化する新しいフレームワークであるMonoVQDを紹介する。
Mask Separated Self-Attentionメカニズムにより、DeTRアーキテクチャへのデノナイズプロセスの統合が可能になる。
本稿では,従来のデノナイズ手法の消滅問題に対処するために,変分クエリ・デノナイズ手法を提案する。
厳密な実験により、MonoVQDは挑戦的なKITTI単分子ベンチマークよりも優れたパフォーマンスを達成している。
- 参考スコア(独自算出の注目度): 0.6144680854063939
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Precisely localizing 3D objects from a single image constitutes a central challenge in monocular 3D detection. While DETR-like architectures offer a powerful paradigm, their direct application in this domain encounters inherent limitations, preventing optimal performance. Our work addresses these challenges by introducing MonoVQD, a novel framework designed to fundamentally advance DETR-based monocular 3D detection. We propose three main contributions. First, we propose the Mask Separated Self-Attention mechanism that enables the integration of the denoising process into a DETR architecture. This improves the stability of Hungarian matching to achieve a consistent optimization objective. Second, we present the Variational Query Denoising technique to address the gradient vanishing problem of conventional denoising methods, which severely restricts the efficiency of the denoising process. This explicitly introduces stochastic properties to mitigate this fundamental limitation and unlock substantial performance gains. Finally, we introduce a sophisticated self-distillation strategy, leveraging insights from later decoder layers to synergistically improve query quality in earlier layers, thereby amplifying the iterative refinement process. Rigorous experimentation demonstrates that MonoVQD achieves superior performance on the challenging KITTI monocular benchmark. Highlighting its broad applicability, MonoVQD's core components seamlessly integrate into other architectures, delivering significant performance gains even in multi-view 3D detection scenarios on the nuScenes dataset and underscoring its robust generalization capabilities.
- Abstract(参考訳): 1つの画像から正確に3Dオブジェクトを位置決めすることは、モノクル3D検出における中心的な課題である。
DETRのようなアーキテクチャは強力なパラダイムを提供するが、この領域の直接的な応用は固有の制限に遭遇し、最適な性能を損なう。
本研究は,DETRに基づく単分子3D検出を根本的に進歩させる新しいフレームワークであるMonoVQDを導入することで,これらの課題に対処する。
主な貢献は3つある。
まず,DTRアーキテクチャへのデノナイズプロセスの統合を可能にするマスク分離自己認識機構を提案する。
これによりハンガリーマッチングの安定性が向上し、一貫した最適化目標が達成される。
第2に,従来の復調手法の勾配解消問題に対処する変分クエリ復調手法を提案し,復調処理の効率を著しく抑制した。
これは、この基本的な制限を緩和し、実質的なパフォーマンス向上を解放するための確率的性質を明示的に導入する。
最後に、後続のデコーダ層からの洞察を活用して、初期の層におけるクエリ品質を相乗的に改善し、反復的な精錬プロセスを増幅する、洗練された自己蒸留戦略を導入する。
厳密な実験により、MonoVQDは挑戦的なKITTI単分子ベンチマークよりも優れたパフォーマンスを達成している。
MonoVQDのコアコンポーネントは他のアーキテクチャとシームレスに統合され、nuScenesデータセット上のマルチビュー3D検出シナリオでも大幅なパフォーマンス向上を実現し、その堅牢な一般化機能を強調している。
関連論文リスト
- RobustSplat: Decoupling Densification and Dynamics for Transient-Free 3DGS [79.15416002879239]
3D Gaussian Splattingは、ノベルビュー合成と3Dモデリングにおけるリアルタイム、フォトリアリスティックレンダリングにおいて大きな注目を集めている。
既存の手法は、過渡的なオブジェクトに影響されたシーンを正確にモデル化するのに苦労し、描画された画像のアーティファクトに繋がる。
2つの重要な設計に基づく堅牢なソリューションであるRobustSplatを提案する。
論文 参考訳(メタデータ) (2025-06-03T11:13:48Z) - Scalable Benchmarking and Robust Learning for Noise-Free Ego-Motion and 3D Reconstruction from Noisy Video [30.89206445146674]
ノイズフリーデータへの依存という限界に対処することで、ロバストなエゴモーション推定とフォトリアリスティックな3D再構成を再定義することを目指している。
スケーラブルなデータ生成、包括的な堅牢性、モデルの強化という3つの課題に取り組んでいます。
Robust-Ego3Dという,ノイズによるパフォーマンス劣化の顕在化を目的としたベンチマークを作成しました。
論文 参考訳(メタデータ) (2025-01-24T08:25:48Z) - Unsupervised Domain Adaptation for Monocular 3D Object Detection via
Self-Training [57.25828870799331]
我々は、Mono3D上での教師なしドメイン適応のための新しい自己学習フレームワークSTMono3Dを提案する。
対象ドメイン上で適応的な擬似ラベルを生成するための教師学生パラダイムを開発する。
STMono3Dは、評価されたすべてのデータセットで顕著なパフォーマンスを達成し、KITTI 3Dオブジェクト検出データセットの完全な教師付き結果を超えています。
論文 参考訳(メタデータ) (2022-04-25T12:23:07Z) - Stereo Neural Vernier Caliper [57.187088191829886]
学習に基づくステレオ3Dオブジェクト検出のための新しいオブジェクト中心フレームワークを提案する。
初期3次元立方体推定値から改良された更新を予測する方法の問題に対処する。
提案手法は,KITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-21T14:36:07Z) - Secrets of 3D Implicit Object Shape Reconstruction in the Wild [92.5554695397653]
コンピュータビジョン、ロボティクス、グラフィックスの様々な用途において、高精細な3Dオブジェクトをスパースから再構築することは重要です。
最近の神経暗黙的モデリング法は、合成データセットまたは高密度データセットで有望な結果を示す。
しかし、粗末でノイズの多い実世界のデータではパフォーマンスが悪い。
本論文では, 一般的な神経暗黙モデルの性能低下の根本原因を解析する。
論文 参考訳(メタデータ) (2021-01-18T03:24:48Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。