論文の概要: Mono3DV: Monocular 3D Object Detection with 3D-Aware Bipartite Matching and Variational Query DeNoising
- arxiv url: http://arxiv.org/abs/2601.01036v1
- Date: Sat, 03 Jan 2026 02:06:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:21.95602
- Title: Mono3DV: Monocular 3D Object Detection with 3D-Aware Bipartite Matching and Variational Query DeNoising
- Title(参考訳): Mono3DV: 3D-Aware Bipartite Matching and Variational Query Denoisingによる単眼3Dオブジェクト検出
- Authors: Kiet Dang Vu, Trung Thai Tran, Kien Nguyen Do Trung, Duc Dung Nguyen,
- Abstract要約: Mono3DVは3Dオブジェクト検出のためのトランスフォーマーベースの新しいフレームワークである。
我々は,3次元幾何情報を直接マッチングコストに組み込む3D-Aware Bipartite Matching戦略を開発した。
第二に、3D属性を統合する際に生じる不安定性を解決するために、バイパートマッチングを安定化させることが重要である。
- 参考スコア(独自算出の注目度): 0.6423989407081764
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While DETR-like architectures have demonstrated significant potential for monocular 3D object detection, they are often hindered by a critical limitation: the exclusion of 3D attributes from the bipartite matching process. This exclusion arises from the inherent ill-posed nature of 3D estimation from monocular image, which introduces instability during training. Consequently, high-quality 3D predictions can be erroneously suppressed by 2D-only matching criteria, leading to suboptimal results. To address this, we propose Mono3DV, a novel Transformer-based framework. Our approach introduces three key innovations. First, we develop a 3D-Aware Bipartite Matching strategy that directly incorporates 3D geometric information into the matching cost, resolving the misalignment caused by purely 2D criteria. Second, it is important to stabilize the Bipartite Matching to resolve the instability occurring when integrating 3D attributes. Therefore, we propose 3D-DeNoising scheme in the training phase. Finally, recognizing the gradient vanishing issue associated with conventional denoising techniques, we propose a novel Variational Query DeNoising mechanism to overcome this limitation, which significantly enhances model performance. Without leveraging any external data, our method achieves state-of-the-art results on the KITTI 3D object detection benchmark.
- Abstract(参考訳): DETRのようなアーキテクチャは、単分子の3Dオブジェクト検出に有意な可能性を示してきたが、それらはしばしば臨界的な制限によって妨げられている: バイパーティイトマッチングプロセスから3D属性を除外する。
この除外は、トレーニング中の不安定性をもたらす単眼画像からの3D推定の本質的に不適切な性質から生じる。
その結果、高品質な3D予測は2Dのみのマッチング基準によって誤って抑制され、準最適結果をもたらす。
これを解決するために,新しいTransformerベースのフレームワークであるMono3DVを提案する。
このアプローチには3つの重要なイノベーションがあります。
まず,3次元幾何情報を直接マッチングコストに組み込む3D-Aware Bipartite Matching戦略を開発し,純粋に2次元基準が原因で生じるミスアライメントを解消する。
第二に、3D属性を統合する際に生じる不安定性を解決するために、バイパートマッチングを安定化させることが重要である。
そこで本研究では,訓練段階における3D-Denoising方式を提案する。
最後に,この制限を克服する新しい変分クエリデノベーション機構を提案し,モデル性能を著しく向上させる。
本手法は,外部データを活用することなく,KITTI 3Dオブジェクト検出ベンチマークの最先端結果が得られる。
関連論文リスト
- SPAN: Spatial-Projection Alignment for Monocular 3D Object Detection [49.12928389918159]
既存の単分子3D検出器は典型的には、切り離された予測パラダイムを通じて、3D境界ボックスの顕著な非線形回帰をテームする。
本稿では2つの主成分を持つ新しい空間射影アライメント(SPAN)を提案する。
SPANは、予測された3次元境界ボックスと接地した3次元境界ボックスの間に明らかに大域的な空間的制約を課し、それによって非結合な特性回帰による空間的ドリフトを補正する。
3D-2Dプロジェクションアライメントは、投影された3Dボックスが、画像平面上の対応する2D検出バウンディングボックス内に密に整列していることを保証する。
論文 参考訳(メタデータ) (2025-11-10T04:48:48Z) - FILP-3D: Enhancing 3D Few-shot Class-incremental Learning with Pre-trained Vision-Language Models [59.13757801286343]
クラス増分学習(class-incremental learning)は、モデルが限られたデータで漸進的にトレーニングされている場合、破滅的な忘れの問題を軽減することを目的としている。
本稿では,特徴空間の不整合のための冗長特徴除去器 (RFE) と,重要な雑音に対する空間ノイズ補償器 (SNC) の2つの新しいコンポーネントを備えたFILP-3Dフレームワークを紹介する。
論文 参考訳(メタデータ) (2023-12-28T14:52:07Z) - OriCon3D: Effective 3D Object Detection using Orientation and Confidence [0.0]
1つの画像から3次元物体を検出するための高度な手法を提案する。
我々は、深層畳み込みニューラルネットワークに基づく3Dオブジェクト重み付け指向回帰パラダイムを用いる。
提案手法は, 3次元オブジェクトのポーズ決定の精度を大幅に向上し, ベースライン法を超越した。
論文 参考訳(メタデータ) (2023-04-27T19:52:47Z) - Monocular 3D Object Detection with Bounding Box Denoising in 3D by
Perceiver [45.16079927526731]
モノクル3D物体検出の主な課題は、3D中心の正確な位置決めである。
本稿では,2次元から3次元への情報フローと3次元から2次元への情報フローを組み合わせた段階的アプローチを提案する。
提案手法はMonoXiverと命名され, 背骨単分子3D検出器に容易に適用可能である。
論文 参考訳(メタデータ) (2023-04-03T18:24:46Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z) - Delving into Localization Errors for Monocular 3D Object Detection [85.77319416168362]
単眼画像から3Dバウンディングボックスを推定することは、自動運転に不可欠な要素です。
本研究では, 各サブタスクがもたらす影響を定量化し, 局所化誤差を求めることが, モノクロ3次元検出の抑制に欠かせない要因である。
論文 参考訳(メタデータ) (2021-03-30T10:38:01Z) - M3DSSD: Monocular 3D Single Stage Object Detector [82.25793227026443]
特徴アライメントと非対称非局所的注意を有するモノクロ3次元単段物体検出器(M3DSSD)を提案する。
提案したM3DSSDは,KITTIデータセット上のモノラルな3Dオブジェクト検出手法よりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2021-03-24T13:09:11Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint
Estimation [3.1542695050861544]
3Dの向きとオブジェクトの変換を推定することは、インフラストラクチャレスの自律走行と運転に不可欠である。
SMOKEと呼ばれる新しい3次元オブジェクト検出手法を提案する。
構造的単純さにもかかわらず、提案するSMOKEネットワークは、KITTIデータセット上の既存のモノクル3D検出方法よりも優れている。
論文 参考訳(メタデータ) (2020-02-24T08:15:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。