論文の概要: DGFusion: Dual-guided Fusion for Robust Multi-Modal 3D Object Detection
- arxiv url: http://arxiv.org/abs/2511.10035v1
- Date: Fri, 14 Nov 2025 01:27:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.65446
- Title: DGFusion: Dual-guided Fusion for Robust Multi-Modal 3D Object Detection
- Title(参考訳): DGFusion:ロバストなマルチモーダル3次元物体検出のための二重誘導核融合
- Authors: Feiyang Jia, Caiyan Jia, Ailin Liu, Shaoqing Xu, Qiming Xia, Lin Liu, Lei Yang, Yan Gong, Ziying Song,
- Abstract要約: 3次元物体検出は、車両や歩行者などの重要な物体を識別し追跡するために用いられる。
既存のマルチモーダルな3Dオブジェクト検出手法は、しばしば単一誘導のパラダイムに従う。
そこで我々はDGFusionを提案する。DGFusionはポイントガイド・イメージ・パラダイムの利点を完全に継承するデュアルガイド・パラダイムに基づいている。
- 参考スコア(独自算出の注目度): 23.0675594473186
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As a critical task in autonomous driving perception systems, 3D object detection is used to identify and track key objects, such as vehicles and pedestrians. However, detecting distant, small, or occluded objects (hard instances) remains a challenge, which directly compromises the safety of autonomous driving systems. We observe that existing multi-modal 3D object detection methods often follow a single-guided paradigm, failing to account for the differences in information density of hard instances between modalities. In this work, we propose DGFusion, based on the Dual-guided paradigm, which fully inherits the advantages of the Point-guide-Image paradigm and integrates the Image-guide-Point paradigm to address the limitations of the single paradigms. The core of DGFusion, the Difficulty-aware Instance Pair Matcher (DIPM), performs instance-level feature matching based on difficulty to generate easy and hard instance pairs, while the Dual-guided Modules exploit the advantages of both pair types to enable effective multi-modal feature fusion. Experimental results demonstrate that our DGFusion outperforms the baseline methods, with respective improvements of +1.0\% mAP, +0.8\% NDS, and +1.3\% average recall on nuScenes. Extensive experiments demonstrate consistent robustness gains for hard instance detection across ego-distance, size, visibility, and small-scale training scenarios.
- Abstract(参考訳): 自律運転認識システムにおいて重要な課題として、車両や歩行者などの重要な物体を識別・追跡するために3次元物体検出が用いられる。
しかし、遠く、小さく、あるいは隠された物体(ハードインスタンス)を検知することは依然として困難であり、自動運転システムの安全性を直接的に侵害する。
既存のマルチモーダル3Dオブジェクト検出手法は、しばしば単一誘導のパラダイムを踏襲し、モダリティ間のハードインスタンスの情報密度の差を考慮しない。
本研究はDGFusionを提案する。このDGFusionは、ポイント・ガイド・イメージ・パラダイムの利点を完全に継承し、イメージ・ガイド・ポイント・パラダイムを統合し、単一のパラダイムの限界に対処する。
DGFusionのコアであるDIPM(Difficulty-aware Instance Pair Matcher)は、簡単で難しいインスタンスペアを生成するのが難しいことに基づいた、インスタンスレベルの特徴マッチングを実行する。
実験の結果, DGFusion はmAP +1.0\%, NDS +0.8\%, +1.3\% をそれぞれ改善し, ベースライン法よりも優れていた。
大規模な実験では、エゴディスタンス、サイズ、可視性、小規模のトレーニングシナリオにわたるハードインスタンス検出において、一貫性のある堅牢性の向上が示されている。
関連論文リスト
- DINO-CoDT: Multi-class Collaborative Detection and Tracking with Vision Foundation Models [11.34839442803445]
道路利用者を対象とした多クラス協調検出・追跡フレームワークを提案する。
まず,大域的空間注意融合(GSAF)モジュールを用いた検出器を提案する。
次に,視覚基盤モデルを用いた視覚的セマンティクスを活用し,IDSW(ID SWitch)エラーを効果的に低減するトラックレットRe-IDentification(REID)モジュールを提案する。
論文 参考訳(メタデータ) (2025-06-09T02:49:10Z) - Efficient Multimodal 3D Object Detector via Instance-Level Contrastive Distillation [17.634678949648208]
提案したICDフレームワークとCLFM(Cross Linear Attention Fusion Module)を組み込んだ高速かつ効果的なマルチモーダル3Dオブジェクト検出器を提案する。
我々の3Dオブジェクト検出器は、より優れた効率を実現しつつ、最先端(SOTA)手法より優れています。
論文 参考訳(メタデータ) (2025-03-17T08:26:11Z) - SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [79.58755811919366]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。
水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。
この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文 参考訳(メタデータ) (2024-12-30T02:47:51Z) - Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - MIFI: MultI-camera Feature Integration for Roust 3D Distracted Driver
Activity Recognition [16.40477776426277]
本稿では,3次元不注意運転者行動認識のためのMultI-camera Feature Integration (MIFI)アプローチを提案する。
本稿では, シンプルだが効果的なマルチカメラ機能統合フレームワークを提案し, 3種類の機能融合技術を提供する。
3MDADデータセットによる実験結果から,提案したMIFIはシングルビューモデルと比較して連続的に性能を向上できることが示された。
論文 参考訳(メタデータ) (2024-01-25T11:50:43Z) - Generalized Few-Shot 3D Object Detection of LiDAR Point Cloud for
Autonomous Driving [91.39625612027386]
我々は,一般的な(ベース)オブジェクトに対して大量のトレーニングデータを持つが,レア(ノーベル)クラスに対してはごく少数のデータしか持たない,一般化された数発の3Dオブジェクト検出という新しいタスクを提案する。
具体的には、画像と点雲の奥行きの違いを分析し、3D LiDARデータセットにおける少数ショット設定の実践的原理を示す。
この課題を解決するために,既存の3次元検出モデルを拡張し,一般的なオブジェクトと稀なオブジェクトの両方を認識するためのインクリメンタルな微調整手法を提案する。
論文 参考訳(メタデータ) (2023-02-08T07:11:36Z) - MSMDFusion: Fusing LiDAR and Camera at Multiple Scales with Multi-Depth
Seeds for 3D Object Detection [89.26380781863665]
自律運転システムにおける高精度で信頼性の高い3次元物体検出を実現するためには,LiDARとカメラ情報の融合が不可欠である。
近年のアプローチでは、2次元カメラ画像の3次元空間への昇華点によるカメラ特徴のセマンティックな密度の探索が試みられている。
マルチグラニュラリティLiDARとカメラ機能とのマルチスケールなプログレッシブインタラクションに焦点を当てた,新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-07T12:29:29Z) - AutoAlignV2: Deformable Feature Aggregation for Dynamic Multi-Modal 3D
Object Detection [17.526914782562528]
我々はAutoAlign上に構築された高速で強力なマルチモーダル3D検出フレームワークであるAutoAlignV2を提案する。
我々の最良のモデルは、nuScenesテストのリーダーボード上で72.4 NDSに達し、新しい最先端の結果が得られます。
論文 参考訳(メタデータ) (2022-07-21T06:17:23Z) - The Devil is in the Task: Exploiting Reciprocal Appearance-Localization
Features for Monocular 3D Object Detection [62.1185839286255]
低コストのモノクル3D物体検出は、自律運転において基本的な役割を果たす。
DFR-Netという動的特徴反射ネットワークを導入する。
我々は、KITTIテストセットの全ての単分子3D物体検出器の中で、第1位にランク付けする。
論文 参考訳(メタデータ) (2021-12-28T07:31:18Z) - IAFA: Instance-aware Feature Aggregation for 3D Object Detection from a
Single Image [37.83574424518901]
単一の画像からの3Dオブジェクト検出は、自動運転において重要なタスクです。
本稿では,3次元物体検出の精度向上のために有用な情報を集約するインスタンス認識手法を提案する。
論文 参考訳(メタデータ) (2021-03-05T05:47:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。