論文の概要: AG-Fusion: adaptive gated multimodal fusion for 3d object detection in complex scenes
- arxiv url: http://arxiv.org/abs/2510.23151v1
- Date: Mon, 27 Oct 2025 09:26:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.509384
- Title: AG-Fusion: adaptive gated multimodal fusion for 3d object detection in complex scenes
- Title(参考訳): AG-Fusion:複雑なシーンにおける3次元物体検出のための適応ゲート多モード融合
- Authors: Sixian Liu, Chen Xu, Qiang Wang, Donghai Shi, Yiwen Li,
- Abstract要約: 本稿では,複雑なシーンにおけるロバスト検出のための信頼性の高いパターンを同定し,モーダル間知識を選択的に統合する新しい適応Gated Fusion手法を提案する。
本研究では,複雑な条件下での性能をベンチマークするために,エクスカベータ3D (E3D) という新しいデータセットを構築した。
提案手法は,標準のKITTIデータセットにおいて93.92%の精度で競合性能を達成するだけでなく,難易度の高いE3Dデータセットにおいて,ベースラインを24.88%上回り,複雑な産業シーンにおける信頼性の低いモーダル情報に対して優れたロバスト性を示す。
- 参考スコア(独自算出の注目度): 6.761344182094574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal camera-LiDAR fusion technology has found extensive application in 3D object detection, demonstrating encouraging performance. However, existing methods exhibit significant performance degradation in challenging scenarios characterized by sensor degradation or environmental disturbances. We propose a novel Adaptive Gated Fusion (AG-Fusion) approach that selectively integrates cross-modal knowledge by identifying reliable patterns for robust detection in complex scenes. Specifically, we first project features from each modality into a unified BEV space and enhance them using a window-based attention mechanism. Subsequently, an adaptive gated fusion module based on cross-modal attention is designed to integrate these features into reliable BEV representations robust to challenging environments. Furthermore, we construct a new dataset named Excavator3D (E3D) focusing on challenging excavator operation scenarios to benchmark performance in complex conditions. Our method not only achieves competitive performance on the standard KITTI dataset with 93.92% accuracy, but also significantly outperforms the baseline by 24.88% on the challenging E3D dataset, demonstrating superior robustness to unreliable modal information in complex industrial scenes.
- Abstract(参考訳): マルチモーダルカメラ-LiDAR融合技術は3次元物体検出に広範囲に応用され、高い性能を示す。
しかし,既存手法はセンサ劣化や環境障害を特徴とする難易度シナリオにおいて,著しい性能劣化を示す。
本稿では,複雑なシーンにおけるロバスト検出のための信頼性パターンを同定し,モダル間知識を選択的に統合する新しいAdaptive Gated Fusion(AG-Fusion)手法を提案する。
具体的には、まず、各モードから統合されたBEV空間に特徴を投影し、ウィンドウベースのアテンション機構を用いてそれらを強化する。
その後、相互注意に基づく適応ゲート融合モジュールは、これらの機能を困難な環境に対して堅牢な信頼性のあるBEV表現に統合するように設計されている。
さらに,複雑な条件下での性能をベンチマークするために,エクスカベータ3D (E3D) という新しいデータセットを構築した。
提案手法は,標準のKITTIデータセットにおいて93.92%の精度で競合性能を達成するだけでなく,難易度の高いE3Dデータセットにおいて,ベースラインを24.88%上回り,複雑な産業シーンにおける信頼性の低いモーダル情報に対して優れたロバスト性を示す。
関連論文リスト
- Real-IAD D3: A Real-World 2D/Pseudo-3D/3D Dataset for Industrial Anomaly Detection [53.2590751089607]
Real-IAD D3は高精度なマルチモーダルデータセットであり、フォトメトリックステレオによって生成された擬似3Dモダリティが組み込まれている。
本稿では,RGB,点雲,擬似3次元深度情報を統合し,各モードの相補的強度を活用する効果的な手法を提案する。
本実験は,検出の堅牢性向上とIAD全体の性能向上におけるこれらのモダリティの重要性を強調した。
論文 参考訳(メタデータ) (2025-04-19T08:05:47Z) - Progressive Multi-Modal Fusion for Robust 3D Object Detection [12.048303829428452]
既存の方法は、バードアイビュー(BEV)とパースペクティブビュー(PV)の両方のモードから特徴を投影することで、単一ビューでセンサフュージョンを実行する。
本稿では,中間クエリレベルとオブジェクトクエリレベルの両方で,BEVとPVの両方の機能を組み合わせたプログレッシブフュージョンフレームワークProFusion3Dを提案する。
我々のアーキテクチャは、局所的およびグローバルな特徴を融合させ、3次元オブジェクト検出の堅牢性を高める。
論文 参考訳(メタデータ) (2024-10-09T22:57:47Z) - MV2DFusion: Leveraging Modality-Specific Object Semantics for Multi-Modal 3D Detection [28.319440934322728]
MV2DFusionは、高度なクエリベースの融合機構を通じて両方の世界の強みを統合するマルチモーダル検出フレームワークである。
私たちのフレームワークの柔軟性は、任意のイメージとポイントクラウドベースの検出器との統合を可能にし、その適応性と将来の進歩の可能性を示しています。
論文 参考訳(メタデータ) (2024-08-12T06:46:05Z) - Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - FusionFormer: A Multi-sensory Fusion in Bird's-Eye-View and Temporal
Consistent Transformer for 3D Object Detection [14.457844173630667]
本稿では,FusionFormerと呼ばれる,エンドツーエンドのマルチモーダル・フュージョン・トランスフォーマーベースのフレームワークを提案する。
均一なサンプリング戦略を開発することにより,2次元画像と3次元ボクセルの特徴を自発的に抽出することができる。
テスト時間増強を伴わない3次元物体検出タスクにおいて,72.6% mAP と 75.1% NDS の最先端シングルモデル性能を実現する。
論文 参考訳(メタデータ) (2023-09-11T06:27:25Z) - MLF-DET: Multi-Level Fusion for Cross-Modal 3D Object Detection [54.52102265418295]
MLF-DETと呼ばれる,高性能なクロスモーダル3DオブジェクトDrectionのための,新規かつ効果的なマルチレベルフュージョンネットワークを提案する。
特徴レベルの融合では、マルチスケールのボクセル特徴と画像の特徴を密集したマルチスケールのボクセル画像融合(MVI)モジュールを提示する。
本稿では,画像のセマンティクスを利用して検出候補の信頼度を補正するFCR(Feature-cued Confidence Rectification)モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-18T11:26:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。