論文の概要: AG-Fusion: adaptive gated multimodal fusion for 3d object detection in complex scenes
- arxiv url: http://arxiv.org/abs/2510.23151v1
- Date: Mon, 27 Oct 2025 09:26:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.509384
- Title: AG-Fusion: adaptive gated multimodal fusion for 3d object detection in complex scenes
- Title(参考訳): AG-Fusion:複雑なシーンにおける3次元物体検出のための適応ゲート多モード融合
- Authors: Sixian Liu, Chen Xu, Qiang Wang, Donghai Shi, Yiwen Li,
- Abstract要約: 本稿では,複雑なシーンにおけるロバスト検出のための信頼性の高いパターンを同定し,モーダル間知識を選択的に統合する新しい適応Gated Fusion手法を提案する。
本研究では,複雑な条件下での性能をベンチマークするために,エクスカベータ3D (E3D) という新しいデータセットを構築した。
提案手法は,標準のKITTIデータセットにおいて93.92%の精度で競合性能を達成するだけでなく,難易度の高いE3Dデータセットにおいて,ベースラインを24.88%上回り,複雑な産業シーンにおける信頼性の低いモーダル情報に対して優れたロバスト性を示す。
- 参考スコア(独自算出の注目度): 6.761344182094574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal camera-LiDAR fusion technology has found extensive application in 3D object detection, demonstrating encouraging performance. However, existing methods exhibit significant performance degradation in challenging scenarios characterized by sensor degradation or environmental disturbances. We propose a novel Adaptive Gated Fusion (AG-Fusion) approach that selectively integrates cross-modal knowledge by identifying reliable patterns for robust detection in complex scenes. Specifically, we first project features from each modality into a unified BEV space and enhance them using a window-based attention mechanism. Subsequently, an adaptive gated fusion module based on cross-modal attention is designed to integrate these features into reliable BEV representations robust to challenging environments. Furthermore, we construct a new dataset named Excavator3D (E3D) focusing on challenging excavator operation scenarios to benchmark performance in complex conditions. Our method not only achieves competitive performance on the standard KITTI dataset with 93.92% accuracy, but also significantly outperforms the baseline by 24.88% on the challenging E3D dataset, demonstrating superior robustness to unreliable modal information in complex industrial scenes.
- Abstract(参考訳): マルチモーダルカメラ-LiDAR融合技術は3次元物体検出に広範囲に応用され、高い性能を示す。
しかし,既存手法はセンサ劣化や環境障害を特徴とする難易度シナリオにおいて,著しい性能劣化を示す。
本稿では,複雑なシーンにおけるロバスト検出のための信頼性パターンを同定し,モダル間知識を選択的に統合する新しいAdaptive Gated Fusion(AG-Fusion)手法を提案する。
具体的には、まず、各モードから統合されたBEV空間に特徴を投影し、ウィンドウベースのアテンション機構を用いてそれらを強化する。
その後、相互注意に基づく適応ゲート融合モジュールは、これらの機能を困難な環境に対して堅牢な信頼性のあるBEV表現に統合するように設計されている。
さらに,複雑な条件下での性能をベンチマークするために,エクスカベータ3D (E3D) という新しいデータセットを構築した。
提案手法は,標準のKITTIデータセットにおいて93.92%の精度で競合性能を達成するだけでなく,難易度の高いE3Dデータセットにおいて,ベースラインを24.88%上回り,複雑な産業シーンにおける信頼性の低いモーダル情報に対して優れたロバスト性を示す。
関連論文リスト
- Enhanced Mixture 3D CGAN for Completion and Generation of 3D Objects [0.2624902795082451]
3Dオブジェクトの生成と完成は、コンピュータビジョンにおける変革的な挑戦を表している。
本稿では,高品質な3Dモデルを生成するため,Deep 3D Convolutional GANとMoEフレームワークの統合について検討する。
論文 参考訳(メタデータ) (2026-02-08T16:32:41Z) - Real-IAD D3: A Real-World 2D/Pseudo-3D/3D Dataset for Industrial Anomaly Detection [53.2590751089607]
Real-IAD D3は高精度なマルチモーダルデータセットであり、フォトメトリックステレオによって生成された擬似3Dモダリティが組み込まれている。
本稿では,RGB,点雲,擬似3次元深度情報を統合し,各モードの相補的強度を活用する効果的な手法を提案する。
本実験は,検出の堅牢性向上とIAD全体の性能向上におけるこれらのモダリティの重要性を強調した。
論文 参考訳(メタデータ) (2025-04-19T08:05:47Z) - Progressive Multi-Modal Fusion for Robust 3D Object Detection [12.048303829428452]
既存の方法は、バードアイビュー(BEV)とパースペクティブビュー(PV)の両方のモードから特徴を投影することで、単一ビューでセンサフュージョンを実行する。
本稿では,中間クエリレベルとオブジェクトクエリレベルの両方で,BEVとPVの両方の機能を組み合わせたプログレッシブフュージョンフレームワークProFusion3Dを提案する。
我々のアーキテクチャは、局所的およびグローバルな特徴を融合させ、3次元オブジェクト検出の堅牢性を高める。
論文 参考訳(メタデータ) (2024-10-09T22:57:47Z) - Robust Modality-incomplete Anomaly Detection: A Modality-instructive Framework with Benchmark [69.02666229531322]
モダリティ不完全産業異常検出(MIIAD)の先駆的研究を紹介する。
その結果,既存のMIAD手法はMIIADベンチでは性能が悪く,性能が著しく低下していることが判明した。
本稿では,新しい2段階のロバストモードアリティファジングと検出フレームwoRk(RADAR)を提案する。
論文 参考訳(メタデータ) (2024-10-02T16:47:55Z) - PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - MV2DFusion: Leveraging Modality-Specific Object Semantics for Multi-Modal 3D Detection [28.319440934322728]
MV2DFusionは、高度なクエリベースの融合機構を通じて両方の世界の強みを統合するマルチモーダル検出フレームワークである。
私たちのフレームワークの柔軟性は、任意のイメージとポイントクラウドベースの検出器との統合を可能にし、その適応性と将来の進歩の可能性を示しています。
論文 参考訳(メタデータ) (2024-08-12T06:46:05Z) - vFusedSeg3D: 3rd Place Solution for 2024 Waymo Open Dataset Challenge in Semantic Segmentation [0.0]
VFusedSeg3Dは、カメラ画像のリッチなセマンティックコンテンツと、LiDARの正確な深度センシングを使用して、強力で包括的な環境理解を生成する。
我々の新しい特徴融合技術は、LiDAR点雲の幾何学的特徴とカメラ画像の意味的特徴を組み合わせたものである。
マルチモダリティ技術を用いることで、性能が大幅に向上し、検証セットで72.46%の最先端のmIoUが得られる。
論文 参考訳(メタデータ) (2024-08-09T11:34:19Z) - Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - FusionFormer: A Multi-sensory Fusion in Bird's-Eye-View and Temporal
Consistent Transformer for 3D Object Detection [14.457844173630667]
本稿では,FusionFormerと呼ばれる,エンドツーエンドのマルチモーダル・フュージョン・トランスフォーマーベースのフレームワークを提案する。
均一なサンプリング戦略を開発することにより,2次元画像と3次元ボクセルの特徴を自発的に抽出することができる。
テスト時間増強を伴わない3次元物体検出タスクにおいて,72.6% mAP と 75.1% NDS の最先端シングルモデル性能を実現する。
論文 参考訳(メタデータ) (2023-09-11T06:27:25Z) - MLF-DET: Multi-Level Fusion for Cross-Modal 3D Object Detection [54.52102265418295]
MLF-DETと呼ばれる,高性能なクロスモーダル3DオブジェクトDrectionのための,新規かつ効果的なマルチレベルフュージョンネットワークを提案する。
特徴レベルの融合では、マルチスケールのボクセル特徴と画像の特徴を密集したマルチスケールのボクセル画像融合(MVI)モジュールを提示する。
本稿では,画像のセマンティクスを利用して検出候補の信頼度を補正するFCR(Feature-cued Confidence Rectification)モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-18T11:26:02Z) - AGO-Net: Association-Guided 3D Point Cloud Object Detection Network [86.10213302724085]
ドメイン適応によるオブジェクトの無傷な特徴を関連付ける新しい3D検出フレームワークを提案する。
我々は,KITTIの3D検出ベンチマークにおいて,精度と速度の両面で最新の性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T16:54:38Z) - siaNMS: Non-Maximum Suppression with Siamese Networks for Multi-Camera
3D Object Detection [65.03384167873564]
サイムズネットワークは、よく知られた3Dオブジェクト検出器アプローチのパイプラインに統合される。
アソシエーションはオブジェクトの3Dボックスレグレッションを強化するために利用される。
nuScenesデータセットの実験的評価は,提案手法が従来のNMS手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2020-02-19T15:32:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。