論文の概要: MambaFusion: Adaptive State-Space Fusion for Multimodal 3D Object Detection
- arxiv url: http://arxiv.org/abs/2602.08126v1
- Date: Sun, 08 Feb 2026 21:10:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.99167
- Title: MambaFusion: Adaptive State-Space Fusion for Multimodal 3D Object Detection
- Title(参考訳): MambaFusion:マルチモーダル3次元物体検出のための適応状態空間融合
- Authors: Venkatraman Narayanan, Bala Sai, Rahul Ahuja, Pratik Likhar, Varun Ravi Kumar, Senthil Yogamani,
- Abstract要約: MambaFusionは、効率的で適応的で物理的に基礎付けられた3D知覚を実現する、統合されたマルチモーダル検出フレームワークである。
構造条件拡散ヘッドは、不確実性を考慮した推論と不確実性を考慮した推論を統合し、物理的妥当性を強制し、信頼性を校正する。
このフレームワークは、SSMベースの効率と信頼性駆動核融合を結合することで、現実の自律運転システムに対して堅牢で、時間的に安定し、解釈可能な3D知覚が得られることを示す。
- 参考スコア(独自算出の注目度): 6.350460753267439
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reliable 3D object detection is fundamental to autonomous driving, and multimodal fusion algorithms using cameras and LiDAR remain a persistent challenge. Cameras provide dense visual cues but ill posed depth; LiDAR provides a precise 3D structure but sparse coverage. Existing BEV-based fusion frameworks have made good progress, but they have difficulties including inefficient context modeling, spatially invariant fusion, and reasoning under uncertainty. We introduce MambaFusion, a unified multi-modal detection framework that achieves efficient, adaptive, and physically grounded 3D perception. MambaFusion interleaves selective state-space models (SSMs) with windowed transformers to propagate the global context in linear time while preserving local geometric fidelity. A multi-modal token alignment (MTA) module and reliability-aware fusion gates dynamically re-weight camera-LiDAR features based on spatial confidence and calibration consistency. Finally, a structure-conditioned diffusion head integrates graph-based reasoning with uncertainty-aware denoising, enforcing physical plausibility, and calibrated confidence. MambaFusion establishes new state-of-the-art performance on nuScenes benchmarks while operating with linear-time complexity. The framework demonstrates that coupling SSM-based efficiency with reliability-driven fusion yields robust, temporally stable, and interpretable 3D perception for real-world autonomous driving systems.
- Abstract(参考訳): 信頼性の高い3Dオブジェクト検出は自動運転の基本であり、カメラとLiDARを用いたマルチモーダルフュージョンアルゴリズムは依然として永続的な課題である。
カメラは密集した視覚的手がかりを提供するが、深度が低いため、LiDARは正確な3D構造を提供するが、カバー範囲は少ない。
既存のBEVベースの融合フレームワークは大きな進歩を遂げているが、非効率な文脈モデリング、空間的不変な融合、不確実性を考慮した推論などの困難がある。
我々は,効率,適応性,物理的に基礎付けられた3次元知覚を実現する統合マルチモーダル検出フレームワークであるMambaFusionを紹介する。
MambaFusionは、局所的な幾何学的忠実さを維持しながら、線形時間でグローバルなコンテキストを伝播するために、ウィンドウ変換器で選択的な状態空間モデル(SSM)をインターリーブする。
マルチモーダルトークンアライメント(MTA)モジュールと信頼性を考慮したフュージョンゲートは,空間的信頼度とキャリブレーションの整合性に基づいて動的にリウェイトカメラ-LiDAR特徴を持つ。
最後に、構造条件拡散ヘッドは、不確実性を考慮した推論と不確実性を考慮した推論を統合し、物理的妥当性を強制し、信頼性を校正する。
MambaFusionは、線形時間複雑性で運用しながら、nuScenesベンチマーク上で、最先端のパフォーマンスを新たに確立する。
このフレームワークは、SSMベースの効率と信頼性駆動核融合を結合することで、現実の自律運転システムに対して堅牢で、時間的に安定し、解釈可能な3D知覚が得られることを示す。
関連論文リスト
- LiteFusion: Taming 3D Object Detectors from Vision-Based to Multi-Modal with Minimal Adaptation [23.72983078807998]
現在の3Dオブジェクト検出器は、高い検出精度を達成するために複雑なアーキテクチャとトレーニング戦略に依存している。
これらの方法はLiDARセンサーに大きく依存しているため、LiDARが欠如している場合に大きな性能低下に悩まされる。
我々は,LiDAR点からの相補的特徴を四元数空間内の画像特徴に統合する,新しい多モード3D検出器LiteFusionを導入する。
論文 参考訳(メタデータ) (2025-12-23T10:16:33Z) - Lemon: A Unified and Scalable 3D Multimodal Model for Universal Spatial Understanding [80.66591664266744]
Lemonは3Dポイントクラウドパッチと言語トークンを単一のシーケンスとして処理する統合トランスフォーマーアーキテクチャである。
3次元データの複雑さに対処するため,空間的コンテキストを保存するための構造化パッチやトークン化方式を開発した。
Lemonは、総合的な3D理解と推論タスクにまたがって、最先端のパフォーマンスを確立する。
論文 参考訳(メタデータ) (2025-12-14T20:02:43Z) - GMF-Drive: Gated Mamba Fusion with Spatial-Aware BEV Representation for End-to-End Autonomous Driving [5.450011907283289]
本稿では, GMF-Driveを紹介した。これは2つの原則的イノベーションを通じて, 課題を克服するエンドツーエンドフレームワークである。
まず、情報制限ヒストグラムに基づくLiDAR表現を、幾何学的に拡張された柱形式で置き換える。
第二に,高効率空間認識状態空間モデルを用いた高価な変圧器を代替する新しい階層型マンバ融合アーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-08-08T08:17:18Z) - Reliability-Driven LiDAR-Camera Fusion for Robust 3D Object Detection [0.0]
本稿では,鳥眼ビュー(BEV)空間で動作するLiDARカメラ融合フレームワークReliFusionを提案する。
ReliFusionは、Spatio-Temporal Feature Aggregation (STFA)モジュール、Reliabilityモジュール、Confidence-Weighted Mutual Cross-Attention (CW-MCA)モジュールという3つの重要なコンポーネントを統合している。
nuScenesデータセットの実験では、ReliFusionは最先端の手法よりも優れており、LiDARの視野に制限のあるシナリオにおいて、より優れた堅牢性と精度を実現している。
論文 参考訳(メタデータ) (2025-02-03T22:07:14Z) - Progressive Multi-Modal Fusion for Robust 3D Object Detection [12.048303829428452]
既存の方法は、バードアイビュー(BEV)とパースペクティブビュー(PV)の両方のモードから特徴を投影することで、単一ビューでセンサフュージョンを実行する。
本稿では,中間クエリレベルとオブジェクトクエリレベルの両方で,BEVとPVの両方の機能を組み合わせたプログレッシブフュージョンフレームワークProFusion3Dを提案する。
我々のアーキテクチャは、局所的およびグローバルな特徴を融合させ、3次元オブジェクト検出の堅牢性を高める。
論文 参考訳(メタデータ) (2024-10-09T22:57:47Z) - UniM$^2$AE: Multi-modal Masked Autoencoders with Unified 3D Representation for 3D Perception in Autonomous Driving [47.590099762244535]
Masked Autoencoders (MAE)は、強力な表現の学習において重要な役割を担い、様々な3D知覚タスクにおいて優れた結果をもたらす。
この研究は、自律運転における統一された表現空間に適したマルチモーダルのMasked Autoencodersに展開する。
画像に固有のセマンティクスとLiDAR点雲の幾何学的複雑さを複雑に結合するため,UniM$2$AEを提案する。
論文 参考訳(メタデータ) (2023-08-21T02:13:40Z) - Multi-Modal 3D Object Detection by Box Matching [109.43430123791684]
マルチモーダル3次元検出のためのボックスマッチング(FBMNet)による新しいフュージョンネットワークを提案する。
3Dオブジェクトと2Dオブジェクトの提案を学習することで、ROI特徴を組み合わせることで、検出のための融合を効果的に行うことができる。
論文 参考訳(メタデータ) (2023-05-12T18:08:51Z) - MSMDFusion: Fusing LiDAR and Camera at Multiple Scales with Multi-Depth
Seeds for 3D Object Detection [89.26380781863665]
自律運転システムにおける高精度で信頼性の高い3次元物体検出を実現するためには,LiDARとカメラ情報の融合が不可欠である。
近年のアプローチでは、2次元カメラ画像の3次元空間への昇華点によるカメラ特徴のセマンティックな密度の探索が試みられている。
マルチグラニュラリティLiDARとカメラ機能とのマルチスケールなプログレッシブインタラクションに焦点を当てた,新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-07T12:29:29Z) - Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object
Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。
これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。
我々は、最先端の核融合法を初めてベンチマークした。
論文 参考訳(メタデータ) (2022-05-30T09:35:37Z) - EPNet++: Cascade Bi-directional Fusion for Multi-Modal 3D Object
Detection [56.03081616213012]
本稿では,新しいCasscade Bi-directional Fusion(CB-Fusion)モジュールを導入することで,マルチモーダル3Dオブジェクト検出のためのEPNet++を提案する。
提案したCB-Fusionモジュールは、カスケード双方向相互作用融合方式で画像特徴と点特徴の豊富な意味情報を高める。
KITTI、JRDB、SUN-RGBDデータセットの実験結果は、最先端の手法よりもEPNet++の方が優れていることを示している。
論文 参考訳(メタデータ) (2021-12-21T10:48:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。