論文の概要: MambaFusion: Height-Fidelity Dense Global Fusion for Multi-modal 3D Object Detection
- arxiv url: http://arxiv.org/abs/2507.04369v1
- Date: Sun, 06 Jul 2025 12:29:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.143487
- Title: MambaFusion: Height-Fidelity Dense Global Fusion for Multi-modal 3D Object Detection
- Title(参考訳): マンバフュージョン:マルチモーダル3次元物体検出のための高密度高密度グローバルフュージョン
- Authors: Hanshi Wang, Jin Gao, Weiming Hu, Zhipeng Zhang,
- Abstract要約: そこで本研究では,純粋なマンバブロックが効率的にDense Global Fusionを実現できることを示す。
我々のモチベーションは、既存の核融合戦略が、効率を同時に達成できないことに起因する。
本稿では,連続空間におけるボクセル圧縮による正確な高さ情報を保持する高忠実度LiDAR符号化を提案する。
- 参考スコア(独自算出の注目度): 45.792346999032496
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the first work demonstrating that a pure Mamba block can achieve efficient Dense Global Fusion, meanwhile guaranteeing top performance for camera-LiDAR multi-modal 3D object detection. Our motivation stems from the observation that existing fusion strategies are constrained by their inability to simultaneously achieve efficiency, long-range modeling, and retaining complete scene information. Inspired by recent advances in state-space models (SSMs) and linear attention, we leverage their linear complexity and long-range modeling capabilities to address these challenges. However, this is non-trivial since our experiments reveal that simply adopting efficient linear-complexity methods does not necessarily yield improvements and may even degrade performance. We attribute this degradation to the loss of height information during multi-modal alignment, leading to deviations in sequence order. To resolve this, we propose height-fidelity LiDAR encoding that preserves precise height information through voxel compression in continuous space, thereby enhancing camera-LiDAR alignment. Subsequently, we introduce the Hybrid Mamba Block, which leverages the enriched height-informed features to conduct local and global contextual learning. By integrating these components, our method achieves state-of-the-art performance with the top-tire NDS score of 75.0 on the nuScenes validation benchmark, even surpassing methods that utilize high-resolution inputs. Meanwhile, our method maintains efficiency, achieving faster inference speed than most recent state-of-the-art methods.
- Abstract(参考訳): 本稿では,純マンバブロックが効率的なDense Global Fusionを実現できることを示すとともに,カメラ-LiDARマルチモーダル3Dオブジェクト検出の最高性能を保証する。
我々のモチベーションは、既存の融合戦略が効率性、長距離モデリング、シーン情報の完全保持を同時に達成できないことに起因する。
状態空間モデル(SSM)の最近の進歩と線形注意に触発されて、これらの課題に対処するために、線形複雑性と長距離モデリング能力を活用する。
しかし, 効率的な線形複雑度法を採用するだけでは必ずしも改善が得られず, 性能も低下する可能性があるため, これは容易ではない。
この劣化はマルチモーダルアライメントにおける高さ情報の損失によるもので、配列順のずれにつながる。
これを解決するために,連続空間におけるボクセル圧縮による正確な高さ情報を保存する高忠実度LiDAR符号化を提案し,カメラとLiDARのアライメントを向上させる。
続いて,高度インフォームド機能を活用したHybrid Mamba Blockを導入し,局所的およびグローバルな文脈学習を行う。
これらの要素を統合することで,高分解能入力を用いた手法を超越して,NUScenes検証ベンチマークにおいて,最上位の75.0のNDSスコアで最先端の性能を実現する。
一方,本手法は効率を保ち,最近の最先端手法よりも高速な推論速度を実現する。
関連論文リスト
- MambaNeXt-YOLO: A Hybrid State Space Model for Real-time Object Detection [4.757840725810513]
YOLOシリーズモデルは、速度と精度のバランスをとることで、強力なベンチマークを設定している。
トランスフォーマーは自己アテンション機構のため、計算の複雑さが高い。
精度と効率のバランスをとる新しいオブジェクト検出フレームワークであるMambaNeXt-YOLOを提案する。
論文 参考訳(メタデータ) (2025-06-04T07:46:24Z) - S3MOT: Monocular 3D Object Tracking with Selective State Space Model [3.5047603107971397]
3次元空間における多物体追跡は、ロボット工学とコンピュータ応用の進歩に不可欠である。
2Dビデオストリームからの3Dアソシエーションのマイニングが難しいため、モノラルなセットアップでは依然として大きな課題である。
モノクローナル3次元MOTのための不均一なキューの融合を促進するための3つの革新的な技術を提案する。
論文 参考訳(メタデータ) (2025-04-25T04:45:35Z) - Efficient Multimodal 3D Object Detector via Instance-Level Contrastive Distillation [17.634678949648208]
提案したICDフレームワークとCLFM(Cross Linear Attention Fusion Module)を組み込んだ高速かつ効果的なマルチモーダル3Dオブジェクト検出器を提案する。
我々の3Dオブジェクト検出器は、より優れた効率を実現しつつ、最先端(SOTA)手法より優れています。
論文 参考訳(メタデータ) (2025-03-17T08:26:11Z) - MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - Mamba-based Light Field Super-Resolution with Efficient Subspace Scanning [48.99361249764921]
4次元光場(LF)超解像において,トランスフォーマー法は優れた性能を示した。
しかし、その二次的な複雑さは、高解像度の4D入力の効率的な処理を妨げる。
我々は,効率的な部分空間走査戦略を設計し,マンバをベースとした光場超解法 MLFSR を提案する。
論文 参考訳(メタデータ) (2024-06-23T11:28:08Z) - MLF-DET: Multi-Level Fusion for Cross-Modal 3D Object Detection [54.52102265418295]
MLF-DETと呼ばれる,高性能なクロスモーダル3DオブジェクトDrectionのための,新規かつ効果的なマルチレベルフュージョンネットワークを提案する。
特徴レベルの融合では、マルチスケールのボクセル特徴と画像の特徴を密集したマルチスケールのボクセル画像融合(MVI)モジュールを提示する。
本稿では,画像のセマンティクスを利用して検出候補の信頼度を補正するFCR(Feature-cued Confidence Rectification)モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-18T11:26:02Z) - Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object
Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。
これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。
我々は、最先端の核融合法を初めてベンチマークした。
論文 参考訳(メタデータ) (2022-05-30T09:35:37Z) - Exploring Data Augmentation for Multi-Modality 3D Object Detection [82.9988604088494]
ポイントクラウドとイメージに基づくマルチモダリティメソッドは、ポイントクラウドのみを使用するアプローチよりも、わずかに良いか、時には悪いだけである。
トランスフォーメーションフローと呼ばれるパイプラインを提案し、トランスフォーメーションのリバースとリプレイによってシングルモードとマルチモードのデータ拡張のギャップを埋める。
また,本手法は第3回nuScenes検出チャレンジでPKL賞を受賞した。
論文 参考訳(メタデータ) (2020-12-23T15:23:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。