論文の概要: GMF-Drive: Gated Mamba Fusion with Spatial-Aware BEV Representation for End-to-End Autonomous Driving
- arxiv url: http://arxiv.org/abs/2508.06113v2
- Date: Tue, 12 Aug 2025 15:02:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 12:16:51.398859
- Title: GMF-Drive: Gated Mamba Fusion with Spatial-Aware BEV Representation for End-to-End Autonomous Driving
- Title(参考訳): GMF-Drive:エンド・ツー・エンド自動運転のための空間認識型BEV表示付きガンバ核融合
- Authors: Jian Wang, Chaokang Jiang, Haitao Xu,
- Abstract要約: 本稿では, GMF-Driveを紹介した。これは2つの原則的イノベーションを通じて, 課題を克服するエンドツーエンドフレームワークである。
まず、情報制限ヒストグラムに基づくLiDAR表現を、幾何学的に拡張された柱形式で置き換える。
第二に,高効率空間認識状態空間モデルを用いた高価な変圧器を代替する新しい階層型マンバ融合アーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 5.450011907283289
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based models are redefining the state-of-the-art in end-to-end autonomous driving, yet their performance is increasingly hampered by a reliance on transformer-based fusion. These architectures face fundamental limitations: quadratic computational complexity restricts the use of high-resolution features, and a lack of spatial priors prevents them from effectively modeling the inherent structure of Bird's Eye View (BEV) representations. This paper introduces GMF-Drive (Gated Mamba Fusion for Driving), an end-to-end framework that overcomes these challenges through two principled innovations. First, we supersede the information-limited histogram-based LiDAR representation with a geometrically-augmented pillar format encoding shape descriptors and statistical features, preserving critical 3D geometric details. Second, we propose a novel hierarchical gated mamba fusion (GM-Fusion) architecture that substitutes an expensive transformer with a highly efficient, spatially-aware state-space model (SSM). Our core BEV-SSM leverages directional sequencing and adaptive fusion mechanisms to capture long-range dependencies with linear complexity, while explicitly respecting the unique spatial properties of the driving scene. Extensive experiments on the challenging NAVSIM benchmark demonstrate that GMF-Drive achieves a new state-of-the-art performance, significantly outperforming DiffusionDrive. Comprehensive ablation studies validate the efficacy of each component, demonstrating that task-specific SSMs can surpass a general-purpose transformer in both performance and efficiency for autonomous driving.
- Abstract(参考訳): 拡散ベースのモデルは、エンドツーエンドの自動運転における最先端技術を再定義しているが、トランスフォーマーベースの融合に依存することで、その性能はますます妨げられている。
二次計算複雑性は高分解能な特徴の使用を制限し、空間的事前の欠如により、バードアイビュー(BEV)表現の本質的な構造を効果的にモデル化することができない。
本稿では,GMF-Drive(Gated Mamba Fusion for Driving)について紹介する。
まず、情報制限ヒストグラムに基づくLiDAR表現を、形状記述子と統計的特徴を符号化した幾何学的に拡張された柱形式に置き換え、重要な3次元幾何学的詳細を保存する。
第2に,高効率空間認識状態空間モデル(SSM)を用いた高価なトランスフォーマーを代替する,新しい階層型ゲートマンバ融合(GM-Fusion)アーキテクチャを提案する。
我々の中心となるBEV-SSMは、方向シークエンシングと適応融合機構を利用して、運転シーンのユニークな空間特性を明示的に尊重しつつ、線形複雑で長距離依存を捉える。
挑戦的なNAVSIMベンチマークに関する大規模な実験は、GMF-Driveが新しい最先端のパフォーマンスを実現し、DiffusionDriveを著しく上回っていることを示している。
総合的アブレーション研究は、各コンポーネントの有効性を検証し、タスク固有のSSMが、自律運転におけるパフォーマンスと効率の両方において汎用トランスフォーマーを超えることを実証した。
関連論文リスト
- DualDiff: Dual-branch Diffusion Model for Autonomous Driving with Semantic Fusion [9.225796678303487]
マルチビュー駆動シーン生成のための2分岐条件拡散モデルであるDualDiffを提案する。
Occupancy Ray Sampling (ORS) という意味豊かな3次元表現を数値駆動シーン表現とともに導入する。
モーダル間の情報統合を改善するために,モーダル間の特徴の整合・融合を行うセマンティック・フュージョン・アテンション(SFA)機構を提案する。
論文 参考訳(メタデータ) (2025-05-03T16:20:01Z) - Mamba as a Bridge: Where Vision Foundation Models Meet Vision Language Models for Domain-Generalized Semantic Segmentation [23.702783589405236]
Vision Foundation Models(VFM)とVision-Language Models(VLM)はドメイン一般化セマンティック(DGSS)で注目を集めている。
本稿では, VFM と VLM の強度を効率よく組み合わせた, マンバをベースとした新しい融合フレームワーク MFuser を提案する。
提案手法は,高い計算オーバーヘッドを伴わずに,高精度な特徴局所性と強いテキストアライメントを実現する。
論文 参考訳(メタデータ) (2025-04-04T05:44:45Z) - ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer [58.49950218437718]
音声に同期した高忠実で一般化可能な人体動作を生成するための効率的なフレームワークであるReCoMを提案する。
Recurrent Embedded Transformer (RET)は、動的埋め込み正規化(DER)をViT(Vit)コアアーキテクチャに統合する。
モデルロバスト性を高めるため,ノイズ抵抗とクロスドメイン一般化の二重性を持つモデルに,提案したDER戦略を取り入れた。
論文 参考訳(メタデータ) (2025-03-27T16:39:40Z) - DriveTransformer: Unified Transformer for Scalable End-to-End Autonomous Driving [62.62464518137153]
DriveTransformerは、スケールアップを簡単にするためのシンプルなE2E-ADフレームワークである。
タスク・セルフ・アテンション、センサー・クロス・アテンション、時間的クロス・アテンションという3つの統合された操作で構成されている。
シミュレーションされたクローズドループベンチマークBench2Driveと、FPSの高い実世界のオープンループベンチマークnuScenesの両方で、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-03-07T11:41:18Z) - LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving [52.83707400688378]
LargeADは多用途でスケーラブルなフレームワークで、さまざまな現実世界の運転データセットにわたる大規模3D事前トレーニング用に設計されている。
我々のフレームワークは、VFMを利用して2次元画像から意味的にリッチなスーパーピクセルを抽出し、LiDAR点雲に整列して高品質なコントラストサンプルを生成する。
提案手法は,LDARに基づくセグメント化とオブジェクト検出の両面において,線形探索と微調整の両作業において,最先端の手法よりも大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2025-01-07T18:59:59Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - Multi-Modal Fusion Transformer for End-to-End Autonomous Driving [59.60483620730437]
画像表現とLiDAR表現を注目で統合する,新しいマルチモードフュージョントランスフォーマであるTransFuserを提案する。
本手法は, 衝突を76%低減しつつ, 最先端駆動性能を実現する。
論文 参考訳(メタデータ) (2021-04-19T11:48:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。