論文の概要: DriveMamba: Task-Centric Scalable State Space Model for Efficient End-to-End Autonomous Driving
- arxiv url: http://arxiv.org/abs/2602.13301v1
- Date: Mon, 09 Feb 2026 11:48:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:27.834476
- Title: DriveMamba: Task-Centric Scalable State Space Model for Efficient End-to-End Autonomous Driving
- Title(参考訳): DriveMamba: 効率的なエンドツーエンド自律運転のためのタスク中心のスケーラブルな状態空間モデル
- Authors: Haisheng Su, Wei Wu, Feixiang Song, Junjie Zhang, Zhenjie Yang, Junchi Yan,
- Abstract要約: DriveMambaは、効率的なE2E-ADのためのタスク中心のスケーラブルパラダイムである。
シーケンシャルなタスク関係モデリング、暗黙の対応学習、長期の時間的融合を単一ステージのUnified Mambaデコーダに統合する。
nuScenesとBench2Driveデータセットで実施された大規模な実験は、DriveMambaの優位性、一般化性、および大幅な効率性を実証している。
- 参考スコア(独自算出の注目度): 47.573692944838115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances towards End-to-End Autonomous Driving (E2E-AD) have been often devoted on integrating modular designs into a unified framework for joint optimization e.g. UniAD, which follow a sequential paradigm (i.e., perception-prediction-planning) based on separable Transformer decoders and rely on dense BEV features to encode scene representations. However, such manual ordering design can inevitably cause information loss and cumulative errors, lacking flexible and diverse relation modeling among different modules and sensors. Meanwhile, insufficient training of image backbone and quadratic-complexity of attention mechanism also hinder the scalability and efficiency of E2E-AD system to handle spatiotemporal input. To this end, we propose DriveMamba, a Task-Centric Scalable paradigm for efficient E2E-AD, which integrates dynamic task relation modeling, implicit view correspondence learning and long-term temporal fusion into a single-stage Unified Mamba decoder. Specifically, both extracted image features and expected task outputs are converted into token-level sparse representations in advance, which are then sorted by their instantiated positions in 3D space. The linear-complexity operator enables efficient long-context sequential token modeling to capture task-related inter-dependencies simultaneously. Additionally, a bidirectional trajectory-guided "local-to-global" scan method is designed to preserve spatial locality from ego-perspective, thus facilitating the ego-planning. Extensive experiments conducted on nuScenes and Bench2Drive datasets demonstrate the superiority, generalizability and great efficiency of DriveMamba.
- Abstract(参考訳): E2E-AD(End-to-End Autonomous Driving)への最近の進歩は、モジュール設計を統合された統合最適化フレームワークeg UniAD(英語版)に統合することに集中しており、これは分離可能なトランスフォーマーデコーダに基づく逐次パラダイム(知覚予測計画)に従っており、シーン表現をエンコードするために密度の高いBEV機能に依存している。
しかし、このような手動注文設計は、情報損失や累積誤差を必然的に引き起こし、異なるモジュールやセンサー間のフレキシブルで多様な関係モデリングを欠いている。
一方、画像バックボーンの訓練が不十分であり、注意機構の2次複雑性も、時空間入力を処理するためのE2E-ADシステムのスケーラビリティと効率を損なう。
この目的のために我々は,動的タスク関係モデリング,暗黙的なビュー対応学習,長期時間融合を統合した,効率的なE2E-ADのためのタスク中心のスケーラブルパラダイムであるDriveMambaを提案する。
具体的には、抽出された画像の特徴と期待されたタスク出力の両方を事前にトークンレベルのスパース表現に変換し、3次元空間におけるそれらのインスタンス化された位置によってソートする。
線形複雑度演算子は、効率的な長文シーケンシャルトークンモデリングにより、タスク関連の相互依存性を同時にキャプチャすることができる。
さらに, 空間的局所性をエゴ・パースペクティブから保護し, エゴ・プランニングを容易にするために, 双方向軌跡誘導型局所グロバルスキャン法を考案した。
nuScenesとBench2Driveデータセットで実施された大規模な実験は、DriveMambaの優位性、一般化性、および大幅な効率性を実証している。
関連論文リスト
- MM-DETR: An Efficient Multimodal Detection Transformer with Mamba-Driven Dual-Granularity Fusion and Frequency-Aware Modality Adapters [12.063966356953186]
マルチモーダルリモートセンシングオブジェクト検出は、困難条件下でより正確で堅牢な認識を実現することを目的としている。
注意に基づく、あるいは変形可能な畳み込み融合ブロックに依存する既存のアプローチは、依然としてパフォーマンスと軽量設計のバランスをとるのに苦労している。
マルチモーダルオブジェクト検出のための軽量かつ効率的なフレームワークMM-DETRを提案する。
論文 参考訳(メタデータ) (2025-11-29T07:23:01Z) - MambaTAD: When State-Space Models Meet Long-Range Temporal Action Detection [94.12444452690329]
本稿では,長距離モデリングとグローバル機能検出機能を導入した新しい状態空間TADモデルであるMambaTADを提案する。
MambaTADは、複数の公開ベンチマークで一貫して優れたTAD性能を達成する。
論文 参考訳(メタデータ) (2025-11-22T06:04:29Z) - GMF-Drive: Gated Mamba Fusion with Spatial-Aware BEV Representation for End-to-End Autonomous Driving [5.450011907283289]
本稿では, GMF-Driveを紹介した。これは2つの原則的イノベーションを通じて, 課題を克服するエンドツーエンドフレームワークである。
まず、情報制限ヒストグラムに基づくLiDAR表現を、幾何学的に拡張された柱形式で置き換える。
第二に,高効率空間認識状態空間モデルを用いた高価な変圧器を代替する新しい階層型マンバ融合アーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-08-08T08:17:18Z) - SOLVE: Synergy of Language-Vision and End-to-End Networks for Autonomous Driving [51.47621083057114]
SOLVEは、ビジョンランゲージモデルとエンド・ツー・エンド(E2E)モデルを相乗化して自動運転車の計画を強化する革新的なフレームワークである。
提案手法は,VLMとE2Eコンポーネント間の包括的インタラクションを実現するために,共有ビジュアルエンコーダによる機能レベルでの知識共有を重視している。
論文 参考訳(メタデータ) (2025-05-22T15:44:30Z) - DriveTransformer: Unified Transformer for Scalable End-to-End Autonomous Driving [62.62464518137153]
DriveTransformerは、スケールアップを簡単にするためのシンプルなE2E-ADフレームワークである。
タスク・セルフ・アテンション、センサー・クロス・アテンション、時間的クロス・アテンションという3つの統合された操作で構成されている。
シミュレーションされたクローズドループベンチマークBench2Driveと、FPSの高い実世界のオープンループベンチマークnuScenesの両方で、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-03-07T11:41:18Z) - An Efficient Self-Supervised Framework for Long-Sequence EEG Modeling [2.1232375739287006]
脳波表現学習のための自己教師型フレームワークであるEEGM2を提案する。
EEGM2は、ショートシーケンスとロングシーケンスの両方のモデリングと分類において最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-02-25T05:57:56Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。