論文の概要: ME$^3$-BEV: Mamba-Enhanced Deep Reinforcement Learning for End-to-End Autonomous Driving with BEV-Perception
- arxiv url: http://arxiv.org/abs/2508.06074v1
- Date: Fri, 08 Aug 2025 07:13:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.114836
- Title: ME$^3$-BEV: Mamba-Enhanced Deep Reinforcement Learning for End-to-End Autonomous Driving with BEV-Perception
- Title(参考訳): ME$3$-BEV:BEVによるエンド・ツー・エンド自動運転のためのマンバ強化深部強化学習
- Authors: Siyi Lu, Run Liu, Dongsheng Yang, Lei He,
- Abstract要約: 本稿では,ディープラーニング強化(DRL)を用いた自律運転の新しいアプローチを提案する。
我々は,BEVに基づく知覚と時間的特徴モデリングのためのMambaフレームワークを組み合わせた,効率的な時間的特徴抽出ネットワークであるtextttMamba-BEV モデルを提案する。
そこで我々は,動的な都市運転シナリオにおいて,優れた性能を実現するためのtextttME$3$-BEVフレームワークを提案する。
- 参考スコア(独自算出の注目度): 3.337516332070527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous driving systems face significant challenges in perceiving complex environments and making real-time decisions. Traditional modular approaches, while offering interpretability, suffer from error propagation and coordination issues, whereas end-to-end learning systems can simplify the design but face computational bottlenecks. This paper presents a novel approach to autonomous driving using deep reinforcement learning (DRL) that integrates bird's-eye view (BEV) perception for enhanced real-time decision-making. We introduce the \texttt{Mamba-BEV} model, an efficient spatio-temporal feature extraction network that combines BEV-based perception with the Mamba framework for temporal feature modeling. This integration allows the system to encode vehicle surroundings and road features in a unified coordinate system and accurately model long-range dependencies. Building on this, we propose the \texttt{ME$^3$-BEV} framework, which utilizes the \texttt{Mamba-BEV} model as a feature input for end-to-end DRL, achieving superior performance in dynamic urban driving scenarios. We further enhance the interpretability of the model by visualizing high-dimensional features through semantic segmentation, providing insight into the learned representations. Extensive experiments on the CARLA simulator demonstrate that \texttt{ME$^3$-BEV} outperforms existing models across multiple metrics, including collision rate and trajectory accuracy, offering a promising solution for real-time autonomous driving.
- Abstract(参考訳): 自律運転システムは、複雑な環境を認識し、リアルタイムな意思決定を行う上で、重大な課題に直面します。
従来のモジュラーアプローチは、解釈可能性を提供する一方で、エラーの伝搬と調整の問題に悩まされ、エンドツーエンドの学習システムは設計を単純化するが、計算のボトルネックに直面する。
本稿では,鳥眼視(BEV)の認識を統合した深部強化学習(DRL)を用いた自律走行手法を提案する。
本稿では,BEVに基づく知覚と時間的特徴モデリングのためのMambaフレームワークを組み合わせた,効率的な時空間特徴抽出ネットワークである‘texttt{Mamba-BEV} モデルを提案する。
この統合により、統合された座標系において車両の周囲と道路の特徴を符号化し、長距離依存を正確にモデル化することができる。
そこで我々は, エンド・ツー・エンド DRL の機能入力として \texttt{ME$^3$-BEV} モデルを用いて, 動的都市運転シナリオにおいて優れた性能を実現するためのフレームワークである \textt{ME$^3$-BEV} を提案する。
意味的セグメンテーションを通じて高次元特徴を可視化し、学習した表現の洞察を提供することにより、モデルの解釈可能性をさらに向上する。
CARLAシミュレータの大規模な実験により、 \texttt{ME$^3$-BEV} は、衝突速度や軌道精度などの既存のモデルよりも優れており、リアルタイム自動運転のための有望なソリューションを提供することが示された。
関連論文リスト
- Deep Bilinear Koopman Model for Real-Time Vehicle Control in Frenet Frame [0.0]
本稿では,カービリニアFrenetフレーム内の車両力学のモデリングと制御のための深いクープマン手法を提案する。
提案フレームワークは、深層ニューラルネットワークアーキテクチャを使用して、データからクープマン演算子とその関連する不変部分空間を同時に学習する。
提案した制御器は, ベースライン制御器と比較して追従誤差を著しく低減し, 組込み自動運転車システムにおけるリアルタイム実装に適していることを確認した。
論文 参考訳(メタデータ) (2025-07-16T18:49:44Z) - SOLVE: Synergy of Language-Vision and End-to-End Networks for Autonomous Driving [51.47621083057114]
SOLVEは、ビジョンランゲージモデルとエンド・ツー・エンド(E2E)モデルを相乗化して自動運転車の計画を強化する革新的なフレームワークである。
提案手法は,VLMとE2Eコンポーネント間の包括的インタラクションを実現するために,共有ビジュアルエンコーダによる機能レベルでの知識共有を重視している。
論文 参考訳(メタデータ) (2025-05-22T15:44:30Z) - MambaBEV: An efficient 3D detection model with Mamba2 [4.667459324253689]
MambaBEVは、長いシーケンス処理に最適化された高度な状態空間モデル(SSM)であるMamba2を利用する、BEVベースの3Dオブジェクト検出モデルである。
マンバBEVベースのNDSは51.7%、mAPは42.7%である。
本研究は, 自律運転知覚におけるSSMの可能性, 特に大域的文脈理解と大規模物体検出の強化について明らかにした。
論文 参考訳(メタデータ) (2024-10-16T15:37:29Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - Hierarchical and Decoupled BEV Perception Learning Framework for Autonomous Driving [52.808273563372126]
本稿では,基本認識モジュールとユーザフレンドリなグラフィカルインタフェースのライブラリの提供を目的とした,新しい階層的BEV知覚パラダイムを提案する。
我々は,大規模公開データセットと合理化開発プロセスを効果的に活用するために,Pretrain-Finetune戦略を実行している。
また、マルチモジュールラーニング(MML)アプローチを提案し、複数のモデルの相乗的かつ反復的な訓練により性能を向上させる。
論文 参考訳(メタデータ) (2024-07-17T11:17:20Z) - BEVWorld: A Multimodal World Simulator for Autonomous Driving via Scene-Level BEV Latents [56.33989853438012]
BEVWorldは,マルチモーダルセンサ入力を統一的でコンパクトなBird's Eye View潜在空間に変換し,全体的環境モデリングを行うフレームワークである。
提案する世界モデルは,多モードトークン化器と遅延BEVシーケンス拡散モデルという2つの主要成分から構成される。
論文 参考訳(メタデータ) (2024-07-08T07:26:08Z) - Drive Anywhere: Generalizable End-to-end Autonomous Driving with
Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。
当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文 参考訳(メタデータ) (2023-10-26T17:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。