論文の概要: MAPLE: Latent Multi-Agent Play for End-to-End Autonomous Driving
- arxiv url: http://arxiv.org/abs/2605.14201v2
- Date: Tue, 19 May 2026 23:20:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 14:55:44.110609
- Title: MAPLE: Latent Multi-Agent Play for End-to-End Autonomous Driving
- Title(参考訳): MAPLE: エンド・ツー・エンド自動運転のマルチエージェント・プレイ
- Authors: Rajeev Yasarla, Deepti Hegde, Hsin-Pai Cheng, Shizhong Han, Yunxiao Shi, Meysam Sadeghigooghari, Hanno Ackermann, Litian Liu, Pranav Desai, Fatih Porikli, Mohammad Ghavamzadeh, Hong Cai,
- Abstract要約: 視覚言語-アクション(VLA)モデルは、エンドツーエンドのモーションプランナーとして有効であるが、クローズドループ設定で評価すると不安定である。
本稿では, VLAモデルの潜在空間における動的駆動シナリオの, リアクティブでマルチエージェントなロールアウトのための新しいフレームワークMAPLEを提案する。
MAPLEはBench2Driveで最先端の駆動性能を実現し、堅牢なE2E自動運転システムのためのスケーラブルでクローズループなマルチエージェントプレイを実演する。
- 参考スコア(独自算出の注目度): 62.43744546817599
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language-action (VLA) models are effective as end-to-end motion planners, but can be brittle when evaluated in closed-loop settings due to being trained under traditional imitation learning framework. Existing closed-loop supervision approaches lack scalability and fail to completely model a reactive environment. We propose MAPLE, a novel framework for reactive, multi-agent rollout of a dynamic driving scenario in the latent space of the VLA model. The ego vehicle and nearby traffic agents are independently controlled over multi-step horizons, while being reactive to other agents in the scene, enabling closed-loop training. MAPLE consists of two training stages: (1) supervised fine-tuning on the latent rollouts based on ground-truth trajectories, followed by (2) reinforcement learning with global and agent -specific rewards that encourage safety, progress, and interaction realism. We further propose diversity rewards that encourage the model to generate planning behaviors that may not be present in logged driving data. Notably, our closed-loop training framework is scalable and does not require external simulators, which can be computationally expensive to run and have limited visual fidelity to the real-world. MAPLE achieves state-of-the-art driving performance on Bench2Drive and demonstrates scalable, closed-loop multi-agent play for robust E2E autonomous driving systems.
- Abstract(参考訳): 視覚言語アクション(VLA)モデルは、エンドツーエンドのモーションプランナーとして有効であるが、従来の模倣学習フレームワークでトレーニングされているため、クローズドループ設定で評価すると不安定になる可能性がある。
既存のクローズドループ監視アプローチにはスケーラビリティがなく、リアクティブ環境を完全にモデル化することができない。
本稿では, VLAモデルの潜在空間における動的駆動シナリオの, リアクティブでマルチエージェントなロールアウトのための新しいフレームワークMAPLEを提案する。
エゴの車両と近くの交通機関は、シーン内の他のエージェントと反応しながら、複数のステップの水平線で独立に制御され、クローズドループの訓練を可能にしている。
MAPLEは,(1)地道軌道に基づく潜伏ロールアウトの監督的微調整,(2)グローバルとエージェントによる強化学習と,安全性,進歩,相互作用リアリズムの促進という2つの訓練段階から構成される。
さらに、ログ化された運転データに存在しないかもしれない計画行動を生成するようモデルに促す多様性報酬を提案する。
特に、クローズドループトレーニングフレームワークはスケーラブルであり、外部シミュレータを必要としない。
MAPLEはBench2Driveで最先端の駆動性能を実現し、堅牢なE2E自動運転システムのためのスケーラブルでクローズループなマルチエージェントプレイを実演する。
関連論文リスト
- AutoDrive-R$^2$: Incentivizing Reasoning and Self-Reflection Capacity for VLA Model in Autonomous Driving [37.260140808367716]
本稿では,自律運転システムの推論能力と自己回帰能力を両立させる新しいVLAフレームワークであるAutoDrive-R$2$を提案する。
まず,教師付き微調整のための新しいCoTデータセット nuScenesR$2$-6K を提案する。
次に, グループ相対政策最適化(GRPO)アルゴリズムを用いて, 信頼性の高い滑らかさと現実的な軌道計画を実現する。
論文 参考訳(メタデータ) (2025-09-02T04:32:24Z) - ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving [49.07731497951963]
ReCogDriveは、エンドツーエンドの自動運転のための新しい強化認知フレームワークである。
我々は、人間のドライバーのシーケンシャルな認知過程を模倣する階層的なデータパイプラインを導入する。
次に、VLMの学習した運転先を拡散プランナーに注入することで、言語行動ミスマッチに対処する。
論文 参考訳(メタデータ) (2025-06-09T03:14:04Z) - RIFT: Group-Relative RL Fine-Tuning for Realistic and Controllable Traffic Simulation [13.319344167881383]
データ駆動シミュレーターにおいて、模擬学習事前学習を行う2段階のAV中心シミュレーションフレームワークを導入する。
次に、物理に基づくシミュレータで微調整を学習し、スタイルレベルの制御性を向上する。
微調整段階において,新しいグループ関連RL微調整戦略であるRIFTを提案する。
論文 参考訳(メタデータ) (2025-05-06T09:12:37Z) - VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision [17.36342349850825]
教師としての視覚言語モデル(VLM)は、追加の監督を提供することで訓練を強化する。
VLM-ADは、nuScenesデータセットの計画精度と衝突率の大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-12-19T01:53:36Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - SAFE-SIM: Safety-Critical Closed-Loop Traffic Simulation with Diffusion-Controllable Adversaries [94.84458417662407]
制御可能なクローズドループ安全クリティカルシミュレーションフレームワークであるSAFE-SIMを紹介する。
提案手法は,1)現実の環境を深く反映した現実的な長距離安全クリティカルシナリオの生成,2)より包括的でインタラクティブな評価のための制御可能な敵行動の提供,の2つの利点をもたらす。
複数のプランナにまたがるnuScenesとnuPlanデータセットを使用して、我々のフレームワークを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文 参考訳(メタデータ) (2023-12-31T04:14:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。