論文の概要: Raw2Drive: Reinforcement Learning with Aligned World Models for End-to-End Autonomous Driving (in CARLA v2)
- arxiv url: http://arxiv.org/abs/2505.16394v1
- Date: Thu, 22 May 2025 08:46:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.158451
- Title: Raw2Drive: Reinforcement Learning with Aligned World Models for End-to-End Autonomous Driving (in CARLA v2)
- Title(参考訳): Raw2Drive:(CARLA v2における)エンド・ツー・エンドの自動運転のための調整された世界モデルによる強化学習
- Authors: Zhenjie Yang, Xiaosong Jia, Qifeng Li, Xue Yang, Maoqing Yao, Junchi Yan,
- Abstract要約: 強化学習(RL)は、模倣学習(IL)に固有の因果的混乱と分布変化を軽減することができる
RLをエンドツーエンドの自動運転(E2E-AD)に適用することは、その訓練の難しさにおいて未解決の問題である。
- 参考スコア(独自算出の注目度): 46.66441684025149
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reinforcement Learning (RL) can mitigate the causal confusion and distribution shift inherent to imitation learning (IL). However, applying RL to end-to-end autonomous driving (E2E-AD) remains an open problem for its training difficulty, and IL is still the mainstream paradigm in both academia and industry. Recently Model-based Reinforcement Learning (MBRL) have demonstrated promising results in neural planning; however, these methods typically require privileged information as input rather than raw sensor data. We fill this gap by designing Raw2Drive, a dual-stream MBRL approach. Initially, we efficiently train an auxiliary privileged world model paired with a neural planner that uses privileged information as input. Subsequently, we introduce a raw sensor world model trained via our proposed Guidance Mechanism, which ensures consistency between the raw sensor world model and the privileged world model during rollouts. Finally, the raw sensor world model combines the prior knowledge embedded in the heads of the privileged world model to effectively guide the training of the raw sensor policy. Raw2Drive is so far the only RL based end-to-end method on CARLA Leaderboard 2.0, and Bench2Drive and it achieves state-of-the-art performance.
- Abstract(参考訳): 強化学習(RL)は、模倣学習(IL)に固有の因果的混乱と分布シフトを軽減することができる。
しかしながら、エンド・ツー・エンドの自動運転(E2E-AD)にRLを適用することは、その訓練の難しさにおいて未解決の問題であり、ILは学術と産業の両方において依然として主流のパラダイムである。
近年、モデルベース強化学習(MBRL)は、神経計画において有望な結果を証明しているが、これらの手法は一般的に、生センサデータではなく、入力として特権情報を必要とする。
両ストリームMBRLアプローチであるRaw2Driveを設計することで、このギャップを埋める。
当初我々は、特権情報を入力として使用するニューラルプランナーと組み合わせた特権的世界モデルを効率的に訓練する。
続いて,本提案手法を用いて学習した生センサワールドモデルを導入し,ロールアウト時の生センサワールドモデルと特権ワールドモデルとの整合性を確保する。
最後に、原センサーワールドモデルは、特権世界モデルの先頭に埋め込まれた事前知識を組み合わせて、原センサーポリシーのトレーニングを効果的に指導する。
Raw2Driveは今のところ、CARLA Leaderboard 2.0とBench2Driveで唯一のRLベースのエンドツーエンドメソッドであり、最先端のパフォーマンスを実現している。
関連論文リスト
- Accelerating Model-Based Reinforcement Learning with State-Space World Models [18.71404724458449]
強化学習(Reinforcement Learning, RL)は、ロボット学習における強力なアプローチである。
しかし、モデルフリーRL(MFRL)は、制御ポリシーをうまく学習するために、多数の環境相互作用を必要とする。
状態空間世界モデルを用いたモデルベースRLの高速化手法を提案する。
論文 参考訳(メタデータ) (2025-02-27T15:05:25Z) - From Imitation to Exploration: End-to-end Autonomous Driving based on World Model [24.578178308010912]
RAMBLEは、意思決定を駆動するエンド・ツー・エンドの世界モデルベースのRL方式である。
複雑な動的トラフィックシナリオを処理できる。
CARLA Leaderboard 1.0では、ルート完了率の最先端のパフォーマンスを達成し、CARLA Leaderboard 2.0では38のシナリオをすべて完了している。
論文 参考訳(メタデータ) (2024-10-03T06:45:59Z) - Mitigating Covariate Shift in Imitation Learning for Autonomous Vehicles Using Latent Space Generative World Models [60.87795376541144]
World Model(ワールドモデル)は、エージェントの次の状態を予測できるニューラルネットワークである。
エンド・ツー・エンドのトレーニングでは、人間のデモで観察された状態と整合してエラーから回復する方法を学ぶ。
クローズドループ試験における先行技術に有意な改善がみられた定性的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-09-25T06:48:25Z) - Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
我々は、報酬モデルと政策モデルを同時に構築するために、逆強化学習(IRL)技術を活用することを提案する。
提案アルゴリズムはIRL問題の定常解に収束することを示す。
その結果,アライメントプロセス全体を通じて報酬学習を活用することは有益であることが示唆された。
論文 参考訳(メタデータ) (2024-05-28T07:11:05Z) - Sense, Imagine, Act: Multimodal Perception Improves Model-Based
Reinforcement Learning for Head-to-Head Autonomous Racing [10.309579267966361]
モデルベース強化学習(MBRL)技術は、最近、現実の自律レースに有望な結果をもたらした。
本稿では,F1TENTH Gymから収集した自家中心型LiDARとRGBカメラ観測を組み合わせた自己教師型センサ融合手法を提案する。
その結果、ドリーマーのエージェントは衝突を安全に回避し、ゼロショット・ヘッド・ツー・ヘッド・オートレースでテストされた他のベースラインと比較すると、最も多くのレースに勝利した。
論文 参考訳(メタデータ) (2023-05-08T14:49:02Z) - Vision-Based Autonomous Car Racing Using Deep Imitative Reinforcement
Learning [13.699336307578488]
深層模倣強化学習(DIRL)は、視覚入力を使用してアジャイルな自律レースを実現する。
我々は,高忠実性運転シミュレーションと実世界の1/20スケールRC-car上での車載計算の制限により,本アルゴリズムの有効性を検証した。
論文 参考訳(メタデータ) (2021-07-18T00:00:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。