論文の概要: Automatic Curriculum Learning for Driving Scenarios: Towards Robust and Efficient Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.08264v1
- Date: Tue, 13 May 2025 06:26:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.449262
- Title: Automatic Curriculum Learning for Driving Scenarios: Towards Robust and Efficient Reinforcement Learning
- Title(参考訳): シナリオの自動学習 -ロバストで効率的な強化学習を目指して-
- Authors: Ahmed Abouelazm, Tim Weinstein, Tim Joseph, Philip Schörner, J. Marius Zöllner,
- Abstract要約: 本稿では、強化学習(RL)を用いたエンドツーエンド自動運転エージェントの訓練の課題について述べる。
RLエージェントは通常、シミュレーションにおいて周囲の道路利用者の一定のシナリオと名目上の振る舞いで訓練される。
本稿では,エージェントの進化能力に基づいて,適応性のある複雑な運転シナリオを動的に生成する自動カリキュラム学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 11.602831593017427
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper addresses the challenges of training end-to-end autonomous driving agents using Reinforcement Learning (RL). RL agents are typically trained in a fixed set of scenarios and nominal behavior of surrounding road users in simulations, limiting their generalization and real-life deployment. While domain randomization offers a potential solution by randomly sampling driving scenarios, it frequently results in inefficient training and sub-optimal policies due to the high variance among training scenarios. To address these limitations, we propose an automatic curriculum learning framework that dynamically generates driving scenarios with adaptive complexity based on the agent's evolving capabilities. Unlike manually designed curricula that introduce expert bias and lack scalability, our framework incorporates a ``teacher'' that automatically generates and mutates driving scenarios based on their learning potential -- an agent-centric metric derived from the agent's current policy -- eliminating the need for expert design. The framework enhances training efficiency by excluding scenarios the agent has mastered or finds too challenging. We evaluate our framework in a reinforcement learning setting where the agent learns a driving policy from camera images. Comparative results against baseline methods, including fixed scenario training and domain randomization, demonstrate that our approach leads to enhanced generalization, achieving higher success rates: +9\% in low traffic density, +21\% in high traffic density, and faster convergence with fewer training steps. Our findings highlight the potential of ACL in improving the robustness and efficiency of RL-based autonomous driving agents.
- Abstract(参考訳): 本稿では、強化学習(RL)を用いたエンドツーエンドの自動運転エージェントの訓練の課題について述べる。
RLエージェントは典型的には、シミュレーションにおいて周囲の道路利用者の一定のシナリオと名目上の振る舞いで訓練され、その一般化と実生活の展開を制限する。
ドメインランダム化は、駆動シナリオをランダムにサンプリングすることで潜在的な解決策を提供するが、トレーニングシナリオ間のばらつきが大きいため、非効率なトレーニングと準最適ポリシーが頻繁に生じる。
これらの制約に対処するために,エージェントの進化能力に基づいた適応的複雑化を伴う運転シナリオを動的に生成する自動カリキュラム学習フレームワークを提案する。
専門家のバイアスを導入しスケーラビリティを欠く手動設計のカリキュラムとは異なり、我々のフレームワークは'teacher'を組み込んでおり、エージェントの現在のポリシーから派生したエージェント中心のメトリクスである学習可能性に基づいて、駆動シナリオを自動的に生成し、変更します。
このフレームワークは、エージェントが習得したシナリオを除外し、あるいは難しすぎると判断することで、トレーニング効率を高める。
我々は,カメラ画像からエージェントが運転方針を学習する強化学習環境において,我々の枠組みを評価する。
固定シナリオトレーニングやドメインランダム化を含むベースライン手法との比較により,本手法が一般化の促進,低トラフィック密度の+9\%,高トラフィック密度の+21\%,少ないトレーニングステップでの収束の高速化を実現していることが示された。
RLをベースとした自動運転エージェントのロバスト性および効率性向上におけるACLの可能性を明らかにする。
関連論文リスト
- TeLL-Drive: Enhancing Autonomous Driving with Teacher LLM-Guided Deep Reinforcement Learning [61.33599727106222]
TeLL-Driveは、Teacher LLMを統合して、注意に基づく学生DRLポリシーをガイドするハイブリッドフレームワークである。
自己維持機構はDRLエージェントの探索とこれらの戦略を融合させ、政策収束を加速し、堅牢性を高める。
論文 参考訳(メタデータ) (2025-02-03T14:22:03Z) - CuRLA: Curriculum Learning Based Deep Reinforcement Learning for Autonomous Driving [1.188383832081829]
深層強化学習(DRL)エージェントは、経験から学び、報酬を最大化する。
本稿では,DRLとカリキュラム学習を組み合わせた自動運転手法を提案する。
論文 参考訳(メタデータ) (2025-01-09T05:45:03Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - From Imitation to Exploration: End-to-end Autonomous Driving based on World Model [24.578178308010912]
RAMBLEは、意思決定を駆動するエンド・ツー・エンドの世界モデルベースのRL方式である。
複雑な動的トラフィックシナリオを処理できる。
CARLA Leaderboard 1.0では、ルート完了率の最先端のパフォーマンスを達成し、CARLA Leaderboard 2.0では38のシナリオをすべて完了している。
論文 参考訳(メタデータ) (2024-10-03T06:45:59Z) - Importance Sampling-Guided Meta-Training for Intelligent Agents in Highly Interactive Environments [43.144056801987595]
本研究では,ガイド付きメタRLと重要サンプリング(IS)を統合し,トレーニング分布を最適化する新たなトレーニングフレームワークを提案する。
現実世界のデータセットから自然な分布を推定することにより、このフレームワークは、共通および極端な駆動シナリオ間のバランスのとれたフォーカスを保証する。
論文 参考訳(メタデータ) (2024-07-22T17:57:12Z) - Improving Generalization of Reinforcement Learning with Minimax
Distributional Soft Actor-Critic [11.601356612579641]
本稿では,RLアルゴリズムの一般化能力を向上させるために,ミニマックスの定式化と分散フレームワークを提案する。
我々は交差点における自動運転車の意思決定タスクに本手法を実装し,異なる環境下で訓練された政策を検証した。
論文 参考訳(メタデータ) (2020-02-13T14:09:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。