論文の概要: Diverse and Adaptive Behavior Curriculum for Autonomous Driving: A Student-Teacher Framework with Multi-Agent RL
- arxiv url: http://arxiv.org/abs/2507.19146v1
- Date: Fri, 25 Jul 2025 10:35:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 14:15:47.143815
- Title: Diverse and Adaptive Behavior Curriculum for Autonomous Driving: A Student-Teacher Framework with Multi-Agent RL
- Title(参考訳): 自律運転のための多元的・適応的行動カリキュラム--マルチエージェントRLを用いた学生教育フレームワーク
- Authors: Ahmed Abouelazm, Johannes Ratz, Philip Schörner, J. Marius Zöllner,
- Abstract要約: 本研究は、自動カリキュラム学習のための新しい学生-教員の枠組みを導入する。
グラフベースのマルチエージェントRLコンポーネントである教師は、さまざまな困難レベルにわたるトラフィックの振る舞いを適応的に生成する。
結果は,多様な交通行動を生成する教師の能力を示す。
- 参考スコア(独自算出の注目度): 11.198097218885191
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous driving faces challenges in navigating complex real-world traffic, requiring safe handling of both common and critical scenarios. Reinforcement learning (RL), a prominent method in end-to-end driving, enables agents to learn through trial and error in simulation. However, RL training often relies on rule-based traffic scenarios, limiting generalization. Additionally, current scenario generation methods focus heavily on critical scenarios, neglecting a balance with routine driving behaviors. Curriculum learning, which progressively trains agents on increasingly complex tasks, is a promising approach to improving the robustness and coverage of RL driving policies. However, existing research mainly emphasizes manually designed curricula, focusing on scenery and actor placement rather than traffic behavior dynamics. This work introduces a novel student-teacher framework for automatic curriculum learning. The teacher, a graph-based multi-agent RL component, adaptively generates traffic behaviors across diverse difficulty levels. An adaptive mechanism adjusts task difficulty based on student performance, ensuring exposure to behaviors ranging from common to critical. The student, though exchangeable, is realized as a deep RL agent with partial observability, reflecting real-world perception constraints. Results demonstrate the teacher's ability to generate diverse traffic behaviors. The student, trained with automatic curricula, outperformed agents trained on rule-based traffic, achieving higher rewards and exhibiting balanced, assertive driving.
- Abstract(参考訳): 自律運転は、複雑な現実世界のトラフィックをナビゲートする際の課題に直面し、一般的なシナリオとクリティカルなシナリオの両方を安全に処理する必要がある。
強化学習(Reinforcement Learning, RL)は、エンドツーエンドの運転において顕著な手法であり、エージェントはシミュレーションにおいて試行錯誤を通じて学習することができる。
しかし、RLトレーニングはしばしばルールベースのトラフィックシナリオに依存し、一般化を制限する。
さらに、現在のシナリオ生成方法は、日常的な運転行動とのバランスを無視して、重要なシナリオに重点を置いている。
複雑なタスクでエージェントを徐々に訓練するカリキュラム学習は、RL運転ポリシーの堅牢性とカバレッジを改善するための有望なアプローチである。
しかし,既存の研究は主に手作業でデザインしたカリキュラムに重点を置いており,交通行動のダイナミクスよりも風景や俳優の配置に重点を置いている。
本研究は、自動カリキュラム学習のための新しい学生-教員の枠組みを導入する。
グラフベースのマルチエージェントRLコンポーネントである教師は、さまざまな困難レベルにわたるトラフィックの振る舞いを適応的に生成する。
適応的なメカニズムは、生徒のパフォーマンスに基づいてタスクの難易度を調整し、共通の行動からクリティカルな行動への露出を確保する。
学生は交換可能ではあるが、現実の知覚制約を反映した部分観測性を持つ深いRLエージェントとして実現されている。
結果は,多様な交通行動を生成する教師の能力を示す。
学生は自動カリキュラムで訓練され、ルールベースのトラフィックで訓練されたエージェントよりも優れ、より高い報酬を獲得し、バランスのとれたアサーティブな運転を見せた。
関連論文リスト
- Automatic Curriculum Learning for Driving Scenarios: Towards Robust and Efficient Reinforcement Learning [11.602831593017427]
本稿では、強化学習(RL)を用いたエンドツーエンド自動運転エージェントの訓練の課題について述べる。
RLエージェントは通常、シミュレーションにおいて周囲の道路利用者の一定のシナリオと名目上の振る舞いで訓練される。
本稿では,エージェントの進化能力に基づいて,適応性のある複雑な運転シナリオを動的に生成する自動カリキュラム学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-13T06:26:57Z) - TeLL-Drive: Enhancing Autonomous Driving with Teacher LLM-Guided Deep Reinforcement Learning [61.33599727106222]
TeLL-Driveは、Teacher LLMを統合して、注意に基づく学生DRLポリシーをガイドするハイブリッドフレームワークである。
自己維持機構はDRLエージェントの探索とこれらの戦略を融合させ、政策収束を加速し、堅牢性を高める。
論文 参考訳(メタデータ) (2025-02-03T14:22:03Z) - CuRLA: Curriculum Learning Based Deep Reinforcement Learning for Autonomous Driving [1.188383832081829]
深層強化学習(DRL)エージェントは、経験から学び、報酬を最大化する。
本稿では,DRLとカリキュラム学習を組み合わせた自動運転手法を提案する。
論文 参考訳(メタデータ) (2025-01-09T05:45:03Z) - GARLIC: GPT-Augmented Reinforcement Learning with Intelligent Control for Vehicle Dispatching [81.82487256783674]
GARLIC: GPT拡張強化学習のフレームワーク。
本稿では,GPT強化強化学習とインテリジェント制御のフレームワークであるGARLICについて紹介する。
論文 参考訳(メタデータ) (2024-08-19T08:23:38Z) - RACER: Epistemic Risk-Sensitive RL Enables Fast Driving with Fewer Crashes [57.319845580050924]
本稿では,リスク感応制御と適応行動空間のカリキュラムを組み合わせた強化学習フレームワークを提案する。
提案アルゴリズムは,現実世界のオフロード運転タスクに対して,高速なポリシーを学習可能であることを示す。
論文 参考訳(メタデータ) (2024-05-07T23:32:36Z) - Robust Driving Policy Learning with Guided Meta Reinforcement Learning [49.860391298275616]
本稿では,ソーシャルカーの多種多様な運転方針を一つのメタ政治として訓練する効率的な方法を提案する。
ソーシャルカーのインタラクションに基づく報酬関数をランダム化することにより、多様な目的を生み出し、メタ政治を効率的に訓練することができる。
本研究では,社会自動車が学習メタ政治によって制御される環境を利用して,エゴ自動車の運転方針の堅牢性を高めるためのトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2023-07-19T17:42:36Z) - Driver Dojo: A Benchmark for Generalizable Reinforcement Learning for
Autonomous Driving [1.496194593196997]
自律運転のための一般化可能な強化学習のためのベンチマークを提案する。
アプリケーション指向のベンチマークは、設計決定の影響をよりよく理解します。
我々のベンチマークは、研究者がシナリオをまたいでうまく一般化できるソリューションを提案することを奨励することを目的としている。
論文 参考訳(メタデータ) (2022-07-23T06:29:43Z) - Learning energy-efficient driving behaviors by imitating experts [75.12960180185105]
本稿では,コミュニケーション・センシングにおける制御戦略と現実的限界のギャップを埋める上で,模倣学習が果たす役割について考察する。
擬似学習は、車両の5%に採用されれば、局地的な観測のみを用いて、交通条件の異なるネットワークのエネルギー効率を15%向上させる政策を導出できることを示す。
論文 参考訳(メタデータ) (2022-06-28T17:08:31Z) - Building Safer Autonomous Agents by Leveraging Risky Driving Behavior
Knowledge [1.52292571922932]
本研究は,モデルフリーな学習エージェントを作成するために,重交通や予期せぬランダムな行動を伴うリスクやすいシナリオの作成に重点を置いている。
ハイウェイ-envシミュレーションパッケージに新しいカスタムマルコフ決定プロセス(MDP)環境イテレーションを作成することにより、複数の自動運転シナリオを生成します。
リスクの高い運転シナリオを補足したモデル自由学習エージェントを訓練し,その性能をベースラインエージェントと比較する。
論文 参考訳(メタデータ) (2021-03-16T23:39:33Z) - Investigating Value of Curriculum Reinforcement Learning in Autonomous
Driving Under Diverse Road and Weather Conditions [0.0]
本稿では,自動運転アプリケーションにおけるカリキュラム強化学習の価値を検討する。
道路の複雑さや気象条件の異なる現実的な運転シミュレータで、複数の異なる運転シナリオを設定しました。
その結果、カリキュラムRLは、運転性能とサンプルの複雑さの両方の観点から、複雑な運転タスクで有意な利益を得ることができます。
論文 参考訳(メタデータ) (2021-03-14T12:05:05Z) - MetaVIM: Meta Variationally Intrinsic Motivated Reinforcement Learning for Decentralized Traffic Signal Control [54.162449208797334]
交通信号制御は、交差点を横断する交通信号を調整し、地域や都市の交通効率を向上させることを目的としている。
近年,交通信号制御に深部強化学習(RL)を適用し,各信号がエージェントとみなされる有望な性能を示した。
本稿では,近隣情報を考慮した各交差点の分散化政策を潜時的に学習するメタ変動固有モチベーション(MetaVIM)RL法を提案する。
論文 参考訳(メタデータ) (2021-01-04T03:06:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。