論文の概要: Learning to Drive Using Sparse Imitation Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2205.12128v1
- Date: Tue, 24 May 2022 15:03:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-25 19:59:05.654804
- Title: Learning to Drive Using Sparse Imitation Reinforcement Learning
- Title(参考訳): スパース模倣強化学習を用いたドライブ学習
- Authors: Yuci Han, Alper Yilmaz
- Abstract要約: 本稿では,知識を育成するスパース専門家と強化学習(RL)政策を組み合わせたハイブリッドエンドツーエンド制御政策を提案する。
CARLAシミュレータ内の複雑な都市シナリオにおけるSIRL手法の有効性を実験的に検証した。
- 参考スコア(独自算出の注目度): 0.5076419064097732
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In this paper, we propose Sparse Imitation Reinforcement Learning (SIRL), a
hybrid end-to-end control policy that combines the sparse expert driving
knowledge with reinforcement learning (RL) policy for autonomous driving (AD)
task in CARLA simulation environment. The sparse expert is designed based on
hand-crafted rules which is suboptimal but provides a risk-averse strategy by
enforcing experience for critical scenarios such as pedestrian and vehicle
avoidance, and traffic light detection. As it has been demonstrated, training a
RL agent from scratch is data-inefficient and time consuming particularly for
the urban driving task, due to the complexity of situations stemming from the
vast size of state space. Our SIRL strategy provides a solution to solve these
problems by fusing the output distribution of the sparse expert policy and the
RL policy to generate a composite driving policy. With the guidance of the
sparse expert during the early training stage, SIRL strategy accelerates the
training process and keeps the RL exploration from causing a catastrophe
outcome, and ensures safe exploration. To some extent, the SIRL agent is
imitating the driving expert's behavior. At the same time, it continuously
gains knowledge during training therefore it keeps making improvement beyond
the sparse expert, and can surpass both the sparse expert and a traditional RL
agent. We experimentally validate the efficacy of proposed SIRL approach in a
complex urban scenario within the CARLA simulator. Besides, we compare the SIRL
agent's performance for risk-averse exploration and high learning efficiency
with the traditional RL approach. We additionally demonstrate the SIRL agent's
generalization ability to transfer the driving skill to unseen environment.
- Abstract(参考訳): 本稿では,SIRL(Sparse Imitation Reinforcement Learning)を提案する。これは,Sparse Expert driving knowledgeと,CARLAシミュレーション環境における自律運転(AD)タスクのための強化学習(RL)ポリシを組み合わせた,ハイブリッドエンドツーエンド制御ポリシである。
スパース専門家は,歩行者や車両の回避,交通信号の検出といった重要なシナリオに対して,経験を積むことでリスク回避戦略を提供する。
実証されたように、RLエージェントをスクラッチから訓練することはデータ非効率であり、特に都市部での運転作業には時間を要する。
我々のSIRL戦略は、スパースエキスパートポリシーとRLポリシーの出力分布を融合させて複合運転ポリシーを生成することで、これらの問題を解決するソリューションを提供する。
初期の訓練段階におけるスパース専門家の指導により、SIRL戦略はトレーニングプロセスを加速し、RL探索が破滅的な結果を引き起こすのを防ぎ、安全な探査を確実にする。
ある程度は、SIRLエージェントは運転専門家の行動を模倣している。
同時に、トレーニング中の知識を継続的に獲得し、スパースの専門家を超えて改善を続け、スパース専門家と従来のRLエージェントの両方を上回ることができる。
CARLAシミュレータ内の複雑な都市シナリオにおけるSIRL手法の有効性を実験的に検証した。
さらに,リスク逆探索と学習効率向上のためのSIRLエージェントの性能を従来のRL手法と比較した。
さらに、SIRLエージェントが運転スキルを目に見えない環境に伝達する一般化能力を実証する。
関連論文リスト
- CIMRL: Combining IMitation and Reinforcement Learning for Safe Autonomous Driving [45.05135725542318]
CIMRL(imitation and Reinforcement Learning)アプローチは、模倣動作の先行と安全性の制約を活用することで、シミュレーションにおける運転ポリシーのトレーニングを可能にする。
RLと模倣を組み合わせることで, クローズドループシミュレーションと実世界の運転ベンチマークにおいて, 最先端の結果が得られたことを実証する。
論文 参考訳(メタデータ) (2024-06-13T07:31:29Z) - RACER: Epistemic Risk-Sensitive RL Enables Fast Driving with Fewer Crashes [57.319845580050924]
本稿では,リスク感応制御と適応行動空間のカリキュラムを組み合わせた強化学習フレームワークを提案する。
提案アルゴリズムは,現実世界のオフロード運転タスクに対して,高速なポリシーを学習可能であることを示す。
論文 参考訳(メタデータ) (2024-05-07T23:32:36Z) - Guided Online Distillation: Promoting Safe Reinforcement Learning by
Offline Demonstration [75.51109230296568]
オフラインデータから専門家ポリシーを抽出してオンライン探索をガイドすることは、保存性の問題を軽減するための有望な解決策である、と我々は主張する。
オフラインからオンラインまでの安全なRLフレームワークであるGOLD(Guid Online Distillation)を提案する。
GOLDは、オフラインDTポリシーをオンラインセーフなRLトレーニングを通じて軽量なポリシーネットワークに蒸留し、オフラインDTポリシーとオンラインセーフなRLアルゴリズムの両方を上回っている。
論文 参考訳(メタデータ) (2023-09-18T00:22:59Z) - Action and Trajectory Planning for Urban Autonomous Driving with
Hierarchical Reinforcement Learning [1.3397650653650457]
本稿では,階層型強化学習法(atHRL)を用いた行動・軌道プランナを提案する。
我々は、複雑な都市運転シナリオにおける広範な実験を通して、atHRLの有効性を実証的に検証した。
論文 参考訳(メタデータ) (2023-06-28T07:11:02Z) - Rethinking Closed-loop Training for Autonomous Driving [82.61418945804544]
本研究は,学習エージェントの成功に対する異なるトレーニングベンチマーク設計の影響を分析した最初の実証的研究である。
複数ステップのルックアヘッドで計画を行うRLベースの駆動エージェントであるtrajectory value learning (TRAVL)を提案する。
実験の結果,TRAVLはすべてのベースラインと比較してより速く学習でき,安全な操作が可能であることがわかった。
論文 参考訳(メタデータ) (2023-06-27T17:58:39Z) - Risk-Aware Reward Shaping of Reinforcement Learning Agents for
Autonomous Driving [6.613838702441967]
本稿では,自律運転におけるRLエージェントのトレーニングとテスト性能を活用するために,リスク認識型報酬形成手法について検討する。
我々は、危険運転行動の探索と罰則を奨励する追加のリフォーム報酬項を提案する。
論文 参考訳(メタデータ) (2023-06-05T20:10:36Z) - DeFIX: Detecting and Fixing Failure Scenarios with Reinforcement
Learning in Imitation Learning Based Autonomous Driving [0.0]
本稿では,ILエージェントの検出とFIX障害に対する強化学習(RL)に基づく方法論を提案する。
DeFIXは継続的学習フレームワークで、障害シナリオの抽出とRLエージェントのトレーニングを無限ループで実行する。
ILエージェントの故障シナリオを訓練したRLエージェントが1つあれば、DeFIX法は競争力があるか、最先端のILおよびRLベースの自律都市運転ベンチマークより優れていることが示されている。
論文 参考訳(メタデータ) (2022-10-29T10:58:43Z) - Constrained Reinforcement Learning for Robotics via Scenario-Based
Programming [64.07167316957533]
DRLをベースとしたエージェントの性能を最適化し,その動作を保証することが重要である。
本稿では,ドメイン知識を制約付きDRLトレーニングループに組み込む新しい手法を提案する。
我々の実験は、専門家の知識を活用するために我々のアプローチを用いることで、エージェントの安全性と性能が劇的に向上することを示した。
論文 参考訳(メタデータ) (2022-06-20T07:19:38Z) - Automatically Learning Fallback Strategies with Model-Free Reinforcement
Learning in Safety-Critical Driving Scenarios [9.761912672523977]
本稿では, モデルレス強化学習(RL)エージェントに対して, 環境内の複数の動作モードを捉えるための原則的アプローチを提案する。
我々は、報酬モデルに擬似報酬項を導入し、最適政策によって特権付けられた領域とは異なる国家空間の領域への探索を奨励する。
我々は、トレーニング中に見逃されたであろう有用なポリシーを学習でき、制御アルゴリズムの実行時に使用できないことを示す。
論文 参考訳(メタデータ) (2022-04-11T15:34:49Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Cautious Adaptation For Reinforcement Learning in Safety-Critical
Settings [129.80279257258098]
都市運転のような現実の安全クリティカルな目標設定における強化学習(RL)は危険である。
非安全クリティカルな「ソース」環境でエージェントが最初に訓練する「安全クリティカル適応」タスクセットを提案する。
多様な環境における事前経験がリスクを見積もるためにエージェントに装備するという直感に基づくソリューションアプローチであるCARLを提案する。
論文 参考訳(メタデータ) (2020-08-15T01:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。