論文の概要: Automatically Learning Fallback Strategies with Model-Free Reinforcement
Learning in Safety-Critical Driving Scenarios
- arxiv url: http://arxiv.org/abs/2204.05196v1
- Date: Mon, 11 Apr 2022 15:34:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-12 17:12:56.344947
- Title: Automatically Learning Fallback Strategies with Model-Free Reinforcement
Learning in Safety-Critical Driving Scenarios
- Title(参考訳): 安全クリティカル運転シナリオにおけるモデルフリー強化学習によるフォールバック戦略の自動学習
- Authors: Ugo Lecerf, Christelle Yemdji-Tchassi, S\'ebastien Aubert, Pietro
Michiardi
- Abstract要約: 本稿では, モデルレス強化学習(RL)エージェントに対して, 環境内の複数の動作モードを捉えるための原則的アプローチを提案する。
我々は、報酬モデルに擬似報酬項を導入し、最適政策によって特権付けられた領域とは異なる国家空間の領域への探索を奨励する。
我々は、トレーニング中に見逃されたであろう有用なポリシーを学習でき、制御アルゴリズムの実行時に使用できないことを示す。
- 参考スコア(独自算出の注目度): 9.761912672523977
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When learning to behave in a stochastic environment where safety is critical,
such as driving a vehicle in traffic, it is natural for human drivers to plan
fallback strategies as a backup to use if ever there is an unexpected change in
the environment. Knowing to expect the unexpected, and planning for such
outcomes, increases our capability for being robust to unseen scenarios and may
help prevent catastrophic failures. Control of Autonomous Vehicles (AVs) has a
particular interest in knowing when and how to use fallback strategies in the
interest of safety. Due to imperfect information available to an AV about its
environment, it is important to have alternate strategies at the ready which
might not have been deduced from the original training data distribution.
In this paper we present a principled approach for a model-free Reinforcement
Learning (RL) agent to capture multiple modes of behaviour in an environment.
We introduce an extra pseudo-reward term to the reward model, to encourage
exploration to areas of state-space different from areas privileged by the
optimal policy. We base this reward term on a distance metric between the
trajectories of agents, in order to force policies to focus on different areas
of state-space than the initial exploring agent. Throughout the paper, we refer
to this particular training paradigm as learning fallback strategies.
We apply this method to an autonomous driving scenario, and show that we are
able to learn useful policies that would have otherwise been missed out on
during training, and unavailable to use when executing the control algorithm.
- Abstract(参考訳): 交通中の車両の運転など安全が重要である確率的環境での行動を学ぶ場合、環境に予期せぬ変化があった場合、人間のドライバーがフォールバック戦略をバックアップとして計画することが自然である。
予期せぬ結果の予測と計画を知ることで、目に見えないシナリオに対して堅牢であることの能力を高め、破滅的な失敗を防ぐのに役立ちます。
自動運転車の制御(AVs)は、安全のためにフォールバック戦略をいつ、どのように使うかを知ることに特に関心がある。
AVの環境に関する不完全な情報のため、元々のトレーニングデータ分布から導出されていない可能性のある戦略を準備しておくことが重要である。
本稿では, モデルレス強化学習(RL)エージェントに対して, 環境内の複数の動作を捉えるための原則的アプローチを提案する。
我々は、報酬モデルに擬似報酬項を導入し、最適政策によって特権付けられた領域とは異なる国家空間の領域への探索を奨励する。
我々は、この報酬項をエージェントの軌跡間の距離メートル法に基づいており、初期探査エージェントとは異なる状態空間の異なる領域に政策を集中させる。
論文全体を通して、この特定のトレーニングパラダイムを、フォールバック戦略の学習として言及する。
この手法を自動運転のシナリオに適用し、トレーニング中に見逃され、制御アルゴリズムの実行時に使用できないような有用なポリシーを学習できることを実証する。
関連論文リスト
- RACER: Epistemic Risk-Sensitive RL Enables Fast Driving with Fewer Crashes [57.319845580050924]
本稿では,リスク感応制御と適応行動空間のカリキュラムを組み合わせた強化学習フレームワークを提案する。
提案アルゴリズムは,現実世界のオフロード運転タスクに対して,高速なポリシーを学習可能であることを示す。
論文 参考訳(メタデータ) (2024-05-07T23:32:36Z) - Towards Optimal Head-to-head Autonomous Racing with Curriculum
Reinforcement Learning [22.69532642800264]
車両力学を正確にモデル化した強化学習のためのヘッド・ツー・ヘッドレース環境を提案する。
また,エージェントの安全性を高めるために,制御バリア関数に基づく安全強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-25T17:05:41Z) - Robust Driving Policy Learning with Guided Meta Reinforcement Learning [49.860391298275616]
本稿では,ソーシャルカーの多種多様な運転方針を一つのメタ政治として訓練する効率的な方法を提案する。
ソーシャルカーのインタラクションに基づく報酬関数をランダム化することにより、多様な目的を生み出し、メタ政治を効率的に訓練することができる。
本研究では,社会自動車が学習メタ政治によって制御される環境を利用して,エゴ自動車の運転方針の堅牢性を高めるためのトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2023-07-19T17:42:36Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Minimizing Safety Interference for Safe and Comfortable Automated
Driving with Distributional Reinforcement Learning [3.923354711049903]
そこで本稿では,望ましい快適さと実用性に基づいて,実行時の保守性レベルを調整可能な適応ポリシーを学習するための分散強化学習フレームワークを提案する。
提案アルゴリズムは,認識ノイズが2倍高い場合にも信頼性を向上できるポリシを学習し,非閉塞交差点における自動マージと踏切の訓練構成を示す。
論文 参考訳(メタデータ) (2021-07-15T13:36:55Z) - Driving-Policy Adaptive Safeguard for Autonomous Vehicles Using
Reinforcement Learning [19.71676985220504]
本稿では,衝突回避戦略とアクティベーション機能を含むDPAS設計を提案する。
運転政策適応型アクティベーション機能は、緊急脅威が検出された場合に、現在の運転方針リスクを動的に評価し、起動する必要がある。
実験の結果は自然発生運転データにより校正され, より多くの介入を伴わずに, 衝突速度を著しく低減することを示す。
論文 参考訳(メタデータ) (2020-12-02T08:01:53Z) - Cautious Adaptation For Reinforcement Learning in Safety-Critical
Settings [129.80279257258098]
都市運転のような現実の安全クリティカルな目標設定における強化学習(RL)は危険である。
非安全クリティカルな「ソース」環境でエージェントが最初に訓練する「安全クリティカル適応」タスクセットを提案する。
多様な環境における事前経験がリスクを見積もるためにエージェントに装備するという直感に基づくソリューションアプローチであるCARLを提案する。
論文 参考訳(メタデータ) (2020-08-15T01:40:59Z) - Safe Reinforcement Learning via Curriculum Induction [94.67835258431202]
安全クリティカルなアプリケーションでは、自律エージェントはミスが非常にコストがかかる環境で学ぶ必要がある。
既存の安全な強化学習手法は、エージェントが危険な状況を避けるために、事前にエージェントを頼りにしている。
本稿では,エージェントが自動インストラクターの指導の下で学習する,人間の指導にインスパイアされた代替手法を提案する。
論文 参考訳(メタデータ) (2020-06-22T10:48:17Z) - Improving Generalization of Reinforcement Learning with Minimax
Distributional Soft Actor-Critic [11.601356612579641]
本稿では,RLアルゴリズムの一般化能力を向上させるために,ミニマックスの定式化と分散フレームワークを提案する。
我々は交差点における自動運転車の意思決定タスクに本手法を実装し,異なる環境下で訓練された政策を検証した。
論文 参考訳(メタデータ) (2020-02-13T14:09:22Z) - Intelligent Roundabout Insertion using Deep Reinforcement Learning [68.8204255655161]
本稿では,多忙なラウンドアバウンドの入場を交渉できる演習計画モジュールを提案する。
提案されたモジュールは、トレーニングされたニューラルネットワークに基づいて、操作の全期間にわたって、ラウンドアバウンドに入るタイミングと方法を予測する。
論文 参考訳(メタデータ) (2020-01-03T11:16:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。