論文の概要: Minimizing Safety Interference for Safe and Comfortable Automated
Driving with Distributional Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2107.07316v1
- Date: Thu, 15 Jul 2021 13:36:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-16 20:12:09.653971
- Title: Minimizing Safety Interference for Safe and Comfortable Automated
Driving with Distributional Reinforcement Learning
- Title(参考訳): 分散強化学習による安全・快適運転のための安全干渉の最小化
- Authors: Danial Kamran, Tizian Engelgeh, Marvin Busch, Johannes Fischer and
Christoph Stiller
- Abstract要約: そこで本稿では,望ましい快適さと実用性に基づいて,実行時の保守性レベルを調整可能な適応ポリシーを学習するための分散強化学習フレームワークを提案する。
提案アルゴリズムは,認識ノイズが2倍高い場合にも信頼性を向上できるポリシを学習し,非閉塞交差点における自動マージと踏切の訓練構成を示す。
- 参考スコア(独自算出の注目度): 3.923354711049903
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite recent advances in reinforcement learning (RL), its application in
safety critical domains like autonomous vehicles is still challenging. Although
punishing RL agents for risky situations can help to learn safe policies, it
may also lead to highly conservative behavior. In this paper, we propose a
distributional RL framework in order to learn adaptive policies that can tune
their level of conservativity at run-time based on the desired comfort and
utility. Using a proactive safety verification approach, the proposed framework
can guarantee that actions generated from RL are fail-safe according to the
worst-case assumptions. Concurrently, the policy is encouraged to minimize
safety interference and generate more comfortable behavior. We trained and
evaluated the proposed approach and baseline policies using a high level
simulator with a variety of randomized scenarios including several corner cases
which rarely happen in reality but are very crucial. In light of our
experiments, the behavior of policies learned using distributional RL can be
adaptive at run-time and robust to the environment uncertainty. Quantitatively,
the learned distributional RL agent drives in average 8 seconds faster than the
normal DQN policy and requires 83\% less safety interference compared to the
rule-based policy with slightly increasing the average crossing time. We also
study sensitivity of the learned policy in environments with higher perception
noise and show that our algorithm learns policies that can still drive reliable
when the perception noise is two times higher than the training configuration
for automated merging and crossing at occluded intersections.
- Abstract(参考訳): 近年の強化学習(RL)の進歩にもかかわらず、自動運転車のような安全上重要な分野への応用はまだ難しい。
危険な状況に対するrlエージェントの罰は安全なポリシーを学ぶのに役立ちますが、これは非常に保守的な行動にもつながります。
本稿では,要求される快適さと利便性に基づいて,実行時の保守性レベルを調整可能な適応ポリシーを学習するための分散RLフレームワークを提案する。
プロアクティブな安全性検証アプローチを用いることで、最悪の場合の仮定に従って、RLから生成されたアクションがフェールセーフであることを保証できる。
同時に、ポリシーは安全性の干渉を最小限に抑え、より快適な行動を生み出すことが奨励される。
我々は,現実にはほとんど起こらないが極めて重要ないくつかのコーナーケースを含む,さまざまなランダム化シナリオを持つハイレベルシミュレータを用いて,提案手法とベースラインポリシーを訓練・評価した。
本実験では, 分散RLを用いて学習したポリシーの挙動を, 実行時に適応し, 環境の不確実性に頑健にすることができる。
学習した分布RLエージェントは、通常のDQNポリシーよりも平均8秒速く駆動し、平均交差時間をわずかに増加させるルールベースのポリシーに比べて、安全干渉を83%少なくする。
また,認識ノイズの高い環境での学習ポリシーの感度について検討し,認識ノイズが2倍高い場合の信頼度の高いポリシーを学習し,閉鎖交点における自動マージと交差のトレーニング構成と比較した。
関連論文リスト
- RACER: Epistemic Risk-Sensitive RL Enables Fast Driving with Fewer Crashes [57.319845580050924]
本稿では,リスク感応制御と適応行動空間のカリキュラムを組み合わせた強化学習フレームワークを提案する。
提案アルゴリズムは,現実世界のオフロード運転タスクに対して,高速なポリシーを学習可能であることを示す。
論文 参考訳(メタデータ) (2024-05-07T23:32:36Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Safe Reinforcement Learning Using Advantage-Based Intervention [45.79740561754542]
多くのシーケンシャルな決定問題は、安全性の制約に従いながら全報酬を最大化するポリシーを見つけることである。
本稿では,エージェントの安全性を確保するために,アドバンテージ関数に基づく介入機構を用いた新しいアルゴリズムであるSAILRを提案する。
私たちの方法には、トレーニングとデプロイメントの両方において、安全性が強く保証されています。
論文 参考訳(メタデータ) (2021-06-16T20:28:56Z) - Learning to be Safe: Deep RL with a Safety Critic [72.00568333130391]
安全なRLへの自然な第一のアプローチは、ポリシーの動作に関する制約を手動で指定することである。
我々は,タスクと環境の1つのセットで安全であることを学習し,その学習した直観を用いて将来の行動を制限することを提案する。
論文 参考訳(メタデータ) (2020-10-27T20:53:20Z) - Cautious Adaptation For Reinforcement Learning in Safety-Critical
Settings [129.80279257258098]
都市運転のような現実の安全クリティカルな目標設定における強化学習(RL)は危険である。
非安全クリティカルな「ソース」環境でエージェントが最初に訓練する「安全クリティカル適応」タスクセットを提案する。
多様な環境における事前経験がリスクを見積もるためにエージェントに装備するという直感に基づくソリューションアプローチであるCARLを提案する。
論文 参考訳(メタデータ) (2020-08-15T01:40:59Z) - Reinforcement Learning based Control of Imitative Policies for
Near-Accident Driving [41.54021613421446]
事故に近いシナリオでは、車両の動作の微妙な変化でさえ、劇的に異なる結果をもたらす可能性がある。
本稿では、ILが個別駆動モードで学んだ低レベルポリシーと、異なる駆動モード間で切り替えるRLで学んだ高レベルポリシーからなる階層的強化と模倣学習(H-ReIL)アプローチを提案する。
論文 参考訳(メタデータ) (2020-07-01T01:41:45Z) - Safe Reinforcement Learning for Autonomous Vehicles through Parallel
Constrained Policy Optimization [20.913475536020247]
本稿では,2つの自律運転タスクに対して,Parallel Constrained Policy Optimization (PCPO)と呼ばれる安全強化学習アルゴリズムを提案する。
PCPOは、今日のアクター批判アーキテクチャを3成分学習フレームワークに拡張し、3つのニューラルネットワークを使用してポリシー関数、値関数、新たに追加されたリスク関数を近似する。
安全制約問題の実現性を確保するため、並列学習者は異なる状態空間を探索し、学習とポリシー更新を加速する。
論文 参考訳(メタデータ) (2020-03-03T02:53:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。