論文の概要: Cautious Adaptation For Reinforcement Learning in Safety-Critical
Settings
- arxiv url: http://arxiv.org/abs/2008.06622v1
- Date: Sat, 15 Aug 2020 01:40:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 20:34:49.493658
- Title: Cautious Adaptation For Reinforcement Learning in Safety-Critical
Settings
- Title(参考訳): 安全臨界環境における強化学習のための注意的適応
- Authors: Jesse Zhang, Brian Cheung, Chelsea Finn, Sergey Levine, Dinesh
Jayaraman
- Abstract要約: 都市運転のような現実の安全クリティカルな目標設定における強化学習(RL)は危険である。
非安全クリティカルな「ソース」環境でエージェントが最初に訓練する「安全クリティカル適応」タスクセットを提案する。
多様な環境における事前経験がリスクを見積もるためにエージェントに装備するという直感に基づくソリューションアプローチであるCARLを提案する。
- 参考スコア(独自算出の注目度): 129.80279257258098
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) in real-world safety-critical target settings
like urban driving is hazardous, imperiling the RL agent, other agents, and the
environment. To overcome this difficulty, we propose a "safety-critical
adaptation" task setting: an agent first trains in non-safety-critical "source"
environments such as in a simulator, before it adapts to the target environment
where failures carry heavy costs. We propose a solution approach, CARL, that
builds on the intuition that prior experience in diverse environments equips an
agent to estimate risk, which in turn enables relative safety through
risk-averse, cautious adaptation. CARL first employs model-based RL to train a
probabilistic model to capture uncertainty about transition dynamics and
catastrophic states across varied source environments. Then, when exploring a
new safety-critical environment with unknown dynamics, the CARL agent plans to
avoid actions that could lead to catastrophic states. In experiments on car
driving, cartpole balancing, half-cheetah locomotion, and robotic object
manipulation, CARL successfully acquires cautious exploration behaviors,
yielding higher rewards with fewer failures than strong RL adaptation
baselines. Website at https://sites.google.com/berkeley.edu/carl.
- Abstract(参考訳): 都市運転のような現実世界の安全クリティカルな目標設定における強化学習(RL)は危険であり、RLエージェント、他のエージェント、環境を損なう。
この課題を克服するために,エージェントはシミュレータなどの非安全クリティカルな「ソース」環境において,障害が重いコストを負担するターゲット環境に適応する前に,まず訓練を行う"セーフティクリティカル適応"タスク設定を提案する。
多様な環境における先行経験がリスクを推定するためにエージェントに装備する直感に基づくソリューションアプローチであるCARLを提案し、それによってリスクの逆、慎重な適応を通じて相対的な安全性を実現する。
CARLはまずモデルベースのRLを用いて確率モデルを訓練し、様々なソース環境における遷移力学と破滅状態の不確実性を捉える。
そして、未知のダイナミクスを持つ新しい安全クリティカルな環境を探索する際、CARLは破滅的な状態につながる可能性のある行動を避けることを計画している。
自動車運転、カートポールバランス、ハーフチータローコモーション、ロボット物体操作の実験において、CARLは慎重な探索行動を獲得し、強力なRL適応基準よりも少ない失敗で高い報酬を得ることができた。
webサイトはhttps://sites.google.com/berkeley.edu/carl。
関連論文リスト
- Anomalous State Sequence Modeling to Enhance Safety in Reinforcement Learning [0.0]
本稿では,RLの安全性を高めるために,異常状態列を利用した安全強化学習(RL)手法を提案する。
自動運転車を含む複数の安全クリティカルな環境の実験において、我々のソリューションアプローチはより安全なポリシーをうまく学習する。
論文 参考訳(メタデータ) (2024-07-29T10:30:07Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - MESA: Offline Meta-RL for Safe Adaptation and Fault Tolerance [73.3242641337305]
最近の研究は、制約に違反する確率を測定するリスク尺度を学習し、安全を可能にするために使用することができる。
我々は,安全な探索をオフラインのメタRL問題とみなし,様々な環境における安全かつ安全でない行動の例を活用することを目的としている。
次に,メタラーニングシミュレーションのアプローチであるMESA(Meta-learning for Safe Adaptation)を提案する。
論文 参考訳(メタデータ) (2021-12-07T08:57:35Z) - High-level Decisions from a Safe Maneuver Catalog with Reinforcement
Learning for Safe and Cooperative Automated Merging [5.732271870257913]
統合シナリオにおける安全かつ協調的な自動運転のための効率的なRLに基づく意思決定パイプラインを提案する。
提案するRLエージェントは、車両状態履歴から協調運転者を効率よく識別し、対話的な操作を生成する。
論文 参考訳(メタデータ) (2021-07-15T15:49:53Z) - Minimizing Safety Interference for Safe and Comfortable Automated
Driving with Distributional Reinforcement Learning [3.923354711049903]
そこで本稿では,望ましい快適さと実用性に基づいて,実行時の保守性レベルを調整可能な適応ポリシーを学習するための分散強化学習フレームワークを提案する。
提案アルゴリズムは,認識ノイズが2倍高い場合にも信頼性を向上できるポリシを学習し,非閉塞交差点における自動マージと踏切の訓練構成を示す。
論文 参考訳(メタデータ) (2021-07-15T13:36:55Z) - Learning to be Safe: Deep RL with a Safety Critic [72.00568333130391]
安全なRLへの自然な第一のアプローチは、ポリシーの動作に関する制約を手動で指定することである。
我々は,タスクと環境の1つのセットで安全であることを学習し,その学習した直観を用いて将来の行動を制限することを提案する。
論文 参考訳(メタデータ) (2020-10-27T20:53:20Z) - Safe Reinforcement Learning via Curriculum Induction [94.67835258431202]
安全クリティカルなアプリケーションでは、自律エージェントはミスが非常にコストがかかる環境で学ぶ必要がある。
既存の安全な強化学習手法は、エージェントが危険な状況を避けるために、事前にエージェントを頼りにしている。
本稿では,エージェントが自動インストラクターの指導の下で学習する,人間の指導にインスパイアされた代替手法を提案する。
論文 参考訳(メタデータ) (2020-06-22T10:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。