論文の概要: Conservative Safety Critics for Exploration
- arxiv url: http://arxiv.org/abs/2010.14497v2
- Date: Mon, 26 Apr 2021 17:38:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 10:54:10.330134
- Title: Conservative Safety Critics for Exploration
- Title(参考訳): 安全に関する保守的批判
- Authors: Homanga Bharadhwaj, Aviral Kumar, Nicholas Rhinehart, Sergey Levine,
Florian Shkurti, Animesh Garg
- Abstract要約: 強化学習(RL)における安全な探索の課題について検討する。
我々は、批評家を通じて環境状態の保守的な安全性推定を学習する。
提案手法は,破滅的故障率を著しく低く抑えながら,競争力のあるタスク性能を実現することができることを示す。
- 参考スコア(独自算出の注目度): 120.73241848565449
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safe exploration presents a major challenge in reinforcement learning (RL):
when active data collection requires deploying partially trained policies, we
must ensure that these policies avoid catastrophically unsafe regions, while
still enabling trial and error learning. In this paper, we target the problem
of safe exploration in RL by learning a conservative safety estimate of
environment states through a critic, and provably upper bound the likelihood of
catastrophic failures at every training iteration. We theoretically
characterize the tradeoff between safety and policy improvement, show that the
safety constraints are likely to be satisfied with high probability during
training, derive provable convergence guarantees for our approach, which is no
worse asymptotically than standard RL, and demonstrate the efficacy of the
proposed approach on a suite of challenging navigation, manipulation, and
locomotion tasks. Empirically, we show that the proposed approach can achieve
competitive task performance while incurring significantly lower catastrophic
failure rates during training than prior methods. Videos are at this url
https://sites.google.com/view/conservative-safety-critics/home
- Abstract(参考訳): 安全な探索は強化学習(RL)において大きな課題である: アクティブなデータ収集が部分的に訓練されたポリシーを配置する必要がある場合、我々は、これらのポリシーが破滅的に安全でない地域を回避しつつ、トライアルとエラー学習を引き続き可能にしなくてはならない。
本稿では,RLにおける安全探査の課題を,批判者を通じて環境状態の保守的安全性推定を学習し,トレーニングの繰り返しごとに破滅的故障の確率を確実に上限とする。
我々は、安全と政策改善のトレードオフを理論的に特徴づけ、トレーニング中に高い確率で安全制約を満たす可能性を示し、標準のRLよりも悪い漸近的ではない我々のアプローチに対して証明可能な収束保証を導出し、提案手法が困難なナビゲーション、操作、移動タスクのスイートにおいて有効であることを示す。
実験結果から,提案手法は従来の手法よりも大きな破壊的障害率を伴いながら,競争的タスク性能を達成できることを示した。
ビデオはこのurlhttps://sites.google.com/view/conservative-safety-critics/homeにある。
関連論文リスト
- Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - Probabilistic Counterexample Guidance for Safer Reinforcement Learning
(Extended Version) [1.279257604152629]
セーフサーベイは、安全クリティカルなシナリオにおける強化学習(RL)の限界に対処することを目的としている。
外部知識を取り入れたり、センサデータを使って安全でない状態の探索を制限する方法はいくつか存在する。
本稿では,安全要件の反例によるトレーニングを指導することで,安全な探査の課題をターゲットにする。
論文 参考訳(メタデータ) (2023-07-10T22:28:33Z) - Safe Reinforcement Learning with Dead-Ends Avoidance and Recovery [13.333197887318168]
安全は、現実的な環境課題に強化学習を適用する上で大きな課題の1つである。
安全かつ安全でない状態を識別する境界を構築する手法を提案する。
我々の手法は、最先端のアルゴリズムよりも安全性違反が少ないタスク性能を持つ。
論文 参考訳(メタデータ) (2023-06-24T12:02:50Z) - Safe Model-Based Reinforcement Learning with an Uncertainty-Aware
Reachability Certificate [6.581362609037603]
我々は、DRCとそれに対応するシールドポリシーの制約を解決するために、安全な強化学習フレームワークを構築します。
また,シールドポリシを活用しつつ,安全性と高いリターンを同時に達成するためのラインサーチ手法も考案した。
論文 参考訳(メタデータ) (2022-10-14T06:16:53Z) - Guiding Safe Exploration with Weakest Preconditions [15.469452301122177]
安全クリティカルな設定のための強化学習では、エージェントはあらゆる時点において安全制約に従うことが望ましい。
我々はこの安全な探索問題を解決するためにSPICEと呼ばれる新しいニューロシンボリックアプローチを提案する。
論文 参考訳(メタデータ) (2022-09-28T14:58:41Z) - Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。
我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2022-07-04T11:43:23Z) - Enhancing Safe Exploration Using Safety State Augmentation [71.00929878212382]
モデルフリー強化学習における安全な探索の課題に取り組む。
トレーニング中に安全予算をスケジューリングするためのポリシーを導出します。
Simmer はトレーニングを安定させ,安全RL の性能を平均的制約で向上させることができることを示す。
論文 参考訳(メタデータ) (2022-06-06T15:23:07Z) - SAFER: Data-Efficient and Safe Reinforcement Learning via Skill
Acquisition [59.94644674087599]
安全制約下での複雑な制御タスクにおけるポリシー学習を高速化するアルゴリズムであるSAFEty skill pRiors (SAFER)を提案する。
オフラインデータセットでの原則的なトレーニングを通じて、SAFERは安全なプリミティブスキルの抽出を学ぶ。
推論段階では、SAFERで訓練されたポリシーは、安全なスキルを成功のポリシーに組み込むことを学ぶ。
論文 参考訳(メタデータ) (2022-02-10T05:43:41Z) - Learning Barrier Certificates: Towards Safe Reinforcement Learning with
Zero Training-time Violations [64.39401322671803]
本稿では、トレーニング時安全違反をゼロとした安全RLアルゴリズムの可能性について検討する。
本稿では、バリア証明書、動的モデル、ポリシーを反復的に学習する、CRABS(Co-trained Barrier Certificate for Safe RL)を提案する。
論文 参考訳(メタデータ) (2021-08-04T04:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。