論文の概要: Learning Barrier Certificates: Towards Safe Reinforcement Learning with
Zero Training-time Violations
- arxiv url: http://arxiv.org/abs/2108.01846v1
- Date: Wed, 4 Aug 2021 04:59:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-05 13:21:40.365605
- Title: Learning Barrier Certificates: Towards Safe Reinforcement Learning with
Zero Training-time Violations
- Title(参考訳): 学習障壁証明書: トレーニング時間違反ゼロの安全強化学習に向けて
- Authors: Yuping Luo, Tengyu Ma
- Abstract要約: 本稿では、トレーニング時安全違反をゼロとした安全RLアルゴリズムの可能性について検討する。
本稿では、バリア証明書、動的モデル、ポリシーを反復的に学習する、CRABS(Co-trained Barrier Certificate for Safe RL)を提案する。
- 参考スコア(独自算出の注目度): 64.39401322671803
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training-time safety violations have been a major concern when we deploy
reinforcement learning algorithms in the real world. This paper explores the
possibility of safe RL algorithms with zero training-time safety violations in
the challenging setting where we are only given a safe but trivial-reward
initial policy without any prior knowledge of the dynamics model and additional
offline data. We propose an algorithm, Co-trained Barrier Certificate for Safe
RL (CRABS), which iteratively learns barrier certificates, dynamics models, and
policies. The barrier certificates, learned via adversarial training, ensure
the policy's safety assuming calibrated learned dynamics model. We also add a
regularization term to encourage larger certified regions to enable better
exploration. Empirical simulations show that zero safety violations are already
challenging for a suite of simple environments with only 2-4 dimensional state
space, especially if high-reward policies have to visit regions near the safety
boundary. Prior methods require hundreds of violations to achieve decent
rewards on these tasks, whereas our proposed algorithms incur zero violations.
- Abstract(参考訳): 実世界で強化学習アルゴリズムを展開する際には、トレーニング時の安全違反が大きな懸念事項となっている。
本稿では,動的モデルやオフラインデータに関する知識を必要とせず,安全だが自明な初期方針しか与えられていない課題設定において,トレーニング時間安全違反ゼロの安全なrlアルゴリズムの可能性について検討する。
本論文では,バリア証明書,ダイナミクスモデル,ポリシを反復的に学習するアルゴリズムであるsafe rl(crabs)を提案する。
障壁証明書は、敵対的な訓練を通じて学習され、学習力学モデルの校正を前提としたポリシーの安全性を保証する。
また、より大規模な認定地域を奨励し、より良い探索を可能にする定期化用語も追加します。
経験的シミュレーションは、2-4次元の状態空間しか持たない単純な環境、特に安全境界付近の地域をハイリワードポリシーが訪問しなければならない場合、安全違反がゼロであることを示します。
先行手法では,これらの課題に対して適切な報酬を得るために数百の違反が必要となるが,提案手法ではゼロ違反を伴わない。
関連論文リスト
- ActSafe: Active Exploration with Safety Constraints for Reinforcement Learning [48.536695794883826]
本稿では,安全かつ効率的な探索のためのモデルベースRLアルゴリズムであるActSafeを提案する。
本稿では,ActSafeが学習中の安全性を保証しつつ,有限時間で準最適政策を得ることを示す。
さらに,最新のモデルベースRLの進歩に基づくActSafeの実用版を提案する。
論文 参考訳(メタデータ) (2024-10-12T10:46:02Z) - Reinforcement Learning with Ensemble Model Predictive Safety
Certification [2.658598582858331]
教師なし探索は、安全クリティカルなタスクに強化学習アルゴリズムを配置することを防ぐ。
本稿では,モデルに基づく深層強化学習と管型モデル予測制御を組み合わせた新しいアルゴリズムを提案する。
以上の結果から,従来の強化学習法に比べて制約違反が著しく少ないことが示唆された。
論文 参考訳(メタデータ) (2024-02-06T17:42:39Z) - Safe Reinforcement Learning with Dead-Ends Avoidance and Recovery [13.333197887318168]
安全は、現実的な環境課題に強化学習を適用する上で大きな課題の1つである。
安全かつ安全でない状態を識別する境界を構築する手法を提案する。
我々の手法は、最先端のアルゴリズムよりも安全性違反が少ないタスク性能を持つ。
論文 参考訳(メタデータ) (2023-06-24T12:02:50Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Safe Model-Based Reinforcement Learning with an Uncertainty-Aware
Reachability Certificate [6.581362609037603]
我々は、DRCとそれに対応するシールドポリシーの制約を解決するために、安全な強化学習フレームワークを構築します。
また,シールドポリシを活用しつつ,安全性と高いリターンを同時に達成するためのラインサーチ手法も考案した。
論文 参考訳(メタデータ) (2022-10-14T06:16:53Z) - SAFER: Data-Efficient and Safe Reinforcement Learning via Skill
Acquisition [59.94644674087599]
安全制約下での複雑な制御タスクにおけるポリシー学習を高速化するアルゴリズムであるSAFEty skill pRiors (SAFER)を提案する。
オフラインデータセットでの原則的なトレーニングを通じて、SAFERは安全なプリミティブスキルの抽出を学ぶ。
推論段階では、SAFERで訓練されたポリシーは、安全なスキルを成功のポリシーに組み込むことを学ぶ。
論文 参考訳(メタデータ) (2022-02-10T05:43:41Z) - Learning to be Safe: Deep RL with a Safety Critic [72.00568333130391]
安全なRLへの自然な第一のアプローチは、ポリシーの動作に関する制約を手動で指定することである。
我々は,タスクと環境の1つのセットで安全であることを学習し,その学習した直観を用いて将来の行動を制限することを提案する。
論文 参考訳(メタデータ) (2020-10-27T20:53:20Z) - Conservative Safety Critics for Exploration [120.73241848565449]
強化学習(RL)における安全な探索の課題について検討する。
我々は、批評家を通じて環境状態の保守的な安全性推定を学習する。
提案手法は,破滅的故障率を著しく低く抑えながら,競争力のあるタスク性能を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-27T17:54:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。