論文の概要: Safe Reinforcement Learning via Confidence-Based Filters
- arxiv url: http://arxiv.org/abs/2207.01337v1
- Date: Mon, 4 Jul 2022 11:43:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-05 23:30:26.644231
- Title: Safe Reinforcement Learning via Confidence-Based Filters
- Title(参考訳): 信頼度に基づくフィルタによる安全強化学習
- Authors: Sebastian Curi, Armin Lederer, Sandra Hirche, Andreas Krause
- Abstract要約: 我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。
我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
- 参考スコア(独自算出の注目度): 78.39359694273575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ensuring safety is a crucial challenge when deploying reinforcement learning
(RL) to real-world systems. We develop confidence-based safety filters, a
control-theoretic approach for certifying state safety constraints for nominal
policies learned via standard RL techniques, based on probabilistic dynamics
models. Our approach is based on a reformulation of state constraints in terms
of cost functions, reducing safety verification to a standard RL task. By
exploiting the concept of hallucinating inputs, we extend this formulation to
determine a "backup" policy that is safe for the unknown system with high
probability. Finally, the nominal policy is minimally adjusted at every time
step during a roll-out towards the backup policy, such that safe recovery can
be guaranteed afterwards. We provide formal safety guarantees, and empirically
demonstrate the effectiveness of our approach.
- Abstract(参考訳): 現実世界のシステムに強化学習(RL)を展開する場合、安全性を確保することが重要な課題である。
確率力学モデルに基づく標準RL手法を用いて学習した名目ポリシーに対して、状態安全性制約を認証するための制御理論的手法である信頼性に基づく安全フィルタを開発する。
提案手法は,コスト関数の観点からの制約の修正に基づくもので,安全性検証を標準のRLタスクに還元する。
幻覚入力の概念を利用して、この定式化を拡張し、未知のシステムに対して高い確率で安全である"バックアップ"ポリシーを決定する。
最後に、バックアップポリシーへのロールアウト中のステップ毎に、名目ポリシーを最小に調整し、その後、安全なリカバリが保証される。
我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に示す。
関連論文リスト
- ActSafe: Active Exploration with Safety Constraints for Reinforcement Learning [48.536695794883826]
本稿では,安全かつ効率的な探索のためのモデルベースRLアルゴリズムであるActSafeを提案する。
本稿では,ActSafeが学習中の安全性を保証しつつ,有限時間で準最適政策を得ることを示す。
さらに,最新のモデルベースRLの進歩に基づくActSafeの実用版を提案する。
論文 参考訳(メタデータ) (2024-10-12T10:46:02Z) - Safe Reinforcement Learning with Learned Non-Markovian Safety Constraints [15.904640266226023]
我々は、安全に関する部分的状態行動軌跡の貢献を評価するために、信用割当を行う安全モデルの設計を行う。
学習された安全モデルを用いて安全なポリシーを最適化する有効なアルゴリズムを導出する。
安全報酬と安全コンプライアンスのトレードオフ係数を動的に適用する手法を考案する。
論文 参考訳(メタデータ) (2024-05-05T17:27:22Z) - Reinforcement Learning with Adaptive Regularization for Safe Control of Critical Systems [2.126171264016785]
安全なRL探索を可能にするアルゴリズムである適応正規化(RL-AR)を提案する。
RL-ARは「フォーカスモジュール」を介してポリシーの組み合わせを行い、状態に応じて適切な組み合わせを決定する。
一連のクリティカルコントロールアプリケーションにおいて、RL-ARはトレーニング中の安全性を保証するだけでなく、モデルフリーなRLの標準との競合も得ることを示した。
論文 参考訳(メタデータ) (2024-04-23T16:35:14Z) - Safe Model-Based Reinforcement Learning with an Uncertainty-Aware
Reachability Certificate [6.581362609037603]
我々は、DRCとそれに対応するシールドポリシーの制約を解決するために、安全な強化学習フレームワークを構築します。
また,シールドポリシを活用しつつ,安全性と高いリターンを同時に達成するためのラインサーチ手法も考案した。
論文 参考訳(メタデータ) (2022-10-14T06:16:53Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Joint Synthesis of Safety Certificate and Safe Control Policy using
Constrained Reinforcement Learning [7.658716383823426]
有効な安全証明書は、安全状態が低エネルギーであることを示すエネルギー関数である。
既存の学習に基づく研究は、安全証明書と安全管理ポリシーを、相互に学ぶための事前知識として扱う。
本稿では、エネルギー機能に基づく安全証明書を同時に合成し、CRLによる安全制御ポリシーを学習する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-11-15T12:05:44Z) - Feasible Actor-Critic: Constrained Reinforcement Learning for Ensuring
Statewise Safety [1.9573380763700712]
本稿では,モデルレス制約付き安全な強化学習法であるFACアルゴリズムを提案する。
我々は、どの政策を選択しても本質的に安全ではないと主張する州もあるが、他の州には安全を保証する政策があり、そのような州や政策は実現可能であると我々は主張する。
我々は,FACが制約満足度と報酬最適化の両方の観点から,従来の予測に基づく制約付きRL法より優れていることを理論的に保証する。
論文 参考訳(メタデータ) (2021-05-22T10:40:58Z) - Conservative Safety Critics for Exploration [120.73241848565449]
強化学習(RL)における安全な探索の課題について検討する。
我々は、批評家を通じて環境状態の保守的な安全性推定を学習する。
提案手法は,破滅的故障率を著しく低く抑えながら,競争力のあるタスク性能を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-27T17:54:25Z) - Cautious Reinforcement Learning with Logical Constraints [78.96597639789279]
適応型安全なパッドディングは、学習プロセス中の安全性を確保しつつ、RL(Reinforcement Learning)に最適な制御ポリシーの合成を強制する。
理論的な保証は、合成されたポリシーの最適性と学習アルゴリズムの収束について利用できる。
論文 参考訳(メタデータ) (2020-02-26T00:01:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。