論文の概要: Joint Synthesis of Safety Certificate and Safe Control Policy using
Constrained Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2111.07695v1
- Date: Mon, 15 Nov 2021 12:05:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-16 14:06:17.491124
- Title: Joint Synthesis of Safety Certificate and Safe Control Policy using
Constrained Reinforcement Learning
- Title(参考訳): 制約付き強化学習を用いた安全証明と安全制御政策の合同合成
- Authors: Haitong Ma, Changliu Liu, Shengbo Eben Li, Sifa Zheng, Jianyu Chen
- Abstract要約: 有効な安全証明書は、安全状態が低エネルギーであることを示すエネルギー関数である。
既存の学習に基づく研究は、安全証明書と安全管理ポリシーを、相互に学ぶための事前知識として扱う。
本稿では、エネルギー機能に基づく安全証明書を同時に合成し、CRLによる安全制御ポリシーを学習する新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 7.658716383823426
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safety is the major consideration in controlling complex dynamical systems
using reinforcement learning (RL), where the safety certificate can provide
provable safety guarantee. A valid safety certificate is an energy function
indicating that safe states are with low energy, and there exists a
corresponding safe control policy that allows the energy function to always
dissipate. The safety certificate and the safe control policy are closely
related to each other and both challenging to synthesize. Therefore, existing
learning-based studies treat either of them as prior knowledge to learn the
other, which limits their applicability with general unknown dynamics. This
paper proposes a novel approach that simultaneously synthesizes the
energy-function-based safety certificate and learns the safe control policy
with CRL. We do not rely on prior knowledge about either an available
model-based controller or a perfect safety certificate. In particular, we
formulate a loss function to optimize the safety certificate parameters by
minimizing the occurrence of energy increases. By adding this optimization
procedure as an outer loop to the Lagrangian-based constrained reinforcement
learning (CRL), we jointly update the policy and safety certificate parameters
and prove that they will converge to their respective local optima, the optimal
safe policy and a valid safety certificate. We evaluate our algorithms on
multiple safety-critical benchmark environments. The results show that the
proposed algorithm learns provably safe policies with no constraint violation.
The validity or feasibility of synthesized safety certificate is also verified
numerically.
- Abstract(参考訳): 安全は、安全証明が証明可能な安全保証を提供する強化学習(RL)を用いた複雑な力学系の制御において、主要な考慮事項である。
有効な安全証明書は、安全状態が低エネルギーであることを示すエネルギー関数であり、エネルギー関数が常に散逸することを許容する、対応する安全制御ポリシーが存在する。
安全証明書と安全管理ポリシーは互いに密接に関連しており、どちらも合成が困難である。
したがって、既存の学習に基づく研究は、どちらかを学習する事前知識として扱い、一般の未知のダイナミクスによる適用性を制限している。
本稿では、エネルギー機能に基づく安全証明書を同時に合成し、CRLによる安全制御ポリシーを学習する新しいアプローチを提案する。
利用可能なモデルベースのコントローラや完全な安全証明書に関する事前知識は依存していません。
特に、エネルギー増加の発生を最小限に抑え、安全証明書パラメータを最適化するために損失関数を定式化する。
この最適化手順をラグランジアン系制約強化学習(CRL)の外部ループとして追加することにより、ポリシと安全証明書パラメータを共同で更新し、各ローカル最適化、最適な安全ポリシー、有効な安全証明書に収束することを証明する。
我々は,複数の安全クリティカルベンチマーク環境でアルゴリズムを評価する。
その結果,提案アルゴリズムは制約違反のない安全なポリシを確実に学習することがわかった。
また、合成安全証明書の有効性や妥当性を数値的に検証する。
関連論文リスト
- Safe Reinforcement Learning with Learned Non-Markovian Safety Constraints [15.904640266226023]
我々は、安全に関する部分的状態行動軌跡の貢献を評価するために、信用割当を行う安全モデルの設計を行う。
学習された安全モデルを用いて安全なポリシーを最適化する有効なアルゴリズムを導出する。
安全報酬と安全コンプライアンスのトレードオフ係数を動的に適用する手法を考案する。
論文 参考訳(メタデータ) (2024-05-05T17:27:22Z) - Implicit Safe Set Algorithm for Provably Safe Reinforcement Learning [7.349727826230864]
DRLエージェントのセーフガードを合成するためのモデルフリー安全な制御アルゴリズムである暗黙のセーフセットアルゴリズムを提案する。
提案アルゴリズムは,ブラックボックスの動的関数を問合せするだけで,安全指標(バリア証明書)とその後の安全制御則を合成する。
提案アルゴリズムを最先端のSafety Gymベンチマークで検証し、95% pm 9%$ cumulative rewardを得た上で安全性違反をゼロにする。
論文 参考訳(メタデータ) (2024-05-04T20:59:06Z) - Sampling-based Safe Reinforcement Learning for Nonlinear Dynamical
Systems [15.863561935347692]
非線形力学系の制御のための安全かつ収束性のある強化学習アルゴリズムを開発した。
制御とRLの交差点における最近の進歩は、ハードセーフティ制約を強制するための2段階の安全フィルタアプローチに従っている。
我々は,古典的な収束保証を享受するRLコントローラを学習する,一段階のサンプリングに基づくハード制約満足度へのアプローチを開発する。
論文 参考訳(メタデータ) (2024-03-06T19:39:20Z) - Safe Online Dynamics Learning with Initially Unknown Models and
Infeasible Safety Certificates [45.72598064481916]
本稿では、制御バリア関数(CBF)2次コーンプログラムに基づく、堅牢な安全証明書を備えた学習ベースの設定について考察する。
制御バリア関数証明書が実現可能ならば,その安全性を確保するため,本手法では,データ収集と制御バリア関数制約の実現可能性の回復のために,システムダイナミクスを探索する。
論文 参考訳(メタデータ) (2023-11-03T14:23:57Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。
我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2022-07-04T11:43:23Z) - SAFER: Data-Efficient and Safe Reinforcement Learning via Skill
Acquisition [59.94644674087599]
安全制約下での複雑な制御タスクにおけるポリシー学習を高速化するアルゴリズムであるSAFEty skill pRiors (SAFER)を提案する。
オフラインデータセットでの原則的なトレーニングを通じて、SAFERは安全なプリミティブスキルの抽出を学ぶ。
推論段階では、SAFERで訓練されたポリシーは、安全なスキルを成功のポリシーに組み込むことを学ぶ。
論文 参考訳(メタデータ) (2022-02-10T05:43:41Z) - Learning Barrier Certificates: Towards Safe Reinforcement Learning with
Zero Training-time Violations [64.39401322671803]
本稿では、トレーニング時安全違反をゼロとした安全RLアルゴリズムの可能性について検討する。
本稿では、バリア証明書、動的モデル、ポリシーを反復的に学習する、CRABS(Co-trained Barrier Certificate for Safe RL)を提案する。
論文 参考訳(メタデータ) (2021-08-04T04:59:05Z) - Cautious Reinforcement Learning with Logical Constraints [78.96597639789279]
適応型安全なパッドディングは、学習プロセス中の安全性を確保しつつ、RL(Reinforcement Learning)に最適な制御ポリシーの合成を強制する。
理論的な保証は、合成されたポリシーの最適性と学習アルゴリズムの収束について利用できる。
論文 参考訳(メタデータ) (2020-02-26T00:01:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。