論文の概要: Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments
- arxiv url: http://arxiv.org/abs/2209.15090v3
- Date: Tue, 13 Jun 2023 17:38:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 18:34:07.297901
- Title: Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments
- Title(参考訳): ソフトバリアによるハード制約の強化:未知確率環境における安全強化学習
- Authors: Yixuan Wang, Simon Sinong Zhan, Ruochen Jiao, Zhilu Wang, Wanxin Jin,
Zhuoran Yang, Zhaoran Wang, Chao Huang, Qi Zhu
- Abstract要約: 本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
- 参考スコア(独自算出の注目度): 84.3830478851369
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is quite challenging to ensure the safety of reinforcement learning (RL)
agents in an unknown and stochastic environment under hard constraints that
require the system state not to reach certain specified unsafe regions. Many
popular safe RL methods such as those based on the Constrained Markov Decision
Process (CMDP) paradigm formulate safety violations in a cost function and try
to constrain the expectation of cumulative cost under a threshold. However, it
is often difficult to effectively capture and enforce hard reachability-based
safety constraints indirectly with such constraints on safety violation costs.
In this work, we leverage the notion of barrier function to explicitly encode
the hard safety constraints, and given that the environment is unknown, relax
them to our design of \emph{generative-model-based soft barrier functions}.
Based on such soft barriers, we propose a safe RL approach that can jointly
learn the environment and optimize the control policy, while effectively
avoiding unsafe regions with safety probability optimization. Experiments on a
set of examples demonstrate that our approach can effectively enforce hard
safety constraints and significantly outperform CMDP-based baseline methods in
system safe rate measured via simulations.
- Abstract(参考訳): システム状態が特定の非安全領域に到達しないことを要求される厳しい制約の下で、未知の確率環境における強化学習(rl)エージェントの安全性を確保することは極めて困難である。
CMDP(Constrained Markov Decision Process)パラダイムに基づくような、多くの一般的な安全なRL手法は、コスト関数の安全性違反を定式化し、しきい値の下で累積コストの期待を制限しようとする。
しかし,このような安全侵害コストの制約を間接的に受け継いで,難到達性に基づく安全制約を効果的に捉えて実施することは困難である。
本研究では,厳密な安全性制約を明示的にエンコードするためにバリア関数という概念を活用し,環境が未知であることを考慮し,それらを \emph{generative-model-based soft barrier function} の設計に緩和する。
このようなソフトバリアに基づき,安全確率最適化により安全でない領域を効果的に回避しつつ,環境を学習し,制御ポリシーを最適化できる安全なrl手法を提案する。
一連の実験により,本手法は安全制約を効果的に適用し,CMDPベースのベースライン法をシミュレーションにより測定したシステム安全率で著しく上回っていることが示された。
関連論文リスト
- Safety through Permissibility: Shield Construction for Fast and Safe Reinforcement Learning [57.84059344739159]
シールドディング」は、強化学習(RL)の安全性を強制する一般的な手法である
安全と遮蔽構造に対処する新しい許容性に基づく枠組みを提案する。
論文 参考訳(メタデータ) (2024-05-29T18:00:21Z) - Sampling-based Safe Reinforcement Learning for Nonlinear Dynamical
Systems [15.863561935347692]
非線形力学系の制御のための安全かつ収束性のある強化学習アルゴリズムを開発した。
制御とRLの交差点における最近の進歩は、ハードセーフティ制約を強制するための2段階の安全フィルタアプローチに従っている。
我々は,古典的な収束保証を享受するRLコントローラを学習する,一段階のサンプリングに基づくハード制約満足度へのアプローチを開発する。
論文 参考訳(メタデータ) (2024-03-06T19:39:20Z) - Concurrent Learning of Policy and Unknown Safety Constraints in Reinforcement Learning [4.14360329494344]
強化学習(Reinforcement Learning, RL)は、過去数十年にわたって、幅広い領域で意思決定に革命をもたらした。
しかし、現実のシナリオにRLポリシーをデプロイすることは、安全性を確保する上で重要な課題である。
従来の安全RLアプローチは、事前に定義された安全制約を政策学習プロセスに組み込むことに重点を置いてきた。
本稿では,安全なRL制御ポリシを同時に学習し,その環境の未知の安全制約パラメータを同定する手法を提案する。
論文 参考訳(メタデータ) (2024-02-24T20:01:15Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。
我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2022-07-04T11:43:23Z) - Lyapunov-based uncertainty-aware safe reinforcement learning [0.0]
InReinforcement Learning (RL)は、様々なシーケンシャルな意思決定タスクに対して最適なポリシーを学ぶ上で、有望なパフォーマンスを示している。
多くの現実世界のRL問題において、主な目的を最適化する以外に、エージェントは一定のレベルの安全性を満たすことが期待されている。
これらの制約に対処するために,リャプノフに基づく不確実性を考慮した安全なRLモデルを提案する。
論文 参考訳(メタデータ) (2021-07-29T13:08:15Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Context-Aware Safe Reinforcement Learning for Non-Stationary
Environments [24.75527261989899]
現実的なタスクのために強化学習エージェントを展開する場合、安全は重要な問題である。
非定常環境における安全な適応を実現するために,文脈認識型安全強化学習法(CASRL)を提案する。
提案アルゴリズムは,安全性とロバスト性の観点から,既存のベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2021-01-02T23:52:22Z) - Constrained Markov Decision Processes via Backward Value Functions [43.649330976089004]
制約付きマルコフ決定プロセスとして,制約付き学習の問題をモデル化する。
我々のアプローチの重要な貢献は、累積的なコスト制約を状態ベースの制約に変換することである。
我々は、エージェントが訓練の過程で安全を確保しながら収束する理論的保証を提供する。
論文 参考訳(メタデータ) (2020-08-26T20:56:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。