論文の概要: Reachability Constrained Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2205.07536v1
- Date: Mon, 16 May 2022 09:32:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-17 15:03:33.960622
- Title: Reachability Constrained Reinforcement Learning
- Title(参考訳): 到達性制約付き強化学習
- Authors: Dongjie Yu, Haitong Ma, Shengbo Eben Li, Jianyu Chen
- Abstract要約: 本稿では、到達可能性解析を用いて最大の実現可能性集合を特徴付けるリーチビリティCRL(RCRL)法を提案する。
また、マルチ時間スケール近似理論を用いて、提案アルゴリズムが局所最適化に収束することを証明する。
安全な制御ジャムやセーフティガイムなどの異なるベンチマークにおける実験結果は、学習可能なセット、最適基準における性能、RCRLの制約満足度などを検証する。
- 参考スコア(独自算出の注目度): 6.5158195776494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Constrained Reinforcement Learning (CRL) has gained significant interest
recently, since the satisfaction of safety constraints is critical for real
world problems. However, existing CRL methods constraining discounted
cumulative costs generally lack rigorous definition and guarantee of safety. On
the other hand, in the safe control research, safety is defined as persistently
satisfying certain state constraints. Such persistent safety is possible only
on a subset of the state space, called feasible set, where an optimal largest
feasible set exists for a given environment. Recent studies incorporating safe
control with CRL using energy-based methods such as control barrier function
(CBF), safety index (SI) leverage prior conservative estimation of feasible
sets, which harms performance of the learned policy. To deal with this problem,
this paper proposes a reachability CRL (RCRL) method by using reachability
analysis to characterize the largest feasible sets. We characterize the
feasible set by the established self-consistency condition, then a safety value
function can be learned and used as constraints in CRL. We also use the
multi-time scale stochastic approximation theory to prove that the proposed
algorithm converges to a local optimum, where the largest feasible set can be
guaranteed. Empirical results on different benchmarks such as safe-control-gym
and Safety-Gym validate the learned feasible set, the performance in optimal
criteria, and constraint satisfaction of RCRL, compared to state-of-the-art CRL
baselines.
- Abstract(参考訳): 安全制約の満足度が現実世界の問題に不可欠であるため、制約強化学習(crl)は近年大きな関心を集めている。
しかし, 既存のCRL法では, 累積コストの削減に厳格な定義と安全性の保証が欠如している。
一方、安全制御研究においては、安全は一定の状態制約を持続的に満たすものとして定義される。
このような永続的安全性は、与えられた環境に対して最適な最大実現可能集合が存在する状態空間のサブセット(実現可能集合)でのみ可能である。
近年,制御障壁関数 (CBF) や安全指標 (SI) といったエネルギーベースの手法を用いてCRLによる安全制御を取り入れた最近の研究は,学習方針の性能を損なう可能性集合の事前の保守的推定を活用している。
そこで本研究では,到達可能性解析を用いて最大の実現可能性集合を特徴付けるリーチビリティCRL(RCRL)法を提案する。
確立された自己整合性条件で実現可能な設定を特徴付け,CRLの制約として安全値関数を学習し,使用することができる。
また、マルチ時間スケール確率近似理論を用いて、提案アルゴリズムが局所最適化に収束し、最大の実現可能な集合が保証されることを示す。
安全制御ジャムやセーフティガイムなどの異なるベンチマークにおける実験結果は、最先端のCRLベースラインと比較して、学習可能なセット、最適基準における性能、RCRLの制約満足度を検証する。
関連論文リスト
- Sampling-based Safe Reinforcement Learning for Nonlinear Dynamical
Systems [15.863561935347692]
非線形力学系の制御のための安全かつ収束性のある強化学習アルゴリズムを開発した。
制御とRLの交差点における最近の進歩は、ハードセーフティ制約を強制するための2段階の安全フィルタアプローチに従っている。
我々は,古典的な収束保証を享受するRLコントローラを学習する,一段階のサンプリングに基づくハード制約満足度へのアプローチを開発する。
論文 参考訳(メタデータ) (2024-03-06T19:39:20Z) - Concurrent Learning of Policy and Unknown Safety Constraints in Reinforcement Learning [4.14360329494344]
強化学習(Reinforcement Learning, RL)は、過去数十年にわたって、幅広い領域で意思決定に革命をもたらした。
しかし、現実のシナリオにRLポリシーをデプロイすることは、安全性を確保する上で重要な課題である。
従来の安全RLアプローチは、事前に定義された安全制約を政策学習プロセスに組み込むことに重点を置いてきた。
本稿では,安全なRL制御ポリシを同時に学習し,その環境の未知の安全制約パラメータを同定する手法を提案する。
論文 参考訳(メタデータ) (2024-02-24T20:01:15Z) - Iterative Reachability Estimation for Safe Reinforcement Learning [23.942701020636882]
安全制約付き強化学習(RL)環境のための新しいフレームワークRESPO(Reachability Estimation for Safe Policy Optimization)を提案する。
違反のないポリシーが存在する現実的な環境では、永続的な安全を維持しながら報酬を最適化します。
安全ガイム, PyBullet, および MuJoCo を用いた安全RL環境の多種多様な構成について, 提案手法の評価を行った。
論文 参考訳(メタデータ) (2023-09-24T02:36:42Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Safe and Efficient Reinforcement Learning Using
Disturbance-Observer-Based Control Barrier Functions [5.571154223075409]
本稿では、外乱オブザーバ(DOB)と制御バリア機能(CBF)を用いた安全かつ効率的な強化学習(RL)手法を提案する。
本手法はモデル学習を伴わず,DOBを用いて不確実性のポイントワイド値を正確に推定し,安全行動を生成するための頑健なCBF条件に組み込む。
提案手法は,CBFとガウス過程に基づくモデル学習を用いて,最先端の安全なRLアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-11-30T18:49:53Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Pointwise Feasibility of Gaussian Process-based Safety-Critical Control
under Model Uncertainty [77.18483084440182]
制御バリア関数(CBF)と制御リアプノフ関数(CLF)は、制御システムの安全性と安定性をそれぞれ強化するための一般的なツールである。
本稿では, CBF と CLF を用いた安全クリティカルコントローラにおいて, モデル不確実性に対処するためのガウスプロセス(GP)に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-13T23:08:49Z) - Model-Based Actor-Critic with Chance Constraint for Stochastic System [6.600423613245076]
安全かつ非保守的な政策を効率的に学習できるモデルに基づくチャンス制約アクタークリティカル(CCAC)アルゴリズムを提案する。
CCACは、目的関数と安全確率が適応重みと同時に最適化される元のチャンス制約問題を直接解決します。
論文 参考訳(メタデータ) (2020-12-19T15:46:50Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。