論文の概要: Policy Gradients for Probabilistic Constrained Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2210.00596v1
- Date: Sun, 2 Oct 2022 18:16:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 16:27:51.751932
- Title: Policy Gradients for Probabilistic Constrained Reinforcement Learning
- Title(参考訳): 確率的制約付き強化学習のための政策勾配
- Authors: Weiqin Chen, Dharmashankar Subramanian and Santiago Paternain
- Abstract要約: 本稿では、強化学習(RL)における安全な政策学習の問題について考察する。
特に、安全なポリシーまたはコントローラは、高い確率で与えられた安全集合におけるエージェントの軌道を維持するものである。
我々は,この安全性の概念を,その安全性と性能に関する理論的境界を提供することにより,文献でよく考慮される平均安全性の概念に関連付ける。
- 参考スコア(独自算出の注目度): 13.441235221641717
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper considers the problem of learning safe policies in the context of
reinforcement learning (RL). In particular, a safe policy or controller is one
that, with high probability, maintains the trajectory of the agent in a given
safe set. We relate this notion of safety to the notion of average safety often
considered in the literature by providing theoretical bounds in terms of their
safety and performance. The challenge of working with the probabilistic notion
of safety considered in this work is the lack of expressions for their
gradients. Indeed, policy optimization algorithms rely on gradients of the
objective function and the constraints. To the best of our knowledge, this work
is the first one providing such explicit gradient expressions for probabilistic
constraints. It is worth noting that such probabilistic gradients are naturally
algorithm independent, which provides possibilities for them to be applied to
various policy-based algorithms. In addition, we consider a continuous
navigation problem to empirically illustrate the advantages (in terms of safety
and performance) of working with probabilistic constraints as compared to
average constraints.
- Abstract(参考訳): 本稿では、強化学習(RL)における安全な政策学習の問題について考察する。
特に、安全なポリシーまたはコントローラは、高い確率で与えられた安全集合におけるエージェントの軌道を維持するものである。
我々は,この安全性の概念を,その安全性と性能に関する理論的境界を提供することにより,文献でよく考慮される平均安全性の概念に関連付ける。
本研究で考慮される安全性の確率論的概念に取り組むことの課題は、それらの勾配に対する表現の欠如である。
実際、ポリシー最適化アルゴリズムは、目的関数と制約の勾配に依存する。
私たちの知る限りでは,この作業は,確率的制約に対して,そのような明示的な勾配表現を提供する最初の作業です。
このような確率勾配は自然にアルゴリズムに依存しており、様々なポリシーベースのアルゴリズムに適用できる可能性があることは注目に値する。
さらに,確率的制約を扱うことの利点(安全性と性能の観点から)を,平均的制約と比較して実証的に説明するための連続ナビゲーション問題を考える。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Policy Bifurcation in Safe Reinforcement Learning [35.75059015441807]
いくつかのシナリオでは、実行可能なポリシーは不連続または多値であり、不連続な局所最適性の間の補間は必然的に制約違反につながる。
我々は,このような現象の発生機構を最初に同定し,安全RLにおける分岐の存在を厳密に証明するためにトポロジカル解析を用いる。
本稿では,ガウス混合分布をポリシ出力として利用するマルチモーダルポリシ最適化(MUPO)と呼ばれる安全なRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-19T15:54:38Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Probabilistic Constraint for Safety-Critical Reinforcement Learning [13.502008069967552]
確率的制約付き強化学習(RL)における安全な政策学習の課題について考察する。
SPG-Actor-Critic は SPG-REINFORCE よりも低い分散をもたらす。
両SPGを利用して安全なポリシを学習できるSafe Primal-Dualアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-29T19:41:56Z) - Policy Gradient for Rectangular Robust Markov Decision Processes [62.397882389472564]
我々は,長方形ロバストなマルコフ決定過程(MDP)を効率的に解く政策ベース手法であるロバストなポリシー勾配(RPG)を導入する。
結果のRPGは、非ロバストな等価値と同じ時間のデータから推定することができる。
論文 参考訳(メタデータ) (2023-01-31T12:40:50Z) - Constrained Policy Gradient Method for Safe and Fast Reinforcement
Learning: a Neural Tangent Kernel Based Approach [6.316693022958221]
本稿では,安全な学習のための制約付きポリシー勾配アルゴリズムを提案する。
安全な学習のための制約を次の手順で導入する。
制約学習の効率は、カルトポールとルナーランダーのオープンAI環境において、浅い広いReLUネットワークで実証された。
論文 参考訳(メタデータ) (2021-07-19T20:25:15Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Policy Gradient for Continuing Tasks in Non-stationary Markov Decision
Processes [112.38662246621969]
強化学習は、マルコフ決定プロセスにおいて期待される累積報酬を最大化するポリシーを見つけることの問題を考える。
我々は、ポリシーを更新するために上昇方向として使用する値関数の偏りのないナビゲーション勾配を計算する。
ポリシー勾配型アルゴリズムの大きな欠点は、定常性の仮定が課せられない限り、それらがエピソジックなタスクに限定されていることである。
論文 参考訳(メタデータ) (2020-10-16T15:15:42Z) - Chance Constrained Policy Optimization for Process Control and
Optimization [1.4908563154226955]
1) プラントモデルミスマッチ, 2) プロセス障害, 3) 安全な運転の制約が, 化学プロセスの最適化と制御に影響を及ぼす。
本研究では,確率の高い連立確率制約の満足度を保証できる確率制約付きポリシ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-30T14:20:35Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。