論文の概要: CRPO: A New Approach for Safe Reinforcement Learning with Convergence
Guarantee
- arxiv url: http://arxiv.org/abs/2011.05869v3
- Date: Mon, 31 May 2021 04:41:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-26 23:24:38.439392
- Title: CRPO: A New Approach for Safe Reinforcement Learning with Convergence
Guarantee
- Title(参考訳): crpo:コンバージェンス保証による安全強化学習のための新しいアプローチ
- Authors: Tengyu Xu, Yingbin Liang, Guanghui Lan
- Abstract要約: 安全強化学習(SRL)問題では、エージェントは期待される全報酬を最大化し、一定の制約の違反を避けるために環境を探索する。
これは、大域的最適ポリシーを持つSRLアルゴリズムの最初の分析である。
- 参考スコア(独自算出の注目度): 61.176159046544946
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In safe reinforcement learning (SRL) problems, an agent explores the
environment to maximize an expected total reward and meanwhile avoids violation
of certain constraints on a number of expected total costs. In general, such
SRL problems have nonconvex objective functions subject to multiple nonconvex
constraints, and hence are very challenging to solve, particularly to provide a
globally optimal policy. Many popular SRL algorithms adopt a primal-dual
structure which utilizes the updating of dual variables for satisfying the
constraints. In contrast, we propose a primal approach, called
constraint-rectified policy optimization (CRPO), which updates the policy
alternatingly between objective improvement and constraint satisfaction. CRPO
provides a primal-type algorithmic framework to solve SRL problems, where each
policy update can take any variant of policy optimization step. To demonstrate
the theoretical performance of CRPO, we adopt natural policy gradient (NPG) for
each policy update step and show that CRPO achieves an
$\mathcal{O}(1/\sqrt{T})$ convergence rate to the global optimal policy in the
constrained policy set and an $\mathcal{O}(1/\sqrt{T})$ error bound on
constraint satisfaction. This is the first finite-time analysis of primal SRL
algorithms with global optimality guarantee. Our empirical results demonstrate
that CRPO can outperform the existing primal-dual baseline algorithms
significantly.
- Abstract(参考訳): 安全強化学習(SRL)問題において、エージェントは期待される総報酬を最大化するために環境を探索し、一方、期待される総コストに対する一定の制約の違反を避ける。
一般に、そのようなSRL問題は、複数の非凸制約を受ける非凸目的関数を持ち、特に大域的最適ポリシーを提供するために、解決するのが非常に困難である。
多くのSRLアルゴリズムは、制約を満たすために双対変数の更新を利用する原始双対構造を採用している。
対照的に,制約修正政策最適化(CRPO)と呼ばれる基本的アプローチを提案し,客観的改善と制約満足度を交互に更新する。
CRPOは、SRL問題を解決するための原始型アルゴリズムフレームワークを提供する。
CRPOの理論的性能を示すために、各ポリシー更新ステップに自然政策勾配(NPG)を採用し、制約されたポリシーセットにおける大域的最適ポリシーへの収束率$\mathcal{O}(1/\sqrt{T})と、制約満足度に基づくエラー境界$$\mathcal{O}(1/\sqrt{T})を実現する。
これは、大域的最適性を保証する原始SRLアルゴリズムの最初の有限時間解析である。
実験の結果,CRPOは既存の原始双対ベースラインアルゴリズムよりも優れていた。
関連論文リスト
- Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Fast Policy Learning for Linear Quadratic Control with Entropy
Regularization [10.771650397337366]
本稿では,レギュラー化政策勾配 (RPG) と反復政策最適化 (IPO) の2つの新しい政策学習手法を提案し,分析する。
正確な政策評価にアクセスできると仮定すると、どちらの手法も正規化されたLQCの最適ポリシーを見つける際に線形に収束することが証明される。
論文 参考訳(メタデータ) (2023-11-23T19:08:39Z) - Constrained Proximal Policy Optimization [36.20839673950677]
制約付き近似ポリシー最適化(CPPO)という新しい一階法を提案する。
提案手法は,(1)実現可能な領域(E段階)における最適政策分布を計算し,2)E段階(M段階)において得られた最適政策に対して,現在の政策を調整するための第1次更新を行う,という2つのステップで解決するための期待最大化フレームワークを統合する。
複雑で不確実な環境で実施した実証実験により,提案手法の有効性が検証された。
論文 参考訳(メタデータ) (2023-05-23T16:33:55Z) - Faster Last-iterate Convergence of Policy Optimization in Zero-Sum
Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。
両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。
我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文 参考訳(メタデータ) (2022-10-03T16:05:43Z) - COptiDICE: Offline Constrained Reinforcement Learning via Stationary
Distribution Correction Estimation [73.17078343706909]
オフラインの制約付き強化学習(RL)問題。エージェントは、所定のコスト制約を満たしながら期待されるリターンを最大化するポリシーを計算し、事前に収集されたデータセットからのみ学習する。
定常分布空間におけるポリシーを最適化するオフライン制約付きRLアルゴリズムを提案する。
我々のアルゴリズムであるCOptiDICEは、コスト上限を制約しながら、利益に対する最適政策の定常分布補正を直接見積もる。
論文 参考訳(メタデータ) (2022-04-19T15:55:47Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Projection-Based Constrained Policy Optimization [34.555500347840805]
我々は,PCPO (Projection-based Constrained Policy Optimization) という新しいアルゴリズムを提案する。
PCPOは、最先端の手法に比べて3.5倍以上の制約違反と約15%の報酬を達成している。
論文 参考訳(メタデータ) (2020-10-07T04:22:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。