論文の概要: Constrained Proximal Policy Optimization
- arxiv url: http://arxiv.org/abs/2305.14216v1
- Date: Tue, 23 May 2023 16:33:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 14:43:45.329341
- Title: Constrained Proximal Policy Optimization
- Title(参考訳): 制約付き近位政策最適化
- Authors: Chengbin Xuan, Feng Zhang, Faliang Yin, Hak-Keung Lam
- Abstract要約: 制約付き近似ポリシー最適化(CPPO)という新しい一階法を提案する。
提案手法は,(1)実現可能な領域(E段階)における最適政策分布を計算し,2)E段階(M段階)において得られた最適政策に対して,現在の政策を調整するための第1次更新を行う,という2つのステップで解決するための期待最大化フレームワークを統合する。
複雑で不確実な環境で実施した実証実験により,提案手法の有効性が検証された。
- 参考スコア(独自算出の注目度): 36.20839673950677
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The problem of constrained reinforcement learning (CRL) holds significant
importance as it provides a framework for addressing critical safety
satisfaction concerns in the field of reinforcement learning (RL). However,
with the introduction of constraint satisfaction, the current CRL methods
necessitate the utilization of second-order optimization or primal-dual
frameworks with additional Lagrangian multipliers, resulting in increased
complexity and inefficiency during implementation. To address these issues, we
propose a novel first-order feasible method named Constrained Proximal Policy
Optimization (CPPO). By treating the CRL problem as a probabilistic inference
problem, our approach integrates the Expectation-Maximization framework to
solve it through two steps: 1) calculating the optimal policy distribution
within the feasible region (E-step), and 2) conducting a first-order update to
adjust the current policy towards the optimal policy obtained in the E-step
(M-step). We establish the relationship between the probability ratios and KL
divergence to convert the E-step into a convex optimization problem.
Furthermore, we develop an iterative heuristic algorithm from a geometric
perspective to solve this problem. Additionally, we introduce a conservative
update mechanism to overcome the constraint violation issue that occurs in the
existing feasible region method. Empirical evaluations conducted in complex and
uncertain environments validate the effectiveness of our proposed method, as it
performs at least as well as other baselines.
- Abstract(参考訳): 制約強化学習(CRL)の問題は、強化学習(RL)分野における重要な安全満足度に対処するための枠組みを提供するため、重要である。
しかし、制約満足度の導入により、現在のCRL法はラグランジアン乗算器を付加した二階最適化や原始双対フレームワークの利用が必要となり、実装の複雑さと非効率性が増大する。
そこで本研究では,制約付き近位政策最適化 (cppo) という新しい一階法を提案する。
CRL問題を確率的推論問題として扱うことにより、予測最大化フレームワークを統合し、2つのステップで解決する。
1)実現可能な領域(E段階)内の最適政策分布を計算し、
2)eステップ(mステップ)で得られた最適方針に向けて、現在の方針を調整するための第1次更新を行う。
我々は,Eステップを凸最適化問題に変換するために,確率比とKL分岐の関係を確立する。
さらに,この問題を解決するために,幾何学的観点から反復ヒューリスティックアルゴリズムを開発した。
さらに,既存の適用可能な領域法で発生する制約違反を克服する保守的な更新機構を導入する。
複雑で不確定な環境で実施した経験的評価は,提案手法の有効性を検証する。
関連論文リスト
- Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Double Duality: Variational Primal-Dual Policy Optimization for
Constrained Reinforcement Learning [132.7040981721302]
本研究では,訪問尺度の凸関数を最小化することを目的として,制約付き凸決定プロセス(MDP)について検討する。
制約付き凸MDPの設計アルゴリズムは、大きな状態空間を扱うなど、いくつかの課題に直面している。
論文 参考訳(メタデータ) (2024-02-16T16:35:18Z) - Fast Policy Learning for Linear Quadratic Control with Entropy
Regularization [10.771650397337366]
本稿では,レギュラー化政策勾配 (RPG) と反復政策最適化 (IPO) の2つの新しい政策学習手法を提案し,分析する。
正確な政策評価にアクセスできると仮定すると、どちらの手法も正規化されたLQCの最適ポリシーを見つける際に線形に収束することが証明される。
論文 参考訳(メタデータ) (2023-11-23T19:08:39Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - COptiDICE: Offline Constrained Reinforcement Learning via Stationary
Distribution Correction Estimation [73.17078343706909]
オフラインの制約付き強化学習(RL)問題。エージェントは、所定のコスト制約を満たしながら期待されるリターンを最大化するポリシーを計算し、事前に収集されたデータセットからのみ学習する。
定常分布空間におけるポリシーを最適化するオフライン制約付きRLアルゴリズムを提案する。
我々のアルゴリズムであるCOptiDICEは、コスト上限を制約しながら、利益に対する最適政策の定常分布補正を直接見積もる。
論文 参考訳(メタデータ) (2022-04-19T15:55:47Z) - Faster Algorithm and Sharper Analysis for Constrained Markov Decision
Process [56.55075925645864]
制約付き意思決定プロセス (CMDP) の問題点について検討し, エージェントは, 複数の制約を条件として, 期待される累積割引報酬を最大化することを目的とする。
新しいユーティリティ・デュアル凸法は、正規化ポリシー、双対正則化、ネステロフの勾配降下双対という3つの要素の新たな統合によって提案される。
これは、凸制約を受ける全ての複雑性最適化に対して、非凸CMDP問題が$mathcal O (1/epsilon)$の低い境界に達する最初の実演である。
論文 参考訳(メタデータ) (2021-10-20T02:57:21Z) - Successive Convex Approximation Based Off-Policy Optimization for
Constrained Reinforcement Learning [12.523496806744946]
本稿では,一般的な制約付き強化学習問題の解法として,凸近似に基づくオフポリティ最適化(SCAOPO)アルゴリズムを提案する。
時変状態分布と非政治学習によるバイアスにもかかわらず、実現可能な初期点を持つSCAOPOはカルーシュ=クーン=タッカー点に確実に収束することができる。
論文 参考訳(メタデータ) (2021-05-26T13:52:39Z) - CRPO: A New Approach for Safe Reinforcement Learning with Convergence
Guarantee [61.176159046544946]
安全強化学習(SRL)問題では、エージェントは期待される全報酬を最大化し、一定の制約の違反を避けるために環境を探索する。
これは、大域的最適ポリシーを持つSRLアルゴリズムの最初の分析である。
論文 参考訳(メタデータ) (2020-11-11T16:05:14Z) - Chance Constrained Policy Optimization for Process Control and
Optimization [1.4908563154226955]
1) プラントモデルミスマッチ, 2) プロセス障害, 3) 安全な運転の制約が, 化学プロセスの最適化と制御に影響を及ぼす。
本研究では,確率の高い連立確率制約の満足度を保証できる確率制約付きポリシ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-30T14:20:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。