論文の概要: Coordinate Ascent for Off-Policy RL with Global Convergence Guarantees
- arxiv url: http://arxiv.org/abs/2212.05237v1
- Date: Sat, 10 Dec 2022 07:47:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 17:23:59.742636
- Title: Coordinate Ascent for Off-Policy RL with Global Convergence Guarantees
- Title(参考訳): グローバルコンバージェンス保証によるオフポリシーrlの座標上昇
- Authors: Hsin-En Su, Yen-Ju Chen, Ping-Chun Hsieh, Xi Liu
- Abstract要約: RLにおける非政治政策最適化の領域を再考する。
一般的に使用されるアプローチの1つは、代理目的を最適化するために、政治外の政策勾配を活用することである。
このアプローチは、分散ミスマッチの問題に悩まされていることが示されている。
- 参考スコア(独自算出の注目度): 8.610425739792284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We revisit the domain of off-policy policy optimization in RL from the
perspective of coordinate ascent. One commonly-used approach is to leverage the
off-policy policy gradient to optimize a surrogate objective -- the total
discounted in expectation return of the target policy with respect to the state
distribution of the behavior policy. However, this approach has been shown to
suffer from the distribution mismatch issue, and therefore significant efforts
are needed for correcting this mismatch either via state distribution
correction or a counterfactual method. In this paper, we rethink off-policy
learning via Coordinate Ascent Policy Optimization (CAPO), an off-policy
actor-critic algorithm that decouples policy improvement from the state
distribution of the behavior policy without using the policy gradient. This
design obviates the need for distribution correction or importance sampling in
the policy improvement step of off-policy policy gradient. We establish the
global convergence of CAPO with general coordinate selection and then further
quantify the convergence rates of several instances of CAPO with popular
coordinate selection rules, including the cyclic and the randomized variants of
CAPO. We then extend CAPO to neural policies for a more practical
implementation. Through experiments, we demonstrate that CAPO provides a
competitive approach to RL in practice.
- Abstract(参考訳): 我々は,座標上昇の観点から,rlにおけるオフポリシー政策最適化の領域を再考する。
一般的に使用されるアプローチの1つは、行動政策の国家的分布に関して、目標政策が期待するリターンの合計である代理目標を最適化するために、政策外の政策勾配を活用することである。
しかし、このアプローチは分布ミスマッチ問題に苦しむことが示されており、このミスマッチを状態分布補正または偽りの方法によって修正するには多大な努力が必要である。
本稿では,政策勾配を使わずに行動方針の状態分布から方針改善を分離するオフ・ポリティカル・アクタ・クリティック・アルゴリズムであるコーディネート・アセント・ポリシー最適化(capo)によるオフ・ポリティカル学習を再考する。
この設計は、非政治政策勾配の政策改善段階において、分配補正や重要サンプリングの必要性を排除している。
一般座標選択によるCAPOのグローバル収束を確立し、さらにCAPOの巡回およびランダム化変種を含む一般的な座標選択規則によるCAPOのいくつかのインスタンスの収束率を定量化する。
次に、より実用的な実装のために、CAPOをニューラルポリシーに拡張します。
実験により,CAPOは実際にRLに対して競争力のあるアプローチを提供することを示した。
関連論文リスト
- Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - POTEC: Off-Policy Learning for Large Action Spaces via Two-Stage Policy
Decomposition [40.851324484481275]
大規模離散行動空間における文脈的バンディット政策の非政治的学習について検討する。
本稿では,2段階ポリシー分解によるポリシー最適化という新しい2段階アルゴリズムを提案する。
特に大規模かつ構造化された行動空間において,POTECはOPLの有効性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-02-09T03:01:13Z) - Fast Policy Learning for Linear Quadratic Control with Entropy
Regularization [10.771650397337366]
本稿では,レギュラー化政策勾配 (RPG) と反復政策最適化 (IPO) の2つの新しい政策学習手法を提案し,分析する。
正確な政策評価にアクセスできると仮定すると、どちらの手法も正規化されたLQCの最適ポリシーを見つける際に線形に収束することが証明される。
論文 参考訳(メタデータ) (2023-11-23T19:08:39Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - Acceleration in Policy Optimization [50.323182853069184]
我々は、楽観的かつ適応的な更新を通じて、政策改善のステップにフォレストを組み込むことにより、強化学習(RL)における政策最適化手法を加速するための統一パラダイムに向けて研究する。
我々は、楽観主義を、政策の将来行動の予測モデルとして定義し、適応性は、過度な予測や変化に対する遅延反応からエラーを軽減するために、即時かつ予測的な修正措置をとるものである。
我々は,メタグラディエント学習による適応型楽観的ポリシー勾配アルゴリズムを設計し,実証的なタスクにおいて,加速度に関連するいくつかの設計選択を実証的に強調する。
論文 参考訳(メタデータ) (2023-06-18T15:50:57Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Hinge Policy Optimization: Rethinking Policy Improvement and
Reinterpreting PPO [6.33198867705718]
政策最適化は強化学習アルゴリズムを設計するための基本原理である。
優れた経験的性能にもかかわらず、PPO-clipは今まで理論的な証明によって正当化されていない。
PPO-クリップの変種に対する最適ポリシーへの大域収束を証明できるのはこれが初めてである。
論文 参考訳(メタデータ) (2021-10-26T15:56:57Z) - Cautious Policy Programming: Exploiting KL Regularization in Monotonic
Policy Improvement for Reinforcement Learning [11.82492300303637]
本稿では,学習中の単調な政策改善を確実にする,新しい値ベース強化学習(RL)アルゴリズムを提案する。
提案アルゴリズムは,古典的操作問題と高次元アタリゲームの両方において,性能と安定性を両立させることができることを示す。
論文 参考訳(メタデータ) (2021-07-13T01:03:10Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。