論文の概要: Fast Convergence of Softmax Policy Mirror Ascent
- arxiv url: http://arxiv.org/abs/2411.12042v1
- Date: Mon, 18 Nov 2024 20:27:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:37:25.058075
- Title: Fast Convergence of Softmax Policy Mirror Ascent
- Title(参考訳): ソフトマックス政策鏡の高速収束
- Authors: Reza Asad, Reza Babanezhad, Issam Laradji, Nicolas Le Roux, Sharan Vaswani,
- Abstract要約: 自然ポリシー勾配 (NPG) は共通ポリシー最適化アルゴリズムであり、確率空間におけるミラー上昇と見なすことができる。
我々はこのアルゴリズムを改良し、アクション間の正規化の必要性を排除し、結果の方法を分析する(SPMA参照)。
- 参考スコア(独自算出の注目度): 11.540610656150958
- License:
- Abstract: Natural policy gradient (NPG) is a common policy optimization algorithm and can be viewed as mirror ascent in the space of probabilities. Recently, Vaswani et al. [2021] introduced a policy gradient method that corresponds to mirror ascent in the dual space of logits. We refine this algorithm, removing its need for a normalization across actions and analyze the resulting method (referred to as SPMA). For tabular MDPs, we prove that SPMA with a constant step-size matches the linear convergence of NPG and achieves a faster convergence than constant step-size (accelerated) softmax policy gradient. To handle large state-action spaces, we extend SPMA to use a log-linear policy parameterization. Unlike that for NPG, generalizing SPMA to the linear function approximation (FA) setting does not require compatible function approximation. Unlike MDPO, a practical generalization of NPG, SPMA with linear FA only requires solving convex softmax classification problems. We prove that SPMA achieves linear convergence to the neighbourhood of the optimal value function. We extend SPMA to handle non-linear FA and evaluate its empirical performance on the MuJoCo and Atari benchmarks. Our results demonstrate that SPMA consistently achieves similar or better performance compared to MDPO, PPO and TRPO.
- Abstract(参考訳): 自然ポリシー勾配 (NPG) は共通ポリシー最適化アルゴリズムであり、確率空間におけるミラー上昇と見なすことができる。
最近、Vaswani et al [2021] は、ロジットの双対空間におけるミラー昇華に対応するポリシー勾配法を導入した。
我々は,このアルゴリズムを改良し,アクション間の正規化の必要性を排除し,結果の手法を解析する(SPMAと呼ぶ)。
表型 MDP の場合、SPMA は NPG の線形収束と一致し、定数ステップサイズ (加速) のソフトマックスポリシー勾配よりも高速な収束を実現する。
大規模な状態-アクション空間を扱うために、SPMAを拡張してログ線形ポリシーパラメータ化を使用する。
NPGのそれとは異なり、線形関数近似(FA)設定へのSPMAの一般化は、互換性のある関数近似を必要としない。
NPGの実用的な一般化であるMDPOとは異なり、線形FAを持つSPMAは凸ソフトマックス分類問題を解くことしか必要としない。
本研究では,SPMAが最適値関数の近傍に線形収束することを示す。
非線形FAを扱うためにSPMAを拡張し、MuJoCoおよびAtariベンチマーク上での経験的性能を評価する。
以上の結果から,SPMAはMDPO,PPO,TRPOと同等あるいは優れた性能を示すことがわかった。
関連論文リスト
- Moreau Envelope ADMM for Decentralized Weakly Convex Optimization [55.2289666758254]
本稿では,分散最適化のための乗算器の交互方向法(ADMM)の近位変種を提案する。
数値実験の結果,本手法は広く用いられている手法よりも高速かつ堅牢であることが示された。
論文 参考訳(メタデータ) (2023-08-31T14:16:30Z) - Nonconvex Stochastic Bregman Proximal Gradient Method for Nonconvex Composite Problems [9.202586157819693]
非合成対象関数の勾配法は、典型的には微分可能部分のリプシッツ滑らかさに依存する。
非目的の非Lipschitz勾配を扱う近似モデルを提案する。
ステップ選択感度の観点から最適なロバスト性が得られることを示す。
論文 参考訳(メタデータ) (2023-06-26T08:54:46Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - Regularization and Variance-Weighted Regression Achieves Minimax
Optimality in Linear MDPs: Theory and Practice [79.48432795639403]
ミラー降下値反復(MDVI)は、KL(Kulback-Leibler)とRL(Entropy-regularized reinforcement learning)の抽象化である。
MDVIを線形関数近似を用いて研究し,$varepsilon$-optimal policyを同定するために必要なサンプル複雑性について検討した。
我々は,無限水平線形MDPに対して,最小限のサンプル複雑性を実現する最初の理論的アルゴリズムである分散重み付き最小二乗法MDVIを提案する。
論文 参考訳(メタデータ) (2023-05-22T16:13:05Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Smoothing Policy Iteration for Zero-sum Markov Games [9.158672246275348]
ゼロサムMGの解法としてスムージングポリシロバストネス(SPI)アルゴリズムを提案する。
特に、対向ポリシーは、作用空間上の効率的なサンプリングを可能にする重み関数として機能する。
また,SPIを関数近似で拡張することにより,Smooth adversarial Actor-critic (SaAC) と呼ばれるモデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-03T14:39:06Z) - Geometric Policy Iteration for Markov Decision Processes [4.746723775952672]
最近発見された有限状態作用割引マルコフ決定過程(MDP)の値関数の多面構造は、強化学習の成功を理解することに光を当てた。
ディスカウントされたMDPを解決するために,新しいアルゴリズムであるemphGeometric Policy Iterationを提案する。
論文 参考訳(メタデータ) (2022-06-12T18:15:24Z) - Convergence and sample complexity of natural policy gradient primal-dual methods for constrained MDPs [21.347689976296834]
我々は、割引された最適レート問題を解くために、自然政策勾配法を用いる。
また、2つのサンプルベースNPG-PDアルゴリズムに対して収束と有限サンプル保証を提供する。
論文 参考訳(メタデータ) (2022-06-06T04:28:04Z) - Bregman Gradient Policy Optimization [97.73041344738117]
本稿では,Bregmanの発散と運動量に基づく強化学習のためのBregmanグラデーションポリシーの最適化を設計する。
VR-BGPOは、各イテレーションで1つの軌道のみを必要とする$epsilon$stationaryポイントを見つけるために、$tilde(epsilon-3)$で最高の複雑性に達する。
論文 参考訳(メタデータ) (2021-06-23T01:08:54Z) - Softmax Policy Gradient Methods Can Take Exponential Time to Converge [60.98700344526674]
Softmax Policy gradient(PG)メソッドは、現代の強化学習におけるポリシー最適化の事実上の実装の1つです。
ソフトマックス PG 法は、$mathcalS|$ および $frac11-gamma$ の観点から指数時間で収束できることを実証する。
論文 参考訳(メタデータ) (2021-02-22T18:56:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。