論文の概要: Accelerated Policy Gradient: On the Convergence Rates of the Nesterov Momentum for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2310.11897v3
- Date: Thu, 6 Jun 2024 10:06:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-08 00:29:50.136681
- Title: Accelerated Policy Gradient: On the Convergence Rates of the Nesterov Momentum for Reinforcement Learning
- Title(参考訳): 加速政策グラディエント:強化学習のためのネステロフ運動の収束率について
- Authors: Yen-Ju Chen, Nai-Chieh Huang, Ching-Pei Lee, Ping-Chun Hsieh,
- Abstract要約: 我々は、強化学習(RL)における政策最適化に、祝福されたネステロフの加速勾配(NAG)法を適応する。
i) $tildeO (1/t2)$, (ii) $O(e-ct)$, (ii) $O(e-ct)$。
- 参考スコア(独自算出の注目度): 12.987019067098412
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Various acceleration approaches for Policy Gradient (PG) have been analyzed within the realm of Reinforcement Learning (RL). However, the theoretical understanding of the widely used momentum-based acceleration method on PG remains largely open. In response to this gap, we adapt the celebrated Nesterov's accelerated gradient (NAG) method to policy optimization in RL, termed \textit{Accelerated Policy Gradient} (APG). To demonstrate the potential of APG in achieving fast convergence, we formally prove that with the true gradient and under the softmax policy parametrization, APG converges to an optimal policy at rates: (i) $\tilde{O}(1/t^2)$ with constant step sizes; (ii) $O(e^{-ct})$ with exponentially-growing step sizes. To the best of our knowledge, this is the first characterization of the convergence rates of NAG in the context of RL. Notably, our analysis relies on one interesting finding: Regardless of the parameter initialization, APG ends up entering a locally nearly-concave regime, where APG can significantly benefit from the momentum, within finite iterations. Through numerical validation and experiments on the Atari 2600 benchmarks, we confirm that APG exhibits a $\tilde{O}(1/t^2)$ rate with constant step sizes and a linear convergence rate with exponentially-growing step sizes, significantly improving convergence over the standard PG.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)の領域において, 政策グラディエント(PG)の様々な加速手法を解析した。
しかし、PG上で広く使われている運動量ベースの加速法の理論的理解は、ほとんど未開のままである。
このギャップに対応するために、有名なネステロフの加速勾配 (NAG) 法を RL の政策最適化に適用し、これを 'textit{Accelerated Policy Gradient} (APG) と呼ぶ。
高速収束を実現する上でのAPGの可能性を示すため、真の勾配とソフトマックス政策パラメトリゼーションの下では、APGは速度で最適な政策に収束することを正式に証明する。
(i) 一定のステップサイズを持つ $\tilde{O}(1/t^2)$
(ii)$O(e^{-ct})$は指数関数的に成長するステップサイズを持つ。
我々の知る限りでは、これはRLの文脈におけるNAGの収束率を初めて特徴づけるものである。
パラメータの初期化にかかわらず、APGは有限反復で運動量から大きな恩恵を受けることができる局所的なほぼ凹面状態に入る。
Atari 2600ベンチマークの数値検証と実験により、APGが一定のステップサイズを持つ$\tilde{O}(1/t^2)$レートと指数的に成長するステップサイズを持つ線形収束率を示し、標準PGの収束性を大幅に向上させることを確認した。
関連論文リスト
- The Role of Baselines in Policy Gradient Optimization [83.42050606055822]
Emphstateのバリューベースラインが、オン・ポリティクスを可能にしていることを示す。
世界的な最適な政策勾配(NPG)に収束する。
O (1/t) レート勾配でのポリシー。
値ベースラインの主な効果は、その分散ではなく、更新のアグレッシブさをthabfreduceすることにある。
論文 参考訳(メタデータ) (2023-01-16T06:28:00Z) - An Improved Analysis of (Variance-Reduced) Policy Gradient and Natural
Policy Gradient Methods [40.657905797628786]
政策勾配 (PG) 法, 自然PG (NPG) 法, および分散還元変種の再検討と改善を行った。
定常点のみに収束することが示され, ある固有関数近似誤差まで大域的最適値に収束することが, 最先端の分散還元PG法であることを示す。
我々はまた、グローバル収束と効率的な有限サンプル複雑性を両立させ、NPGの分散還元を可能にした。
論文 参考訳(メタデータ) (2022-11-15T06:47:06Z) - On the Global Convergence of Momentum-based Policy Gradient [9.622367651590878]
政策勾配法(PG法)は大規模強化学習に人気があり,効率的である。
本研究では, PG法の改良のための効率的なレシピとして, 運動量項を用いたPG法のグローバル収束について検討した。
我々の研究は、運動量に基づくPG法に対する大域収束結果を得る最初のものである。
論文 参考訳(メタデータ) (2021-10-19T17:16:29Z) - A general sample complexity analysis of vanilla policy gradient [101.16957584135767]
政策勾配(PG)は、最も一般的な強化学習(RL)問題の1つである。
PG軌道の「バニラ」理論的理解は、RL問題を解く最も一般的な方法の1つである。
論文 参考訳(メタデータ) (2021-07-23T19:38:17Z) - On the Convergence of Stochastic Extragradient for Bilinear Games with
Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。
平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文 参考訳(メタデータ) (2021-06-30T17:51:36Z) - Softmax Policy Gradient Methods Can Take Exponential Time to Converge [60.98700344526674]
Softmax Policy gradient(PG)メソッドは、現代の強化学習におけるポリシー最適化の事実上の実装の1つです。
ソフトマックス PG 法は、$mathcalS|$ および $frac11-gamma$ の観点から指数時間で収束できることを実証する。
論文 参考訳(メタデータ) (2021-02-22T18:56:26Z) - Proximal Policy Gradient: PPO with Policy Gradient [13.571988925615486]
本稿では,VPG (vanilla Policy gradient) と PPO (proximal Policy Optimization) の両方に近い新しいアルゴリズム PPG (Proximal Policy Gradient) を提案する。
PPGの性能はPPOに匹敵し、エントロピーはPPGよりも遅く崩壊する。
論文 参考訳(メタデータ) (2020-10-20T00:14:57Z) - Momentum-Based Policy Gradient Methods [133.53164856723782]
モデルフリー強化学習のための効率的なモーメントに基づくポリシー勾配手法のクラスを提案する。
特に,IS-MBPG法の適応的でないバージョンを提示するが,これは大きなバッチを伴わずに$O(epsilon-3)$と最もよく知られたサンプルの複雑さに達する。
論文 参考訳(メタデータ) (2020-07-13T20:44:15Z) - Zeroth-order Deterministic Policy Gradient [116.87117204825105]
ゼロ階決定主義政策グラディエント(ZDPG)を紹介する。
ZDPGは、$Q$関数の2点評価によりポリシー逆勾配を近似する。
ZDPGの新たな有限サンプル複雑性境界は、既存の結果を最大2桁改善する。
論文 参考訳(メタデータ) (2020-06-12T16:52:29Z) - Stochastic Recursive Momentum for Policy Gradient Methods [28.277961340108313]
STOchastic Recursive Momentum for Policy Gradient (Storm-PG) という新しいアルゴリズムを提案する。
Storm-PG は STORM-PG のサンプルバウンドで、ポリシー勾配アルゴリズムの最もよく知られた収束率と一致する。
数値実験では、比較ポリシー勾配アルゴリズムよりもアルゴリズムの方が優れていることが示されている。
論文 参考訳(メタデータ) (2020-03-09T17:59:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。