論文の概要: Accelerated Policy Gradient: On the Convergence Rates of the Nesterov
Momentum for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2310.11897v2
- Date: Mon, 19 Feb 2024 11:53:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 05:23:21.084584
- Title: Accelerated Policy Gradient: On the Convergence Rates of the Nesterov
Momentum for Reinforcement Learning
- Title(参考訳): 加速政策グラディエント:強化学習のためのネステロフ運動の収束率について
- Authors: Yen-Ju Chen, Nai-Chieh Huang, Ping-Chun Hsieh
- Abstract要約: 我々は、強化学習(RL)における政策最適化に、祝福されたネステロフの加速勾配(NAG)法を適応する。
i) $tildeO (1/t2)$, (ii) $O(e-ct)$, (ii) $O(e-ct)$。
- 参考スコア(独自算出の注目度): 8.762953634861868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Various acceleration approaches for Policy Gradient (PG) have been analyzed
within the realm of Reinforcement Learning (RL). However, the theoretical
understanding of the widely used momentum-based acceleration method on PG
remains largely open. In response to this gap, we adapt the celebrated
Nesterov's accelerated gradient (NAG) method to policy optimization in RL,
termed \textit{Accelerated Policy Gradient} (APG). To demonstrate the potential
of APG in achieving fast convergence, we formally prove that with the true
gradient and under the softmax policy parametrization, APG converges to an
optimal policy at rates: (i) $\tilde{O}(1/t^2)$ with constant step sizes; (ii)
$O(e^{-ct})$ with exponentially-growing step sizes. To the best of our
knowledge, this is the first characterization of the convergence rates of NAG
in the context of RL. Notably, our analysis relies on one interesting finding:
Regardless of the parameter initialization, APG ends up entering a locally
nearly-concave regime, where APG can significantly benefit from the momentum,
within finite iterations. Through numerical validation and experiments on the
Atari 2600 benchmarks, we confirm that APG exhibits a $\tilde{O}(1/t^2)$ rate
with constant step sizes and a linear convergence rate with
exponentially-growing step sizes, significantly improving convergence over the
standard PG.
- Abstract(参考訳): 政策勾配(pg)に対する様々な加速手法が強化学習(rl)の分野で解析されている。
しかし、PG上で広く使われている運動量ベースの加速法の理論的理解は、ほとんど未開のままである。
このギャップに対応するために、有名なネステロフの加速勾配 (NAG) 法を RL の政策最適化に適用し、これを 'textit{Accelerated Policy Gradient} (APG) と呼ぶ。
高速収束を実現する上でのAPGの可能性を示すため、真の勾配とソフトマックス政策パラメトリゼーションの下で、APGは速度で最適な政策に収束することを正式に証明する。
(i) 一定のステップサイズを持つ $\tilde{O}(1/t^2)$
(ii)$o(e^{-ct})$ 指数的に増加するステップサイズ。
我々の知る限りでは、これはRLの文脈におけるNAGの収束率を初めて特徴づけるものである。
パラメータの初期化にかかわらず、apgは局所的にほぼ凹凸に近い状態に入り、有限の反復の中でapgは運動量から著しく恩恵を受ける。
Atari 2600ベンチマークの数値検証と実験により、APGが一定のステップサイズを持つ$\tilde{O}(1/t^2)$レートと指数的に成長するステップサイズを持つ線形収束率を示し、標準PGの収束性を大幅に向上させることを確認した。
関連論文リスト
- The Role of Baselines in Policy Gradient Optimization [83.42050606055822]
Emphstateのバリューベースラインが、オン・ポリティクスを可能にしていることを示す。
世界的な最適な政策勾配(NPG)に収束する。
O (1/t) レート勾配でのポリシー。
値ベースラインの主な効果は、その分散ではなく、更新のアグレッシブさをthabfreduceすることにある。
論文 参考訳(メタデータ) (2023-01-16T06:28:00Z) - An Improved Analysis of (Variance-Reduced) Policy Gradient and Natural
Policy Gradient Methods [40.657905797628786]
政策勾配 (PG) 法, 自然PG (NPG) 法, および分散還元変種の再検討と改善を行った。
定常点のみに収束することが示され, ある固有関数近似誤差まで大域的最適値に収束することが, 最先端の分散還元PG法であることを示す。
我々はまた、グローバル収束と効率的な有限サンプル複雑性を両立させ、NPGの分散還元を可能にした。
論文 参考訳(メタデータ) (2022-11-15T06:47:06Z) - On the Global Convergence of Momentum-based Policy Gradient [9.622367651590878]
政策勾配法(PG法)は大規模強化学習に人気があり,効率的である。
本研究では, PG法の改良のための効率的なレシピとして, 運動量項を用いたPG法のグローバル収束について検討した。
我々の研究は、運動量に基づくPG法に対する大域収束結果を得る最初のものである。
論文 参考訳(メタデータ) (2021-10-19T17:16:29Z) - A general sample complexity analysis of vanilla policy gradient [101.16957584135767]
政策勾配(PG)は、最も一般的な強化学習(RL)問題の1つである。
PG軌道の「バニラ」理論的理解は、RL問題を解く最も一般的な方法の1つである。
論文 参考訳(メタデータ) (2021-07-23T19:38:17Z) - On the Convergence of Stochastic Extragradient for Bilinear Games with
Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。
平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文 参考訳(メタデータ) (2021-06-30T17:51:36Z) - Softmax Policy Gradient Methods Can Take Exponential Time to Converge [60.98700344526674]
Softmax Policy gradient(PG)メソッドは、現代の強化学習におけるポリシー最適化の事実上の実装の1つです。
ソフトマックス PG 法は、$mathcalS|$ および $frac11-gamma$ の観点から指数時間で収束できることを実証する。
論文 参考訳(メタデータ) (2021-02-22T18:56:26Z) - Proximal Policy Gradient: PPO with Policy Gradient [13.571988925615486]
本稿では,VPG (vanilla Policy gradient) と PPO (proximal Policy Optimization) の両方に近い新しいアルゴリズム PPG (Proximal Policy Gradient) を提案する。
PPGの性能はPPOに匹敵し、エントロピーはPPGよりも遅く崩壊する。
論文 参考訳(メタデータ) (2020-10-20T00:14:57Z) - Momentum-Based Policy Gradient Methods [133.53164856723782]
モデルフリー強化学習のための効率的なモーメントに基づくポリシー勾配手法のクラスを提案する。
特に,IS-MBPG法の適応的でないバージョンを提示するが,これは大きなバッチを伴わずに$O(epsilon-3)$と最もよく知られたサンプルの複雑さに達する。
論文 参考訳(メタデータ) (2020-07-13T20:44:15Z) - Zeroth-order Deterministic Policy Gradient [116.87117204825105]
ゼロ階決定主義政策グラディエント(ZDPG)を紹介する。
ZDPGは、$Q$関数の2点評価によりポリシー逆勾配を近似する。
ZDPGの新たな有限サンプル複雑性境界は、既存の結果を最大2桁改善する。
論文 参考訳(メタデータ) (2020-06-12T16:52:29Z) - Stochastic Recursive Momentum for Policy Gradient Methods [28.277961340108313]
STOchastic Recursive Momentum for Policy Gradient (Storm-PG) という新しいアルゴリズムを提案する。
Storm-PG は STORM-PG のサンプルバウンドで、ポリシー勾配アルゴリズムの最もよく知られた収束率と一致する。
数値実験では、比較ポリシー勾配アルゴリズムよりもアルゴリズムの方が優れていることが示されている。
論文 参考訳(メタデータ) (2020-03-09T17:59:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。