論文の概要: Accelerated Policy Gradient: On the Nesterov Momentum for Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2310.11897v1
- Date: Wed, 18 Oct 2023 11:33:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 16:48:25.665294
- Title: Accelerated Policy Gradient: On the Nesterov Momentum for Reinforcement
Learning
- Title(参考訳): 加速政策グラディエント:強化学習のためのネステロフ運動について
- Authors: Yen-Ju Chen, Nai-Chieh Huang, Ping-Chun Hsieh
- Abstract要約: 政策勾配法は、最近、$Theta (1/t)$レートでグローバル収束を楽しむことが示されている。
我々はNesterovの加速勾配(NAG)法を強化学習(RL)に適用する。
ソフトマックスのパラメトリゼーションを施したAPGは,$tildeO (1/t)$レートで最適ポリシに収束することを示す。
- 参考スコア(独自算出の注目度): 8.762953634861868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Policy gradient methods have recently been shown to enjoy global convergence
at a $\Theta(1/t)$ rate in the non-regularized tabular softmax setting.
Accordingly, one important research question is whether this convergence rate
can be further improved, with only first-order updates. In this paper, we
answer the above question from the perspective of momentum by adapting the
celebrated Nesterov's accelerated gradient (NAG) method to reinforcement
learning (RL), termed \textit{Accelerated Policy Gradient} (APG). To
demonstrate the potential of APG in achieving faster global convergence, we
formally show that with the true gradient, APG with softmax policy
parametrization converges to an optimal policy at a $\tilde{O}(1/t^2)$ rate. To
the best of our knowledge, this is the first characterization of the global
convergence rate of NAG in the context of RL. Notably, our analysis relies on
one interesting finding: Regardless of the initialization, APG could end up
reaching a locally nearly-concave regime, where APG could benefit significantly
from the momentum, within finite iterations. By means of numerical validation,
we confirm that APG exhibits $\tilde{O}(1/t^2)$ rate as well as show that APG
could significantly improve the convergence behavior over the standard policy
gradient.
- Abstract(参考訳): 政策勾配法は、最近、非正規化タブ状ソフトマックス設定において、$\Theta(1/t)$レートでグローバル収束を楽しむことが示されている。
したがって、重要な研究課題の1つは、この収束率を1次更新だけでさらに改善できるかどうかである。
本稿では,Nesterovの加速勾配法(NAG)を強化学習(RL)に適用することにより,運動量の観点から,上記の疑問に答える。
より高速なグローバル収束を実現する上での APG の可能性を示すために、真の勾配により、ソフトマックスのパラメトリゼーションを持つ APG が $\tilde{O}(1/t^2)$ の速度で最適なポリシーに収束することを示す。
我々の知る限りでは、これはRLの文脈におけるNAGのグローバル収束率を初めて特徴づけるものである。
初期化にかかわらず、apgは局所的にほぼ凹凸に近い状態になり、有限の反復の中でapgは運動量から著しく恩恵を受ける可能性がある。
数値検証により,APGが$\tilde{O}(1/t^2)$レートを示し,APGが標準方針勾配に対する収束挙動を大幅に改善できることを示す。
関連論文リスト
- The Role of Baselines in Policy Gradient Optimization [83.42050606055822]
Emphstateのバリューベースラインが、オン・ポリティクスを可能にしていることを示す。
世界的な最適な政策勾配(NPG)に収束する。
O (1/t) レート勾配でのポリシー。
値ベースラインの主な効果は、その分散ではなく、更新のアグレッシブさをthabfreduceすることにある。
論文 参考訳(メタデータ) (2023-01-16T06:28:00Z) - An Improved Analysis of (Variance-Reduced) Policy Gradient and Natural
Policy Gradient Methods [40.657905797628786]
政策勾配 (PG) 法, 自然PG (NPG) 法, および分散還元変種の再検討と改善を行った。
定常点のみに収束することが示され, ある固有関数近似誤差まで大域的最適値に収束することが, 最先端の分散還元PG法であることを示す。
我々はまた、グローバル収束と効率的な有限サンプル複雑性を両立させ、NPGの分散還元を可能にした。
論文 参考訳(メタデータ) (2022-11-15T06:47:06Z) - On the Global Convergence of Momentum-based Policy Gradient [9.622367651590878]
政策勾配法(PG法)は大規模強化学習に人気があり,効率的である。
本研究では, PG法の改良のための効率的なレシピとして, 運動量項を用いたPG法のグローバル収束について検討した。
我々の研究は、運動量に基づくPG法に対する大域収束結果を得る最初のものである。
論文 参考訳(メタデータ) (2021-10-19T17:16:29Z) - A general sample complexity analysis of vanilla policy gradient [101.16957584135767]
政策勾配(PG)は、最も一般的な強化学習(RL)問題の1つである。
PG軌道の「バニラ」理論的理解は、RL問題を解く最も一般的な方法の1つである。
論文 参考訳(メタデータ) (2021-07-23T19:38:17Z) - On the Convergence of Stochastic Extragradient for Bilinear Games with
Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。
平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文 参考訳(メタデータ) (2021-06-30T17:51:36Z) - Softmax Policy Gradient Methods Can Take Exponential Time to Converge [60.98700344526674]
Softmax Policy gradient(PG)メソッドは、現代の強化学習におけるポリシー最適化の事実上の実装の1つです。
ソフトマックス PG 法は、$mathcalS|$ および $frac11-gamma$ の観点から指数時間で収束できることを実証する。
論文 参考訳(メタデータ) (2021-02-22T18:56:26Z) - Proximal Policy Gradient: PPO with Policy Gradient [13.571988925615486]
本稿では,VPG (vanilla Policy gradient) と PPO (proximal Policy Optimization) の両方に近い新しいアルゴリズム PPG (Proximal Policy Gradient) を提案する。
PPGの性能はPPOに匹敵し、エントロピーはPPGよりも遅く崩壊する。
論文 参考訳(メタデータ) (2020-10-20T00:14:57Z) - Momentum-Based Policy Gradient Methods [133.53164856723782]
モデルフリー強化学習のための効率的なモーメントに基づくポリシー勾配手法のクラスを提案する。
特に,IS-MBPG法の適応的でないバージョンを提示するが,これは大きなバッチを伴わずに$O(epsilon-3)$と最もよく知られたサンプルの複雑さに達する。
論文 参考訳(メタデータ) (2020-07-13T20:44:15Z) - Zeroth-order Deterministic Policy Gradient [116.87117204825105]
ゼロ階決定主義政策グラディエント(ZDPG)を紹介する。
ZDPGは、$Q$関数の2点評価によりポリシー逆勾配を近似する。
ZDPGの新たな有限サンプル複雑性境界は、既存の結果を最大2桁改善する。
論文 参考訳(メタデータ) (2020-06-12T16:52:29Z) - Stochastic Recursive Momentum for Policy Gradient Methods [28.277961340108313]
STOchastic Recursive Momentum for Policy Gradient (Storm-PG) という新しいアルゴリズムを提案する。
Storm-PG は STORM-PG のサンプルバウンドで、ポリシー勾配アルゴリズムの最もよく知られた収束率と一致する。
数値実験では、比較ポリシー勾配アルゴリズムよりもアルゴリズムの方が優れていることが示されている。
論文 参考訳(メタデータ) (2020-03-09T17:59:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。