論文の概要: On the Global Convergence of Momentum-based Policy Gradient
- arxiv url: http://arxiv.org/abs/2110.10116v1
- Date: Tue, 19 Oct 2021 17:16:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-20 16:20:02.295820
- Title: On the Global Convergence of Momentum-based Policy Gradient
- Title(参考訳): モメンタム政策のグローバル収束性について
- Authors: Yuhao Ding, Junzi Zhang, Javad Lavaei
- Abstract要約: 政策勾配法(PG法)は大規模強化学習に人気があり,効率的である。
本研究では, PG法の改良のための効率的なレシピとして, 運動量項を用いたPG法のグローバル収束について検討した。
我々の研究は、運動量に基づくPG法に対する大域収束結果を得る最初のものである。
- 参考スコア(独自算出の注目度): 9.622367651590878
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Policy gradient (PG) methods are popular and efficient for large-scale
reinforcement learning due to their relative stability and incremental nature.
In recent years, the empirical success of PG methods has led to the development
of a theoretical foundation for these methods. In this work, we generalize this
line of research by studying the global convergence of stochastic PG methods
with momentum terms, which have been demonstrated to be efficient recipes for
improving PG methods. We study both the soft-max and the Fisher-non-degenerate
policy parametrizations, and show that adding a momentum improves the global
optimality sample complexity of vanilla PG methods by
$\tilde{\mathcal{O}}(\epsilon^{-1.5})$ and
$\tilde{\mathcal{O}}(\epsilon^{-1})$, respectively, where $\epsilon>0$ is the
target tolerance. Our work is the first one that obtains global convergence
results for the momentum-based PG methods. For the generic
Fisher-non-degenerate policy parametrizations, our result is the first
single-loop and finite-batch PG algorithm achieving $\tilde{O}(\epsilon^{-3})$
global optimality sample complexity. Finally, as a by-product, our methods also
provide general framework for analyzing the global convergence rates of
stochastic PG methods, which can be easily applied and extended to different PG
estimators.
- Abstract(参考訳): 政策勾配法(PG法)は, 相対的安定性と漸進性により, 大規模強化学習に有効である。
近年、PG法の実証的な成功により、これらの手法の理論的基礎が発展してきた。
本研究では, 確率的pg法を運動量項で大域的に収束させることにより, pg法を改善するための効率的なレシピであることを示す。
我々はソフトマックスとフィッシャー非退化政策のパラメトリゼーションの両方について検討し、モメンタがバニラPG法の大域的最適サンプル複雑性を$\tilde{\mathcal{O}}(\epsilon^{-1.5})$と$\tilde{\mathcal{O}}(\epsilon^{-1})$で改善することを示し、ここでは$\epsilon>0$が目標許容度である。
我々の研究は、運動量に基づくPG法に対する大域収束結果を得る最初のものである。
一般的なfisher-non-degenerate policyパラメトリゼーションでは、最初のシングルループおよび有限バッチpgアルゴリズムが$\tilde{o}(\epsilon^{-3})$ global optimality sample complexityを達成する。
最後に, この手法は, 様々なPG推定器に容易に適用および拡張可能な, 確率PG法のグローバル収束率を解析するための一般的な枠組みを提供する。
関連論文リスト
- Accelerated Policy Gradient: On the Convergence Rates of the Nesterov Momentum for Reinforcement Learning [12.987019067098412]
我々は、強化学習(RL)における政策最適化に、祝福されたネステロフの加速勾配(NAG)法を適応する。
i) $tildeO (1/t2)$, (ii) $O(e-ct)$, (ii) $O(e-ct)$。
論文 参考訳(メタデータ) (2023-10-18T11:33:22Z) - Stochastic Policy Gradient Methods: Improved Sample Complexity for
Fisher-non-degenerate Policies [19.779044926914704]
我々は、フィッシャー非退化パラメタライズドポリシーの一般クラスに対する改善されたグローバルコンバージェンス保証を開発する。
本研究では,Implicit Gradient Transport (N-PG-IGT) を用いた正規化政策勾配法を提案し,この手法のサンプル複雑性を$tildemathcalO(varepsilon-2.5)$とする。
我々はこの複雑さをさらに改善し、ヘッセン支援再帰政策勾配を考慮し、$tilde MathcalmathcalO (varepsilon-2)$に改善する。
論文 参考訳(メタデータ) (2023-02-03T13:50:23Z) - The Role of Baselines in Policy Gradient Optimization [83.42050606055822]
Emphstateのバリューベースラインが、オン・ポリティクスを可能にしていることを示す。
世界的な最適な政策勾配(NPG)に収束する。
O (1/t) レート勾配でのポリシー。
値ベースラインの主な効果は、その分散ではなく、更新のアグレッシブさをthabfreduceすることにある。
論文 参考訳(メタデータ) (2023-01-16T06:28:00Z) - An Improved Analysis of (Variance-Reduced) Policy Gradient and Natural
Policy Gradient Methods [40.657905797628786]
政策勾配 (PG) 法, 自然PG (NPG) 法, および分散還元変種の再検討と改善を行った。
定常点のみに収束することが示され, ある固有関数近似誤差まで大域的最適値に収束することが, 最先端の分散還元PG法であることを示す。
我々はまた、グローバル収束と効率的な有限サンプル複雑性を両立させ、NPGの分散還元を可能にした。
論文 参考訳(メタデータ) (2022-11-15T06:47:06Z) - Beyond Exact Gradients: Convergence of Stochastic Soft-Max Policy Gradient Methods with Entropy Regularization [20.651913793555163]
古典的エントロピー正規化政策勾配法をソフトマックス政策パラメトリゼーションで再検討する。
提案したアルゴリズムに対して,大域的最適収束結果と$widetildemathcalO(frac1epsilon2)$のサンプル複雑性を確立する。
論文 参考訳(メタデータ) (2021-10-19T17:21:09Z) - A general sample complexity analysis of vanilla policy gradient [101.16957584135767]
政策勾配(PG)は、最も一般的な強化学習(RL)問題の1つである。
PG軌道の「バニラ」理論的理解は、RL問題を解く最も一般的な方法の1つである。
論文 参考訳(メタデータ) (2021-07-23T19:38:17Z) - Cautiously Optimistic Policy Optimization and Exploration with Linear
Function Approximation [48.744735294559824]
政策最適化手法は、その漸進的かつ政治的性質が価値に基づくアルゴリズムよりも安定しているため、一般的な強化学習アルゴリズムである。
本稿では,PCPGのサンプル複雑性問題を克服し,モデルのミスセグメンテーションに頑健さを保ちながら,新しいアルゴリズムCOPOEを提案する。
その結果、PCPGの$widetildeO (1/epsilon11)$からPCPGの$widetildeO (1/epsilon3)$まで、サンプルの複雑さが改善され、値ベースの技術とのギャップがほぼ埋められます。
論文 参考訳(メタデータ) (2021-03-24T01:42:59Z) - Softmax Policy Gradient Methods Can Take Exponential Time to Converge [60.98700344526674]
Softmax Policy gradient(PG)メソッドは、現代の強化学習におけるポリシー最適化の事実上の実装の1つです。
ソフトマックス PG 法は、$mathcalS|$ および $frac11-gamma$ の観点から指数時間で収束できることを実証する。
論文 参考訳(メタデータ) (2021-02-22T18:56:26Z) - On the Convergence and Sample Efficiency of Variance-Reduced Policy
Gradient Method [38.34416337932712]
政策は、例えばREINFORCEのようなリッチな強化学習(RL)手法を生み出します。
しかし、そのようなメソッドが$epsilon$-optimal Policyを見つけるための最もよく知られたサンプルの複雑さは$mathcalO(epsilon-3)$である。
第一次政策最適化法の基本収束特性とサンプル効率について検討する。
論文 参考訳(メタデータ) (2021-02-17T07:06:19Z) - Momentum-Based Policy Gradient Methods [133.53164856723782]
モデルフリー強化学習のための効率的なモーメントに基づくポリシー勾配手法のクラスを提案する。
特に,IS-MBPG法の適応的でないバージョンを提示するが,これは大きなバッチを伴わずに$O(epsilon-3)$と最もよく知られたサンプルの複雑さに達する。
論文 参考訳(メタデータ) (2020-07-13T20:44:15Z) - Zeroth-order Deterministic Policy Gradient [116.87117204825105]
ゼロ階決定主義政策グラディエント(ZDPG)を紹介する。
ZDPGは、$Q$関数の2点評価によりポリシー逆勾配を近似する。
ZDPGの新たな有限サンプル複雑性境界は、既存の結果を最大2桁改善する。
論文 参考訳(メタデータ) (2020-06-12T16:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。