論文の概要: An Improved Analysis of (Variance-Reduced) Policy Gradient and Natural
Policy Gradient Methods
- arxiv url: http://arxiv.org/abs/2211.07937v2
- Date: Wed, 16 Nov 2022 05:55:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 15:59:13.658626
- Title: An Improved Analysis of (Variance-Reduced) Policy Gradient and Natural
Policy Gradient Methods
- Title(参考訳): 変動誘導型)政策グラディエントおよび自然政策グラディエント手法の改良分析
- Authors: Yanli Liu, Kaiqing Zhang, Tamer Ba\c{s}ar and Wotao Yin
- Abstract要約: 政策勾配 (PG) 法, 自然PG (NPG) 法, および分散還元変種の再検討と改善を行った。
定常点のみに収束することが示され, ある固有関数近似誤差まで大域的最適値に収束することが, 最先端の分散還元PG法であることを示す。
我々はまた、グローバル収束と効率的な有限サンプル複雑性を両立させ、NPGの分散還元を可能にした。
- 参考スコア(独自算出の注目度): 40.657905797628786
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we revisit and improve the convergence of policy gradient
(PG), natural PG (NPG) methods, and their variance-reduced variants, under
general smooth policy parametrizations. More specifically, with the Fisher
information matrix of the policy being positive definite: i) we show that a
state-of-the-art variance-reduced PG method, which has only been shown to
converge to stationary points, converges to the globally optimal value up to
some inherent function approximation error due to policy parametrization; ii)
we show that NPG enjoys a lower sample complexity; iii) we propose SRVR-NPG,
which incorporates variance-reduction into the NPG update. Our improvements
follow from an observation that the convergence of (variance-reduced) PG and
NPG methods can improve each other: the stationary convergence analysis of PG
can be applied to NPG as well, and the global convergence analysis of NPG can
help to establish the global convergence of (variance-reduced) PG methods. Our
analysis carefully integrates the advantages of these two lines of works.
Thanks to this improvement, we have also made variance-reduction for NPG
possible, with both global convergence and an efficient finite-sample
complexity.
- Abstract(参考訳): 本稿では,一般的なスムーズな政策パラメトリゼーションの下で,政策勾配(PG)法,自然PG(NPG)法,およびそれらの分散還元変種の再検討と改善を行う。
より具体的には、政策のフィッシャー情報マトリックスが肯定的である。
一 定常点に収束することしか証明されていない最先端の分散分散還元pg法が、ポリシーのパラメトリゼーションによるいくつかの固有関数近似誤差までグローバルに最適値に収束することを示す。
二) NPGがより低いサンプル複雑性を享受していること。
三 分散還元をNPG更新に組み込んだSRVR-NPGを提案する。
PGの定常収束解析はNPGにも適用可能であり,NPGのグローバル収束解析は(分散還元)PG法のグローバル収束を確立するのに有効である。
この2つの作品の利点を慎重に分析する。
この改良により、グローバル収束と効率的な有限サンプル複雑性の両面から、NPGの分散還元が可能になった。
関連論文リスト
- Global Convergence of Natural Policy Gradient with Hessian-aided
Momentum Variance Reduction [6.320200835271402]
自然政策勾配(NPG)とその変種は、強化学習において広く使われている政策探索法である。
本報告では, ヘシアン支援運動量法による分散低減技術を用いて, NPG-HM を新たに生成した NPG-HM を開発した。
ムジョコをベースとした環境実験では、他の最先端の政策勾配法よりもNPG-HMの方が優れた性能を示した。
論文 参考訳(メタデータ) (2024-01-02T07:56:17Z) - Accelerated Policy Gradient: On the Convergence Rates of the Nesterov Momentum for Reinforcement Learning [12.987019067098412]
我々は、強化学習(RL)における政策最適化に、祝福されたネステロフの加速勾配(NAG)法を適応する。
i) $tildeO (1/t2)$, (ii) $O(e-ct)$, (ii) $O(e-ct)$。
論文 参考訳(メタデータ) (2023-10-18T11:33:22Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - The Role of Baselines in Policy Gradient Optimization [83.42050606055822]
Emphstateのバリューベースラインが、オン・ポリティクスを可能にしていることを示す。
世界的な最適な政策勾配(NPG)に収束する。
O (1/t) レート勾配でのポリシー。
値ベースラインの主な効果は、その分散ではなく、更新のアグレッシブさをthabfreduceすることにある。
論文 参考訳(メタデータ) (2023-01-16T06:28:00Z) - Linear Convergence of Natural Policy Gradient Methods with Log-Linear
Policies [115.86431674214282]
我々は、無限水平割引マルコフ決定過程を考察し、自然政策勾配(NPG)とQ-NPG法の収束率を対数線形ポリシークラスで検討する。
両手法が線形収束率と $mathcalO (1/epsilon2)$サンプル複雑度を, 単純で非適応的な幾何的に増加するステップサイズを用いて達成できることを示す。
論文 参考訳(メタデータ) (2022-10-04T06:17:52Z) - Optimal Estimation of Off-Policy Policy Gradient via Double Fitted
Iteration [39.250754806600135]
政策(PG)推定は、ターゲットポリシーのサンプル化が許されない場合、課題となる。
従来の非政治PG推定法は、しばしば大きなバイアスや指数関数的に大きなばらつきに悩まされる。
本稿では,FPG(Double Fitted PG Estimation)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-01-31T20:23:52Z) - On the Global Convergence of Momentum-based Policy Gradient [9.622367651590878]
政策勾配法(PG法)は大規模強化学習に人気があり,効率的である。
本研究では, PG法の改良のための効率的なレシピとして, 運動量項を用いたPG法のグローバル収束について検討した。
我々の研究は、運動量に基づくPG法に対する大域収束結果を得る最初のものである。
論文 参考訳(メタデータ) (2021-10-19T17:16:29Z) - A general sample complexity analysis of vanilla policy gradient [101.16957584135767]
政策勾配(PG)は、最も一般的な強化学習(RL)問題の1つである。
PG軌道の「バニラ」理論的理解は、RL問題を解く最も一般的な方法の1つである。
論文 参考訳(メタデータ) (2021-07-23T19:38:17Z) - Fast Global Convergence of Natural Policy Gradient Methods with Entropy
Regularization [44.24881971917951]
自然政策勾配法(NPG)は、最も広く使われている政策最適化アルゴリズムの一つである。
我々は,ソフトマックスパラメータ化の下で,エントロピー規則化NPG法に対する収束保証を開発する。
この結果から, エントロピー正則化の役割を浮き彫りにした。
論文 参考訳(メタデータ) (2020-07-13T17:58:41Z) - Zeroth-order Deterministic Policy Gradient [116.87117204825105]
ゼロ階決定主義政策グラディエント(ZDPG)を紹介する。
ZDPGは、$Q$関数の2点評価によりポリシー逆勾配を近似する。
ZDPGの新たな有限サンプル複雑性境界は、既存の結果を最大2桁改善する。
論文 参考訳(メタデータ) (2020-06-12T16:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。