論文の概要: Global Convergence of Natural Policy Gradient with Hessian-aided
Momentum Variance Reduction
- arxiv url: http://arxiv.org/abs/2401.01084v2
- Date: Mon, 22 Jan 2024 01:16:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 19:26:34.302479
- Title: Global Convergence of Natural Policy Gradient with Hessian-aided
Momentum Variance Reduction
- Title(参考訳): Hessian-aided Momentum Variance Reductionによる自然政策のグローバル収束
- Authors: Jie Feng, Ke Wei and Jinchi Chen
- Abstract要約: 自然政策勾配(NPG)とその変種は、強化学習において広く使われている政策探索法である。
本報告では, ヘシアン支援運動量法による分散低減技術を用いて, NPG-HM を新たに生成した NPG-HM を開発した。
ムジョコをベースとした環境実験では、他の最先端の政策勾配法よりもNPG-HMの方が優れた性能を示した。
- 参考スコア(独自算出の注目度): 6.320200835271402
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural policy gradient (NPG) and its variants are widely-used policy search
methods in reinforcement learning. Inspired by prior work, a new NPG variant
coined NPG-HM is developed in this paper, which utilizes the Hessian-aided
momentum technique for variance reduction, while the sub-problem is solved via
the stochastic gradient descent method. It is shown that NPG-HM can achieve the
global last iterate $\epsilon$-optimality with a sample complexity of
$\mathcal{O}(\epsilon^{-2})$, which is the best known result for natural policy
gradient type methods under the generic Fisher non-degenerate policy
parameterizations. The convergence analysis is built upon a relaxed weak
gradient dominance property tailored for NPG under the compatible function
approximation framework, as well as a neat way to decompose the error when
handling the sub-problem. Moreover, numerical experiments on Mujoco-based
environments demonstrate the superior performance of NPG-HM over other
state-of-the-art policy gradient methods.
- Abstract(参考訳): 自然政策勾配(npg)とその変種は強化学習において広く用いられている政策探索法である。
先行研究に触発された新しいnpg変種npg-hmを開発し, 分散低減のためのヘッセン支援運動量技術を用いて, 確率勾配降下法を用いてサブプロブレムを解いた。
npg-hm は、ジェネリックフィッシャー非退化ポリシーパラメータ化の下で自然政策勾配型手法の最もよく知られた結果である $\mathcal{o}(\epsilon^{-2})$ のサンプル複雑性で、グローバルラストイテレートである $\epsilon$-optimality を達成できることが示されている。
収束解析は、npgに適合する関数近似フレームワークで調整された緩和された弱勾配支配特性と、サブ問題を扱う際にエラーを分解する方法に基づいている。
さらに, ムジョコ型環境における数値実験により, NPG-HMの他の最先端政策勾配法よりも優れた性能を示した。
関連論文リスト
- Model-Based Reparameterization Policy Gradient Methods: Theory and
Practical Algorithms [88.74308282658133]
Reization (RP) Policy Gradient Methods (PGM) は、ロボット工学やコンピュータグラフィックスにおける連続的な制御タスクに広く採用されている。
近年の研究では、長期強化学習問題に適用した場合、モデルベースRP PGMはカオス的かつ非滑らかな最適化環境を経験する可能性があることが示されている。
本稿では,長期モデルアンロールによる爆発的分散問題を緩和するスペクトル正規化法を提案する。
論文 参考訳(メタデータ) (2023-10-30T18:43:21Z) - Optimization Landscape of Policy Gradient Methods for Discrete-time
Static Output Feedback [22.21598324895312]
本稿では,静的な出力フィードバック制御に適用した場合に,ポリシー勾配法に固有の最適化環境を解析する。
3つの政策勾配法に対する定常点への収束(およびほぼ次元自由率)に関する新しい知見を導出する。
我々は,バニラポリシー勾配法が,そのようなミニマに近づいた場合,局所最小マに対して線形収束を示すことを示す。
論文 参考訳(メタデータ) (2023-10-29T14:25:57Z) - The Role of Baselines in Policy Gradient Optimization [83.42050606055822]
Emphstateのバリューベースラインが、オン・ポリティクスを可能にしていることを示す。
世界的な最適な政策勾配(NPG)に収束する。
O (1/t) レート勾配でのポリシー。
値ベースラインの主な効果は、その分散ではなく、更新のアグレッシブさをthabfreduceすることにある。
論文 参考訳(メタデータ) (2023-01-16T06:28:00Z) - An Improved Analysis of (Variance-Reduced) Policy Gradient and Natural
Policy Gradient Methods [40.657905797628786]
政策勾配 (PG) 法, 自然PG (NPG) 法, および分散還元変種の再検討と改善を行った。
定常点のみに収束することが示され, ある固有関数近似誤差まで大域的最適値に収束することが, 最先端の分散還元PG法であることを示す。
我々はまた、グローバル収束と効率的な有限サンプル複雑性を両立させ、NPGの分散還元を可能にした。
論文 参考訳(メタデータ) (2022-11-15T06:47:06Z) - Convergence and sample complexity of natural policy gradient primal-dual methods for constrained MDPs [21.347689976296834]
我々は、割引された最適レート問題を解くために、自然政策勾配法を用いる。
また、2つのサンプルベースNPG-PDアルゴリズムに対して収束と有限サンプル保証を提供する。
論文 参考訳(メタデータ) (2022-06-06T04:28:04Z) - A general sample complexity analysis of vanilla policy gradient [101.16957584135767]
政策勾配(PG)は、最も一般的な強化学習(RL)問題の1つである。
PG軌道の「バニラ」理論的理解は、RL問題を解く最も一般的な方法の1つである。
論文 参考訳(メタデータ) (2021-07-23T19:38:17Z) - Softmax Policy Gradient Methods Can Take Exponential Time to Converge [60.98700344526674]
Softmax Policy gradient(PG)メソッドは、現代の強化学習におけるポリシー最適化の事実上の実装の1つです。
ソフトマックス PG 法は、$mathcalS|$ および $frac11-gamma$ の観点から指数時間で収束できることを実証する。
論文 参考訳(メタデータ) (2021-02-22T18:56:26Z) - Fast Global Convergence of Natural Policy Gradient Methods with Entropy
Regularization [44.24881971917951]
自然政策勾配法(NPG)は、最も広く使われている政策最適化アルゴリズムの一つである。
我々は,ソフトマックスパラメータ化の下で,エントロピー規則化NPG法に対する収束保証を開発する。
この結果から, エントロピー正則化の役割を浮き彫りにした。
論文 参考訳(メタデータ) (2020-07-13T17:58:41Z) - Zeroth-order Deterministic Policy Gradient [116.87117204825105]
ゼロ階決定主義政策グラディエント(ZDPG)を紹介する。
ZDPGは、$Q$関数の2点評価によりポリシー逆勾配を近似する。
ZDPGの新たな有限サンプル複雑性境界は、既存の結果を最大2桁改善する。
論文 参考訳(メタデータ) (2020-06-12T16:52:29Z) - Stochastic Recursive Momentum for Policy Gradient Methods [28.277961340108313]
STOchastic Recursive Momentum for Policy Gradient (Storm-PG) という新しいアルゴリズムを提案する。
Storm-PG は STORM-PG のサンプルバウンドで、ポリシー勾配アルゴリズムの最もよく知られた収束率と一致する。
数値実験では、比較ポリシー勾配アルゴリズムよりもアルゴリズムの方が優れていることが示されている。
論文 参考訳(メタデータ) (2020-03-09T17:59:03Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。