論文の概要: Stochastic Recursive Momentum for Policy Gradient Methods
- arxiv url: http://arxiv.org/abs/2003.04302v1
- Date: Mon, 9 Mar 2020 17:59:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 08:17:06.124326
- Title: Stochastic Recursive Momentum for Policy Gradient Methods
- Title(参考訳): 政策勾配法における確率的再帰モーメント
- Authors: Huizhuo Yuan, Xiangru Lian, Ji Liu, Yuren Zhou
- Abstract要約: STOchastic Recursive Momentum for Policy Gradient (Storm-PG) という新しいアルゴリズムを提案する。
Storm-PG は STORM-PG のサンプルバウンドで、ポリシー勾配アルゴリズムの最もよく知られた収束率と一致する。
数値実験では、比較ポリシー勾配アルゴリズムよりもアルゴリズムの方が優れていることが示されている。
- 参考スコア(独自算出の注目度): 28.277961340108313
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a novel algorithm named STOchastic Recursive
Momentum for Policy Gradient (STORM-PG), which operates a SARAH-type stochastic
recursive variance-reduced policy gradient in an exponential moving average
fashion. STORM-PG enjoys a provably sharp $O(1/\epsilon^3)$ sample complexity
bound for STORM-PG, matching the best-known convergence rate for policy
gradient algorithm. In the mean time, STORM-PG avoids the alternations between
large batches and small batches which persists in comparable variance-reduced
policy gradient methods, allowing considerably simpler parameter tuning.
Numerical experiments depicts the superiority of our algorithm over comparative
policy gradient algorithms.
- Abstract(参考訳): 本稿では,SARAH型確率的再帰的分散誘導政策勾配を指数移動平均方式で演算する,STOchastic Recursive Momentum for Policy Gradient (STORM-PG) という新しいアルゴリズムを提案する。
STORM-PGは、STORM-PGのサンプル複雑性を証明可能なシャープな$O(1/\epsilon^3)で楽しむ。
平均すると、STORM-PGは、大きなバッチと、同等の分散還元ポリシー勾配メソッドで持続する小さなバッチの交替を回避し、かなり単純なパラメータチューニングを可能にします。
数値実験は比較ポリシー勾配アルゴリズムよりもアルゴリズムの優越性を示す。
関連論文リスト
- Global Convergence of Natural Policy Gradient with Hessian-aided
Momentum Variance Reduction [6.320200835271402]
自然政策勾配(NPG)とその変種は、強化学習において広く使われている政策探索法である。
本報告では, ヘシアン支援運動量法による分散低減技術を用いて, NPG-HM を新たに生成した NPG-HM を開発した。
ムジョコをベースとした環境実験では、他の最先端の政策勾配法よりもNPG-HMの方が優れた性能を示した。
論文 参考訳(メタデータ) (2024-01-02T07:56:17Z) - Adaptive Policy Learning to Additional Tasks [3.43814540650436]
本稿では,事前訓練されたポリシーを調整し,本来のタスクを変更することなく追加タスクに適応するためのポリシー学習手法を開発する。
本稿では,適応政策グラディエント (APG) という手法を提案する。これはベルマンの最適性の原理と,収束率を改善するための政策勾配アプローチを組み合わせたものである。
論文 参考訳(メタデータ) (2023-05-24T14:31:11Z) - Anchor-Changing Regularized Natural Policy Gradient for Multi-Objective
Reinforcement Learning [17.916366827429034]
複数の報酬値関数を持つマルコフ決定プロセス(MDP)のポリシー最適化について検討する。
本稿では,順応的な一階法からアイデアを取り入れたアンカー変更型正規化自然政策グラディエントフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-10T21:09:44Z) - PAGE-PG: A Simple and Loopless Variance-Reduced Policy Gradient Method
with Probabilistic Gradient Estimation [6.063525456640462]
本稿では,2種類の更新間の確率的スイッチに基づくループレス分散還元ポリシー勾配法を提案する。
提案手法は, 平均サンプル密度を$epsilon$-stationary に到達させるため, $mathcalOleft(epsilon-3 right)$平均サンプルの複雑性を満足することを示す。
古典的制御タスクにおける本手法の競合性能を数値評価により確認する。
論文 参考訳(メタデータ) (2022-02-01T10:10:49Z) - Bregman Gradient Policy Optimization [97.73041344738117]
本稿では,Bregmanの発散と運動量に基づく強化学習のためのBregmanグラデーションポリシーの最適化を設計する。
VR-BGPOは、各イテレーションで1つの軌道のみを必要とする$epsilon$stationaryポイントを見つけるために、$tilde(epsilon-3)$で最高の複雑性に達する。
論文 参考訳(メタデータ) (2021-06-23T01:08:54Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Softmax Policy Gradient Methods Can Take Exponential Time to Converge [60.98700344526674]
Softmax Policy gradient(PG)メソッドは、現代の強化学習におけるポリシー最適化の事実上の実装の1つです。
ソフトマックス PG 法は、$mathcalS|$ および $frac11-gamma$ の観点から指数時間で収束できることを実証する。
論文 参考訳(メタデータ) (2021-02-22T18:56:26Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z) - Fast Global Convergence of Natural Policy Gradient Methods with Entropy
Regularization [44.24881971917951]
自然政策勾配法(NPG)は、最も広く使われている政策最適化アルゴリズムの一つである。
我々は,ソフトマックスパラメータ化の下で,エントロピー規則化NPG法に対する収束保証を開発する。
この結果から, エントロピー正則化の役割を浮き彫りにした。
論文 参考訳(メタデータ) (2020-07-13T17:58:41Z) - Deep Bayesian Quadrature Policy Optimization [100.81242753620597]
ディープベイズ二次政策勾配 (Deep Bayesian quadrature Policy gradient, DBQPG) は、政策勾配推定のためのベイズ二次政策の高次元一般化である。
政策勾配法では,DBQPGがモンテカルロ推定を代用できることを示すとともに,一連の連続制御ベンチマーク上での有効性を示す。
論文 参考訳(メタデータ) (2020-06-28T15:44:47Z) - Zeroth-order Deterministic Policy Gradient [116.87117204825105]
ゼロ階決定主義政策グラディエント(ZDPG)を紹介する。
ZDPGは、$Q$関数の2点評価によりポリシー逆勾配を近似する。
ZDPGの新たな有限サンプル複雑性境界は、既存の結果を最大2桁改善する。
論文 参考訳(メタデータ) (2020-06-12T16:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。