論文の概要: PAGE-PG: A Simple and Loopless Variance-Reduced Policy Gradient Method
with Probabilistic Gradient Estimation
- arxiv url: http://arxiv.org/abs/2202.00308v1
- Date: Tue, 1 Feb 2022 10:10:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-02 20:53:26.481180
- Title: PAGE-PG: A Simple and Loopless Variance-Reduced Policy Gradient Method
with Probabilistic Gradient Estimation
- Title(参考訳): page-pg:確率的勾配推定を用いた簡易かつループレス分散低減ポリシー勾配法
- Authors: Matilde Gargiani, Andrea Zanelli, Andrea Martinelli, Tyler Summers,
John Lygeros
- Abstract要約: 本稿では,2種類の更新間の確率的スイッチに基づくループレス分散還元ポリシー勾配法を提案する。
提案手法は, 平均サンプル密度を$epsilon$-stationary に到達させるため, $mathcalOleft(epsilon-3 right)$平均サンプルの複雑性を満足することを示す。
古典的制御タスクにおける本手法の競合性能を数値評価により確認する。
- 参考スコア(独自算出の注目度): 6.063525456640462
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite their success, policy gradient methods suffer from high variance of
the gradient estimate, which can result in unsatisfactory sample complexity.
Recently, numerous variance-reduced extensions of policy gradient methods with
provably better sample complexity and competitive numerical performance have
been proposed. After a compact survey on some of the main variance-reduced
REINFORCE-type methods, we propose ProbAbilistic Gradient Estimation for Policy
Gradient (PAGE-PG), a novel loopless variance-reduced policy gradient method
based on a probabilistic switch between two types of updates. Our method is
inspired by the PAGE estimator for supervised learning and leverages importance
sampling to obtain an unbiased gradient estimator. We show that PAGE-PG enjoys
a $\mathcal{O}\left( \epsilon^{-3} \right)$ average sample complexity to reach
an $\epsilon$-stationary solution, which matches the sample complexity of its
most competitive counterparts under the same setting. A numerical evaluation
confirms the competitive performance of our method on classical control tasks.
- Abstract(参考訳): その成功にもかかわらず、政策勾配法は勾配推定の高分散に悩まされ、不満足なサンプルの複雑さをもたらす可能性がある。
近年、サンプルの複雑さと競合する数値性能を確実に向上させる政策勾配法の拡張が多数提案されている。
主分散低減強化型手法のいくつかについてコンパクトな調査を行った後,2種類の更新の確率的切り替えに基づく新しいループレス分散低減型ポリシー勾配法であるポリシー勾配(page-pg)の確率的勾配推定を提案する。
本手法は,教師付き学習のためのpage estimatorにインスパイアされ,重要度サンプリングを利用して偏りのない勾配推定器を得る。
page-pg は $\mathcal{o}\left( \epsilon^{-3} \right)$ 平均的なサンプル複雑性を享受し、$\epsilon$-定常解に到達する。
古典的制御タスクにおける本手法の競合性能を数値評価により確認する。
関連論文リスト
- Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - On the Stochastic (Variance-Reduced) Proximal Gradient Method for Regularized Expected Reward Optimization [10.36447258513813]
我々は、強化学習(RL)における既存の問題の多くを網羅する非文献設定における正規化期待報酬最適化問題を考える。
特に、標準条件下では、$O(epsilon-4)$サンプルを$epsilon$-stationaryポイントに含めることが示されている。
分析の結果,サンプルの複雑さは,追加条件下では$O(epsilon-4)$から$O(epsilon-3)$に改善できることがわかった。
論文 参考訳(メタデータ) (2024-01-23T06:01:29Z) - Model-Based Reparameterization Policy Gradient Methods: Theory and
Practical Algorithms [88.74308282658133]
Reization (RP) Policy Gradient Methods (PGM) は、ロボット工学やコンピュータグラフィックスにおける連続的な制御タスクに広く採用されている。
近年の研究では、長期強化学習問題に適用した場合、モデルベースRP PGMはカオス的かつ非滑らかな最適化環境を経験する可能性があることが示されている。
本稿では,長期モデルアンロールによる爆発的分散問題を緩和するスペクトル正規化法を提案する。
論文 参考訳(メタデータ) (2023-10-30T18:43:21Z) - Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。
制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T14:53:55Z) - Batch Reinforcement Learning with a Nonparametric Off-Policy Policy
Gradient [34.16700176918835]
オフライン強化学習は、より良いデータ効率を約束する。
現在の非政治政策勾配法は、高いバイアスまたは高い分散に悩まされ、しばしば信頼できない見積もりを提供する。
閉形式で解ける非パラメトリックベルマン方程式を提案する。
論文 参考訳(メタデータ) (2020-10-27T13:40:06Z) - Deep Bayesian Quadrature Policy Optimization [100.81242753620597]
ディープベイズ二次政策勾配 (Deep Bayesian quadrature Policy gradient, DBQPG) は、政策勾配推定のためのベイズ二次政策の高次元一般化である。
政策勾配法では,DBQPGがモンテカルロ推定を代用できることを示すとともに,一連の連続制御ベンチマーク上での有効性を示す。
論文 参考訳(メタデータ) (2020-06-28T15:44:47Z) - Zeroth-order Deterministic Policy Gradient [116.87117204825105]
ゼロ階決定主義政策グラディエント(ZDPG)を紹介する。
ZDPGは、$Q$関数の2点評価によりポリシー逆勾配を近似する。
ZDPGの新たな有限サンプル複雑性境界は、既存の結果を最大2桁改善する。
論文 参考訳(メタデータ) (2020-06-12T16:52:29Z) - Stochastic Recursive Momentum for Policy Gradient Methods [28.277961340108313]
STOchastic Recursive Momentum for Policy Gradient (Storm-PG) という新しいアルゴリズムを提案する。
Storm-PG は STORM-PG のサンプルバウンドで、ポリシー勾配アルゴリズムの最もよく知られた収束率と一致する。
数値実験では、比較ポリシー勾配アルゴリズムよりもアルゴリズムの方が優れていることが示されている。
論文 参考訳(メタデータ) (2020-03-09T17:59:03Z) - A Hybrid Stochastic Policy Gradient Algorithm for Reinforcement Learning [32.91450388566405]
近接ハイブリッドポリシー勾配アルゴリズム(ProxHSPGA)の開発
両アルゴリズムが最もよく知られた軌跡複雑性を$mathcalOleft(varepsilon-4right)$で実現できることを証明している。
我々は、強化学習におけるいくつかのよく知られた例に基づいて、アルゴリズムの性能を評価する。
論文 参考訳(メタデータ) (2020-03-01T07:45:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。