論文の概要: Zeroth-order Deterministic Policy Gradient
- arxiv url: http://arxiv.org/abs/2006.07314v2
- Date: Sat, 11 Jul 2020 18:16:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 03:53:05.658932
- Title: Zeroth-order Deterministic Policy Gradient
- Title(参考訳): ゼロ階決定論的政策勾配
- Authors: Harshat Kumar and Dionysios S. Kalogerias and George J. Pappas and
Alejandro Ribeiro
- Abstract要約: ゼロ階決定主義政策グラディエント(ZDPG)を紹介する。
ZDPGは、$Q$関数の2点評価によりポリシー逆勾配を近似する。
ZDPGの新たな有限サンプル複雑性境界は、既存の結果を最大2桁改善する。
- 参考スコア(独自算出の注目度): 116.87117204825105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deterministic Policy Gradient (DPG) removes a level of randomness from
standard randomized-action Policy Gradient (PG), and demonstrates substantial
empirical success for tackling complex dynamic problems involving Markov
decision processes. At the same time, though, DPG loses its ability to learn in
a model-free (i.e., actor-only) fashion, frequently necessitating the use of
critics in order to obtain consistent estimates of the associated policy-reward
gradient. In this work, we introduce Zeroth-order Deterministic Policy Gradient
(ZDPG), which approximates policy-reward gradients via two-point stochastic
evaluations of the $Q$-function, constructed by properly designed
low-dimensional action-space perturbations. Exploiting the idea of random
horizon rollouts for obtaining unbiased estimates of the $Q$-function, ZDPG
lifts the dependence on critics and restores true model-free policy learning,
while enjoying built-in and provable algorithmic stability. Additionally, we
present new finite sample complexity bounds for ZDPG, which improve upon
existing results by up to two orders of magnitude. Our findings are supported
by several numerical experiments, which showcase the effectiveness of ZDPG in a
practical setting, and its advantages over both PG and Baseline PG.
- Abstract(参考訳): 決定論的ポリシーグラディエント(DPG)は、標準的なランダム化アクションポリシーグラディエント(PG)からランダム性のレベルを取り除き、マルコフ決定プロセスを含む複雑な動的問題に対処するための経験的成功を示す。
しかし同時に、DSGはモデルフリー(つまりアクターのみ)な方法で学習する能力を失い、関連する政策回帰勾配の一貫性のある推定を得るためには、しばしば批評家の使用を必要とする。
本研究では,ZDPG(Zeroth-order Deterministic Policy Gradient)を導入し,低次元動作空間の摂動を適切に設計したQ$関数の2点確率的評価により,政策回帰勾配を近似する。
Q$関数の偏りのない見積もりを得るためにランダムな水平展開というアイデアを発明し、ZDPGは批判への依存を解き、真のモデルなし政策学習を復活させ、組込みで証明可能なアルゴリズム安定性を享受する。
さらに、ZDPGに対する新しい有限標本複雑性境界を提案し、最大2桁の精度で既存の結果を改善する。
本研究は, ZDPG の有効性と PG と Baseline PG の両面での優位性を示す数値実験により裏付けられた。
関連論文リスト
- Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Actor-Critic Reinforcement Learning with Phased Actor [10.577516871906816]
本稿では,政策勾配推定を改善するために,PAAC法における新しい段階的アクターを提案する。
PAACはアクターアップデートで$Q$とTDエラーの両方を処理している。
その結果,PAACは総コスト,学習ばらつき,堅牢性,学習速度,成功率などによって,大幅な性能向上をもたらすことがわかった。
論文 参考訳(メタデータ) (2024-04-18T01:27:31Z) - Global Convergence of Natural Policy Gradient with Hessian-aided
Momentum Variance Reduction [6.320200835271402]
自然政策勾配(NPG)とその変種は、強化学習において広く使われている政策探索法である。
本報告では, ヘシアン支援運動量法による分散低減技術を用いて, NPG-HM を新たに生成した NPG-HM を開発した。
ムジョコをベースとした環境実験では、他の最先端の政策勾配法よりもNPG-HMの方が優れた性能を示した。
論文 参考訳(メタデータ) (2024-01-02T07:56:17Z) - Optimal Estimation of Off-Policy Policy Gradient via Double Fitted
Iteration [39.250754806600135]
政策(PG)推定は、ターゲットポリシーのサンプル化が許されない場合、課題となる。
従来の非政治PG推定法は、しばしば大きなバイアスや指数関数的に大きなばらつきに悩まされる。
本稿では,FPG(Double Fitted PG Estimation)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-01-31T20:23:52Z) - Robust and Adaptive Temporal-Difference Learning Using An Ensemble of
Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。
OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。
1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文 参考訳(メタデータ) (2021-12-01T23:15:09Z) - PC-PG: Policy Cover Directed Exploration for Provable Policy Gradient
Learning [35.044047991893365]
本研究は,政策カバーグラディエント(PC-PG)アルゴリズムを導入し,政策(政策カバー)のアンサンブルを用いて,探索対搾取トレードオフのバランスをとる。
我々は,PC-PG が標準最悪の場合である $ell_infty$ の仮定を超越したモデル不特定性の下で強い保証を持つことを示す。
また、報酬なしと報酬駆動の両方の設定において、様々な領域にまたがる経験的評価で理論を補完する。
論文 参考訳(メタデータ) (2020-07-16T16:57:41Z) - Momentum-Based Policy Gradient Methods [133.53164856723782]
モデルフリー強化学習のための効率的なモーメントに基づくポリシー勾配手法のクラスを提案する。
特に,IS-MBPG法の適応的でないバージョンを提示するが,これは大きなバッチを伴わずに$O(epsilon-3)$と最もよく知られたサンプルの複雑さに達する。
論文 参考訳(メタデータ) (2020-07-13T20:44:15Z) - Deep Bayesian Quadrature Policy Optimization [100.81242753620597]
ディープベイズ二次政策勾配 (Deep Bayesian quadrature Policy gradient, DBQPG) は、政策勾配推定のためのベイズ二次政策の高次元一般化である。
政策勾配法では,DBQPGがモンテカルロ推定を代用できることを示すとともに,一連の連続制御ベンチマーク上での有効性を示す。
論文 参考訳(メタデータ) (2020-06-28T15:44:47Z) - Stochastic Recursive Momentum for Policy Gradient Methods [28.277961340108313]
STOchastic Recursive Momentum for Policy Gradient (Storm-PG) という新しいアルゴリズムを提案する。
Storm-PG は STORM-PG のサンプルバウンドで、ポリシー勾配アルゴリズムの最もよく知られた収束率と一致する。
数値実験では、比較ポリシー勾配アルゴリズムよりもアルゴリズムの方が優れていることが示されている。
論文 参考訳(メタデータ) (2020-03-09T17:59:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。