論文の概要: Low-Variance Policy Gradient Estimation with World Models
- arxiv url: http://arxiv.org/abs/2010.15622v1
- Date: Thu, 29 Oct 2020 14:09:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-01 22:02:05.633460
- Title: Low-Variance Policy Gradient Estimation with World Models
- Title(参考訳): 世界モデルを用いた低分散政策勾配推定
- Authors: Michal Nauman and Floris Den Hengst
- Abstract要約: 学習世界モデル(WM)を用いた政策勾配推定のばらつきを低減する手法を提案する。
本稿では,複雑性の増大する環境において,提案手法をACとMACと比較する。
WMPGは, 環境の頑健な潜在表現を学習可能な場合に, サンプル効率を向上させることができると結論付けた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose World Model Policy Gradient (WMPG), an approach to
reduce the variance of policy gradient estimates using learned world models
(WM's). In WMPG, a WM is trained online and used to imagine trajectories. The
imagined trajectories are used in two ways. Firstly, to calculate a
without-replacement estimator of the policy gradient. Secondly, the return of
the imagined trajectories is used as an informed baseline. We compare the
proposed approach with AC and MAC on a set of environments of increasing
complexity (CartPole, LunarLander and Pong) and find that WMPG has better
sample efficiency. Based on these results, we conclude that WMPG can yield
increased sample efficiency in cases where a robust latent representation of
the environment can be learned.
- Abstract(参考訳): 本稿では,学習世界モデル(wm)を用いて,政策勾配推定のばらつきを低減させる手法であるworld model policy gradient (wmpg)を提案する。
WMPGでは、WMはオンラインで訓練され、軌跡を想像するために使用される。
想像上の軌道は2つの方法で使用される。
まず、政策勾配の非置換推定器を算出する。
第二に、想像された軌跡の返却が情報ベースラインとして使用される。
複雑性が増大する環境(CartPole、LunarLander、Pong)において、提案手法をACとMACと比較し、WMPGがより優れたサンプル効率を持つことを示した。
これらの結果から,WMPGは環境の頑健な潜在表現を学習できる場合に,サンプル効率を高めることができると結論付けた。
関連論文リスト
- Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Global Convergence of Natural Policy Gradient with Hessian-aided
Momentum Variance Reduction [6.320200835271402]
自然政策勾配(NPG)とその変種は、強化学習において広く使われている政策探索法である。
本報告では, ヘシアン支援運動量法による分散低減技術を用いて, NPG-HM を新たに生成した NPG-HM を開発した。
ムジョコをベースとした環境実験では、他の最先端の政策勾配法よりもNPG-HMの方が優れた性能を示した。
論文 参考訳(メタデータ) (2024-01-02T07:56:17Z) - Model-Based Reparameterization Policy Gradient Methods: Theory and
Practical Algorithms [88.74308282658133]
Reization (RP) Policy Gradient Methods (PGM) は、ロボット工学やコンピュータグラフィックスにおける連続的な制御タスクに広く採用されている。
近年の研究では、長期強化学習問題に適用した場合、モデルベースRP PGMはカオス的かつ非滑らかな最適化環境を経験する可能性があることが示されている。
本稿では,長期モデルアンロールによる爆発的分散問題を緩和するスペクトル正規化法を提案する。
論文 参考訳(メタデータ) (2023-10-30T18:43:21Z) - Optimal Estimation of Off-Policy Policy Gradient via Double Fitted
Iteration [39.250754806600135]
政策(PG)推定は、ターゲットポリシーのサンプル化が許されない場合、課題となる。
従来の非政治PG推定法は、しばしば大きなバイアスや指数関数的に大きなばらつきに悩まされる。
本稿では,FPG(Double Fitted PG Estimation)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-01-31T20:23:52Z) - Proximal Policy Gradient: PPO with Policy Gradient [13.571988925615486]
本稿では,VPG (vanilla Policy gradient) と PPO (proximal Policy Optimization) の両方に近い新しいアルゴリズム PPG (Proximal Policy Gradient) を提案する。
PPGの性能はPPOに匹敵し、エントロピーはPPGよりも遅く崩壊する。
論文 参考訳(メタデータ) (2020-10-20T00:14:57Z) - PC-PG: Policy Cover Directed Exploration for Provable Policy Gradient
Learning [35.044047991893365]
本研究は,政策カバーグラディエント(PC-PG)アルゴリズムを導入し,政策(政策カバー)のアンサンブルを用いて,探索対搾取トレードオフのバランスをとる。
我々は,PC-PG が標準最悪の場合である $ell_infty$ の仮定を超越したモデル不特定性の下で強い保証を持つことを示す。
また、報酬なしと報酬駆動の両方の設定において、様々な領域にまたがる経験的評価で理論を補完する。
論文 参考訳(メタデータ) (2020-07-16T16:57:41Z) - Deep Bayesian Quadrature Policy Optimization [100.81242753620597]
ディープベイズ二次政策勾配 (Deep Bayesian quadrature Policy gradient, DBQPG) は、政策勾配推定のためのベイズ二次政策の高次元一般化である。
政策勾配法では,DBQPGがモンテカルロ推定を代用できることを示すとともに,一連の連続制御ベンチマーク上での有効性を示す。
論文 参考訳(メタデータ) (2020-06-28T15:44:47Z) - When Will Generative Adversarial Imitation Learning Algorithms Attain
Global Convergence [56.40794592158596]
我々は,GAIL(Generative Adversarial mimicion Learning)を一般MDPおよび非線形報酬関数クラスで研究した。
これは世界収束のためのGAILに関する最初の体系的理論的研究である。
論文 参考訳(メタデータ) (2020-06-24T06:24:37Z) - Zeroth-order Deterministic Policy Gradient [116.87117204825105]
ゼロ階決定主義政策グラディエント(ZDPG)を紹介する。
ZDPGは、$Q$関数の2点評価によりポリシー逆勾配を近似する。
ZDPGの新たな有限サンプル複雑性境界は、既存の結果を最大2桁改善する。
論文 参考訳(メタデータ) (2020-06-12T16:52:29Z) - Stochastic Recursive Momentum for Policy Gradient Methods [28.277961340108313]
STOchastic Recursive Momentum for Policy Gradient (Storm-PG) という新しいアルゴリズムを提案する。
Storm-PG は STORM-PG のサンプルバウンドで、ポリシー勾配アルゴリズムの最もよく知られた収束率と一致する。
数値実験では、比較ポリシー勾配アルゴリズムよりもアルゴリズムの方が優れていることが示されている。
論文 参考訳(メタデータ) (2020-03-09T17:59:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。