論文の概要: Coordinate-wise Control Variates for Deep Policy Gradients
- arxiv url: http://arxiv.org/abs/2107.04987v1
- Date: Sun, 11 Jul 2021 07:36:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-13 15:53:45.575034
- Title: Coordinate-wise Control Variates for Deep Policy Gradients
- Title(参考訳): 深部政策勾配の座標方向制御変量
- Authors: Yuanyi Zhong, Yuan Zhou, Jian Peng
- Abstract要約: ニューラルネットポリシーに対するベクトル値ベースラインの効果は未解明である。
従来のスカラー値ベースラインよりも低分散性が得られることを示す。
- 参考スコア(独自算出の注目度): 23.24910014825916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The control variates (CV) method is widely used in policy gradient estimation
to reduce the variance of the gradient estimators in practice. A control
variate is applied by subtracting a baseline function from the state-action
value estimates. Then the variance-reduced policy gradient presumably leads to
higher learning efficiency. Recent research on control variates with deep
neural net policies mainly focuses on scalar-valued baseline functions. The
effect of vector-valued baselines is under-explored. This paper investigates
variance reduction with coordinate-wise and layer-wise control variates
constructed from vector-valued baselines for neural net policies. We present
experimental evidence suggesting that lower variance can be obtained with such
baselines than with the conventional scalar-valued baseline. We demonstrate how
to equip the popular Proximal Policy Optimization (PPO) algorithm with these
new control variates. We show that the resulting algorithm with proper
regularization can achieve higher sample efficiency than scalar control
variates in continuous control benchmarks.
- Abstract(参考訳): 制御変数 (CV) 法は, 実際には勾配推定器のばらつきを低減するために, 政策勾配推定に広く用いられている。
状態-作用値推定からベースライン関数を減算して制御変量を適用する。
そして、ばらつきが引き起こされるポリシー勾配は、おそらく学習効率を向上させる。
深いニューラルネットポリシを持つ制御変数の最近の研究は、主にスカラー値のベースライン関数に焦点を当てている。
ベクトル値ベースラインの効果は未探索である。
本稿では,ニューラルネットワークポリシのためのベクトル値ベースラインから構築した座標ワイドおよび層ワイド制御による分散低減について検討する。
本研究では,従来のスカラー値ベースラインよりも低分散のベースラインが得られることを示す実験結果を示す。
我々は、これらの新しい制御変数を用いて、人気のあるPPOアルゴリズムの装備方法を示す。
正規化を適切に行うアルゴリズムは、連続制御ベンチマークにおいてスカラー制御よりも高いサンプリング効率が得られることを示す。
関連論文リスト
- Pathwise Gradient Variance Reduction with Control Variates in Variational Inference [2.1638817206926855]
ベイズ深層学習における変分推論は、閉形式解を持たない予想の勾配を計算することを伴うことが多い。
これらの場合、パスワイズとスコア関数勾配推定器が最も一般的なアプローチである。
最近の研究は、経路勾配推定器でさえ分散還元の恩恵を受けることを示唆している。
論文 参考訳(メタデータ) (2024-10-08T07:28:46Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Improving Deep Policy Gradients with Value Function Search [21.18135854494779]
本稿では、値近似の改善とDeep PGプリミティブへの影響の分析に焦点をあてる。
本稿では,より優れた近似を求めるために,摂動値ネットワークの集団を用いた値関数探索を提案する。
我々のフレームワークは、追加の環境相互作用、勾配計算、アンサンブルを必要としない。
論文 参考訳(メタデータ) (2023-02-20T18:23:47Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z) - Regularly Updated Deterministic Policy Gradient Algorithm [11.57539530904012]
本稿では,これらの問題に対する規則更新決定性(RUD)ポリシー勾配アルゴリズムを提案する。
本稿では,RUDを用いた学習手法が,従来の手法よりもリプレイバッファに新たなデータを活用することができることを理論的に証明する。
論文 参考訳(メタデータ) (2020-07-01T01:18:25Z) - Deep Bayesian Quadrature Policy Optimization [100.81242753620597]
ディープベイズ二次政策勾配 (Deep Bayesian quadrature Policy gradient, DBQPG) は、政策勾配推定のためのベイズ二次政策の高次元一般化である。
政策勾配法では,DBQPGがモンテカルロ推定を代用できることを示すとともに,一連の連続制御ベンチマーク上での有効性を示す。
論文 参考訳(メタデータ) (2020-06-28T15:44:47Z) - Scalable Control Variates for Monte Carlo Methods via Stochastic
Optimization [62.47170258504037]
本稿では,制御,カーネル,ニューラルネットワークを用いた既存のアプローチを包含し,一般化するフレームワークを提案する。
新たな理論的結果は、達成可能な分散還元に関する洞察を与えるために提示され、ベイズ推定への応用を含む経験的評価が支持される。
論文 参考訳(メタデータ) (2020-06-12T22:03:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。