論文の概要: An Analysis of Measure-Valued Derivatives for Policy Gradients
- arxiv url: http://arxiv.org/abs/2203.03917v1
- Date: Tue, 8 Mar 2022 08:26:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-09 15:14:41.237304
- Title: An Analysis of Measure-Valued Derivatives for Policy Gradients
- Title(参考訳): 政策グラディエントに対する測定値誘導体の分析
- Authors: Joao Carvalho and Jan Peters
- Abstract要約: 本研究では,異なる種類の勾配推定器,測定値導関数について検討する。
この推定器はバイアスがなく、分散が低く、微分可能で微分不可能な関数近似器で使用することができる。
確率比や再パラメータ化のトリックに基づいた手法で、同等の性能が得られることを示す。
- 参考スコア(独自算出の注目度): 37.241788708646574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning methods for robotics are increasingly successful due
to the constant development of better policy gradient techniques. A precise
(low variance) and accurate (low bias) gradient estimator is crucial to face
increasingly complex tasks. Traditional policy gradient algorithms use the
likelihood-ratio trick, which is known to produce unbiased but high variance
estimates. More modern approaches exploit the reparametrization trick, which
gives lower variance gradient estimates but requires differentiable value
function approximators. In this work, we study a different type of stochastic
gradient estimator - the Measure-Valued Derivative. This estimator is unbiased,
has low variance, and can be used with differentiable and non-differentiable
function approximators. We empirically evaluate this estimator in the
actor-critic policy gradient setting and show that it can reach comparable
performance with methods based on the likelihood-ratio or reparametrization
tricks, both in low and high-dimensional action spaces. With this work, we want
to show that the Measure-Valued Derivative estimator can be a useful
alternative to other policy gradient estimators.
- Abstract(参考訳): ロボット工学の強化学習法は、より良い方針勾配技術の開発が絶え間なく進んでいるため、ますます成功している。
複雑なタスクに直面するためには、正確な(低分散)と正確な(低バイアス)勾配推定器が不可欠である。
従来のポリシー勾配アルゴリズムは、偏りのないが分散度の高い推定を生成することで知られているラピス・レイショ・トリックを用いる。
より現代的なアプローチでは、分散勾配の推定は低いが微分可能値関数近似子を必要とする再パラメータ化トリックを利用する。
本研究では,異なる種類の確率勾配推定器(測定値導関数)について検討する。
この推定器は偏りがなく、分散が低く、微分可能かつ微分不能な関数近似器で使用できる。
我々は,この推定器をアクタ・クリティック・ポリシー・グラデーションの設定において実験的に評価し,低次元と高次元の両方のアクション空間において,確率比や再パラメトリゼーションに基づく手法と同等の性能が得られることを示した。
この研究により、測定値導関数推定器が他の政策勾配推定器の代替として有用であることを示す。
関連論文リスト
- Compatible Gradient Approximations for Actor-Critic Algorithms [0.0]
本稿では,アクション値勾配のゼロ次近似を用いることで,そのような精度の必要性を回避できるアクタ批判アルゴリズムを提案する。
実験結果から,本アルゴリズムは現在の最先端手法に適合するだけでなく,しばしば性能を上回ることを示した。
論文 参考訳(メタデータ) (2024-09-02T22:00:50Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Gradient Estimation with Discrete Stein Operators [44.64146470394269]
離散分布に対するスタイン演算子に基づく分散化手法を提案する。
提案手法は,同数の関数評価値を持つ最先端推定値よりも,かなり低い分散性を実現する。
論文 参考訳(メタデータ) (2022-02-19T02:22:23Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - An Empirical Analysis of Measure-Valued Derivatives for Policy Gradients [24.976352541745403]
本研究では,異なる種類の勾配推定器,測定値導関数について検討する。
この推定器はバイアスがなく、分散が低く、微分可能で微分不可能な関数近似器で使用することができる。
アクター・クリティカル・ポリシー・グラデーション・セッティングにおいて、この推定器を実証的に評価し、確率比や再パラメータ化のトリックに基づいた手法を用いて、同等の性能が得られることを示す。
論文 参考訳(メタデータ) (2021-07-20T09:26:10Z) - Unifying Gradient Estimators for Meta-Reinforcement Learning via
Off-Policy Evaluation [53.83642844626703]
オフ・ポリシー評価に基づいて,高次値関数の高次微分を推定するための統一フレームワークを提供する。
本フレームワークは, ヘッセン推定の偏りと分散トレードオフを解明する特別事例として, 多くの先行的アプローチを解釈する。
論文 参考訳(メタデータ) (2021-06-24T15:58:01Z) - Batch Reinforcement Learning with a Nonparametric Off-Policy Policy
Gradient [34.16700176918835]
オフライン強化学習は、より良いデータ効率を約束する。
現在の非政治政策勾配法は、高いバイアスまたは高い分散に悩まされ、しばしば信頼できない見積もりを提供する。
閉形式で解ける非パラメトリックベルマン方程式を提案する。
論文 参考訳(メタデータ) (2020-10-27T13:40:06Z) - Deep Bayesian Quadrature Policy Optimization [100.81242753620597]
ディープベイズ二次政策勾配 (Deep Bayesian quadrature Policy gradient, DBQPG) は、政策勾配推定のためのベイズ二次政策の高次元一般化である。
政策勾配法では,DBQPGがモンテカルロ推定を代用できることを示すとともに,一連の連続制御ベンチマーク上での有効性を示す。
論文 参考訳(メタデータ) (2020-06-28T15:44:47Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。