論文の概要: Deep Bayesian Quadrature Policy Optimization
- arxiv url: http://arxiv.org/abs/2006.15637v3
- Date: Wed, 16 Dec 2020 15:14:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 02:04:49.457125
- Title: Deep Bayesian Quadrature Policy Optimization
- Title(参考訳): 深ベイズ二次政策最適化
- Authors: Akella Ravi Tej, Kamyar Azizzadenesheli, Mohammad Ghavamzadeh, Anima
Anandkumar, Yisong Yue
- Abstract要約: ディープベイズ二次政策勾配 (Deep Bayesian quadrature Policy gradient, DBQPG) は、政策勾配推定のためのベイズ二次政策の高次元一般化である。
政策勾配法では,DBQPGがモンテカルロ推定を代用できることを示すとともに,一連の連続制御ベンチマーク上での有効性を示す。
- 参考スコア(独自算出の注目度): 100.81242753620597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of obtaining accurate policy gradient estimates using a
finite number of samples. Monte-Carlo methods have been the default choice for
policy gradient estimation, despite suffering from high variance in the
gradient estimates. On the other hand, more sample efficient alternatives like
Bayesian quadrature methods have received little attention due to their high
computational complexity. In this work, we propose deep Bayesian quadrature
policy gradient (DBQPG), a computationally efficient high-dimensional
generalization of Bayesian quadrature, for policy gradient estimation. We show
that DBQPG can substitute Monte-Carlo estimation in policy gradient methods,
and demonstrate its effectiveness on a set of continuous control benchmarks. In
comparison to Monte-Carlo estimation, DBQPG provides (i) more accurate gradient
estimates with a significantly lower variance, (ii) a consistent improvement in
the sample complexity and average return for several deep policy gradient
algorithms, and, (iii) the uncertainty in gradient estimation that can be
incorporated to further improve the performance.
- Abstract(参考訳): 有限個のサンプルを用いて正確な政策勾配推定を求める問題について検討する。
モンテカルロ法は、勾配推定のばらつきに悩まされているにもかかわらず、政策勾配推定のデフォルト選択であった。
一方で、ベイズ二次法のようなよりサンプル効率の良い代替法は、計算の複雑さが高いため、あまり注目されていない。
本研究は,ベイズ二次の計算効率の高い高次元一般化であるディープベイズ二次政策勾配(DBQPG)を政策勾配推定のために提案する。
政策勾配法では,DBQPGがモンテカルロ推定を代用できることを示すとともに,一連の連続制御ベンチマーク上での有効性を示す。
モンテカルロ推定と比較して、DBQPGは
(i)有意に低いばらつきを持つより正確な勾配推定。
(II)いくつかの深い政策勾配アルゴリズムに対するサンプル複雑性と平均回帰の一貫性のある改善、および
(iii)さらなる性能向上のために組み込むことができる勾配推定の不確実性。
関連論文リスト
- Gradient Informed Proximal Policy Optimization [35.22712034665224]
本稿では,PPOアルゴリズムと差別化可能な環境からの解析的勾配を統合した新しいポリシー学習手法を提案する。
アルファ値を適応的に修正することにより、学習中の分析的方針勾配の影響を効果的に管理できる。
提案手法は, 関数最適化, 物理シミュレーション, 交通制御環境など, 様々なシナリオにおいて, ベースラインアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2023-12-14T07:50:21Z) - Model-Based Reparameterization Policy Gradient Methods: Theory and
Practical Algorithms [88.74308282658133]
Reization (RP) Policy Gradient Methods (PGM) は、ロボット工学やコンピュータグラフィックスにおける連続的な制御タスクに広く採用されている。
近年の研究では、長期強化学習問題に適用した場合、モデルベースRP PGMはカオス的かつ非滑らかな最適化環境を経験する可能性があることが示されている。
本稿では,長期モデルアンロールによる爆発的分散問題を緩和するスペクトル正規化法を提案する。
論文 参考訳(メタデータ) (2023-10-30T18:43:21Z) - Policy Gradient for Rectangular Robust Markov Decision Processes [62.397882389472564]
我々は,長方形ロバストなマルコフ決定過程(MDP)を効率的に解く政策ベース手法であるロバストなポリシー勾配(RPG)を導入する。
結果のRPGは、非ロバストな等価値と同じ時間のデータから推定することができる。
論文 参考訳(メタデータ) (2023-01-31T12:40:50Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Policy Learning and Evaluation with Randomized Quasi-Monte Carlo [28.835015520341766]
我々はモンテカルロサンプルを低分解点集合に置き換えることを提案する。
我々はポリシー勾配法とランダム化された準モンテカルロを組み合わせ、ポリシー勾配とアクター批判アルゴリズムのばらつきを導出する。
我々の経験的分析はモンテカルロを準モンテカルロに置き換えた直観がより正確な勾配推定をもたらすことを示す。
論文 参考訳(メタデータ) (2022-02-16T00:42:12Z) - PAGE-PG: A Simple and Loopless Variance-Reduced Policy Gradient Method
with Probabilistic Gradient Estimation [6.063525456640462]
本稿では,2種類の更新間の確率的スイッチに基づくループレス分散還元ポリシー勾配法を提案する。
提案手法は, 平均サンプル密度を$epsilon$-stationary に到達させるため, $mathcalOleft(epsilon-3 right)$平均サンプルの複雑性を満足することを示す。
古典的制御タスクにおける本手法の競合性能を数値評価により確認する。
論文 参考訳(メタデータ) (2022-02-01T10:10:49Z) - Optimal Estimation of Off-Policy Policy Gradient via Double Fitted
Iteration [39.250754806600135]
政策(PG)推定は、ターゲットポリシーのサンプル化が許されない場合、課題となる。
従来の非政治PG推定法は、しばしば大きなバイアスや指数関数的に大きなばらつきに悩まされる。
本稿では,FPG(Double Fitted PG Estimation)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-01-31T20:23:52Z) - Zeroth-order Deterministic Policy Gradient [116.87117204825105]
ゼロ階決定主義政策グラディエント(ZDPG)を紹介する。
ZDPGは、$Q$関数の2点評価によりポリシー逆勾配を近似する。
ZDPGの新たな有限サンプル複雑性境界は、既存の結果を最大2桁改善する。
論文 参考訳(メタデータ) (2020-06-12T16:52:29Z) - Stochastic Recursive Momentum for Policy Gradient Methods [28.277961340108313]
STOchastic Recursive Momentum for Policy Gradient (Storm-PG) という新しいアルゴリズムを提案する。
Storm-PG は STORM-PG のサンプルバウンドで、ポリシー勾配アルゴリズムの最もよく知られた収束率と一致する。
数値実験では、比較ポリシー勾配アルゴリズムよりもアルゴリズムの方が優れていることが示されている。
論文 参考訳(メタデータ) (2020-03-09T17:59:03Z) - Statistically Efficient Off-Policy Policy Gradients [80.42316902296832]
政治外のデータから政策勾配を統計的に効率的に推定する。
パラメトリックな仮定を伴わずに下界を実現するメタアルゴリズムを提案する。
我々は、新たな推定政策勾配の方向へ進む際に、定常点に近づく速度の保証を確立する。
論文 参考訳(メタデータ) (2020-02-10T18:41:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。