論文の概要: Policy Learning and Evaluation with Randomized Quasi-Monte Carlo
- arxiv url: http://arxiv.org/abs/2202.07808v1
- Date: Wed, 16 Feb 2022 00:42:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-18 02:17:51.192887
- Title: Policy Learning and Evaluation with Randomized Quasi-Monte Carlo
- Title(参考訳): ランダム化準モンテカルロによる政策学習と評価
- Authors: Sebastien M. R. Arnold, Pierre L'Ecuyer, Liyu Chen, Yi-fan Chen, Fei
Sha
- Abstract要約: 我々はモンテカルロサンプルを低分解点集合に置き換えることを提案する。
我々はポリシー勾配法とランダム化された準モンテカルロを組み合わせ、ポリシー勾配とアクター批判アルゴリズムのばらつきを導出する。
我々の経験的分析はモンテカルロを準モンテカルロに置き換えた直観がより正確な勾配推定をもたらすことを示す。
- 参考スコア(独自算出の注目度): 28.835015520341766
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning constantly deals with hard integrals, for example when
computing expectations in policy evaluation and policy iteration. These
integrals are rarely analytically solvable and typically esimated with the
Monte Carlo method, which induces high variance in policy values and gradients.
In this work, we propose to replace Monte Carlo samples with low-discrepancy
point sets. We combine policy gradient methods with Randomized Quasi-Monte
Carlo, yielding variance-reduced formulations of policy gradient and
actor-critic algorithms. These formulations are effective for policy evaluation
and policy improvement, as they outperform state-of-the-art algorithms on
standardized continuous control benchmarks. Our empirical analyses validate the
intuition that replacing Monte Carlo with Quasi-Monte Carlo yields
significantly more accurate gradient estimates.
- Abstract(参考訳): 強化学習は、政策評価や政策イテレーションにおけるコンピューティングの期待など、ハード積分を常に扱う。
これらの積分は解析的に解くことは滅多になく、典型的なモンテカルロ法(英語版)は政策値や勾配のばらつきを引き起こす。
本研究では,モンテカルロサンプルを低差分点集合に置き換えることを提案する。
ポリシー勾配法とランダム化準モンテカルロ法を組み合わせることで、ポリシー勾配とアクター批判アルゴリズムのばらつきを導出する。
これらの定式化は、標準化された連続制御ベンチマークで最先端のアルゴリズムを上回るため、ポリシー評価やポリシー改善に有効である。
我々の経験的分析はモンテカルロを準モンテカルロに置き換えた直観がより正確な勾配推定をもたらすことを示す。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Actor-Critic learning for mean-field control in continuous time [0.0]
強化学習環境における平均場制御のための政策勾配を連続的に検討する。
エントロピー正規化を伴うランダム化ポリシーを考えることにより、値関数の勾配期待表現を導出する。
線形四進平均場フレームワークでは、ワッサーシュタイン空間上で定義されたアクターと批評家関数の正確なパラメトリションを得る。
論文 参考訳(メタデータ) (2023-03-13T10:49:25Z) - On The Convergence Of Policy Iteration-Based Reinforcement Learning With
Monte Carlo Policy Evaluation [11.345796608258434]
このような政策反復スキームの最初の訪問バージョンは、政策改善ステップがルックアヘッドを使用する場合、最適方針に収束することを示す。
また,関数近似設定の拡張を行い,アルゴリズムが関数近似誤差内の最適ポリシに近く動作することを示す。
論文 参考訳(メタデータ) (2023-01-23T20:32:41Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Fast Offline Policy Optimization for Large Scale Recommendation [74.78213147859236]
我々は、カタログサイズと対数的にスケールするこれらのポリシー学習アルゴリズムの近似を導出する。
私たちの貢献は3つの新しいアイデアの組み合わせに基づいている。
我々の推定器は、単純なアプローチよりも桁違いに速いが、等しく良いポリシーを生成する。
論文 参考訳(メタデータ) (2022-08-08T11:54:11Z) - On the Convergence of Reinforcement Learning with Monte Carlo Exploring
Starts [5.137144629366217]
基本的なシミュレーションに基づく強化学習アルゴリズムはモンテカルロ探索州 (MCES) 法である。
最短経路問題としても知られる未計算コストの場合のこのアルゴリズムの収束性について検討する。
副作用として、近似によく用いられるスーパーマリンゲール収束定理のバージョンの証明も提供する。
論文 参考訳(メタデータ) (2020-07-21T16:19:09Z) - Variational Policy Gradient Method for Reinforcement Learning with
General Utilities [38.54243339632217]
近年,累積報酬の合計を超える総合目標を持つ強化学習システムが注目を集めている。
本稿では,一般的な凹凸ユーティリティ関数を対象とする決定問題におけるポリシーについて考察する。
汎用性を持つRLの新しい変分ポリシー勾配定理を導出する。
論文 参考訳(メタデータ) (2020-07-04T17:51:53Z) - Deep Bayesian Quadrature Policy Optimization [100.81242753620597]
ディープベイズ二次政策勾配 (Deep Bayesian quadrature Policy gradient, DBQPG) は、政策勾配推定のためのベイズ二次政策の高次元一般化である。
政策勾配法では,DBQPGがモンテカルロ推定を代用できることを示すとともに,一連の連続制御ベンチマーク上での有効性を示す。
論文 参考訳(メタデータ) (2020-06-28T15:44:47Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - Kalman meets Bellman: Improving Policy Evaluation through Value Tracking [59.691919635037216]
政策評価は強化学習(RL)における重要なプロセスである
我々はKalman Optimization for Value Approximation (KOVA)と呼ばれる最適化手法を考案した。
KOVAはパラメータとノイズリターンの不確実性の両方に関する正規化対象関数を最小化する。
論文 参考訳(メタデータ) (2020-02-17T13:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。