論文の概要: A Temporal-Difference Approach to Policy Gradient Estimation
- arxiv url: http://arxiv.org/abs/2202.02396v1
- Date: Fri, 4 Feb 2022 21:23:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-08 14:07:30.700987
- Title: A Temporal-Difference Approach to Policy Gradient Estimation
- Title(参考訳): 政策勾配推定のための時間差アプローチ
- Authors: Samuele Tosatto, Andrew Patterson, Martha White, A. Rupam Mahmood
- Abstract要約: 本稿では,特定のサンプリング戦略を必要とせず,開始状態から方針勾配を再構築する新しい手法を提案する。
本研究では、非政治データストリームからの勾配批判の時間差更新を用いて、分散シフト問題をモデル無しでサイドステップする最初の推定器を開発する。
- 参考スコア(独自算出の注目度): 27.749993205038148
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The policy gradient theorem (Sutton et al., 2000) prescribes the usage of a
cumulative discounted state distribution under the target policy to approximate
the gradient. Most algorithms based on this theorem, in practice, break this
assumption, introducing a distribution shift that can cause the convergence to
poor solutions. In this paper, we propose a new approach of reconstructing the
policy gradient from the start state without requiring a particular sampling
strategy. The policy gradient calculation in this form can be simplified in
terms of a gradient critic, which can be recursively estimated due to a new
Bellman equation of gradients. By using temporal-difference updates of the
gradient critic from an off-policy data stream, we develop the first estimator
that sidesteps the distribution shift issue in a model-free way. We prove that,
under certain realizability conditions, our estimator is unbiased regardless of
the sampling strategy. We empirically show that our technique achieves a
superior bias-variance trade-off and performance in presence of off-policy
samples.
- Abstract(参考訳): ポリシー勾配定理(sutton et al., 2000)は、対象ポリシーの下で累積ディスカウントされた状態分布を用いて勾配を近似することを定めている。
この定理に基づくほとんどのアルゴリズムは、実際にはこの仮定を破り、貧弱な解への収束を引き起こす分布シフトを導入する。
本稿では,特定のサンプリング戦略を必要とせず,開始状態から方針勾配を再構築する新しい手法を提案する。
この形式の政策勾配計算は、勾配批判の観点で単純化することができ、新しい勾配のベルマン方程式によって再帰的に推定することができる。
オフ・ポリシー・データ・ストリームからの勾配批判者の時間変化更新を用いて,分布シフト問題をモデルフリーで回避する最初の推定器を開発した。
我々は, ある実現可能性条件下では, サンプリング戦略によらず, 推定値が不偏であることを証明した。
本手法は,非政治サンプルの存在下で,優れたバイアス分散トレードオフと性能を実現することを実証的に示す。
関連論文リスト
- Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Towards Provable Log Density Policy Gradient [6.0891236991406945]
政策勾配法は近代的な強化学習の成功を支える重要な要素である。
本研究は,この残留項が重要であり,強化学習手法のサンプル複雑度を向上させる可能性があることを論じる。
本稿では,この残差項を補正するポリシ勾配を推定するために,ログ密度勾配を提案する。
論文 参考訳(メタデータ) (2024-03-03T20:09:09Z) - Optimization Landscape of Policy Gradient Methods for Discrete-time
Static Output Feedback [22.21598324895312]
本稿では,静的な出力フィードバック制御に適用した場合に,ポリシー勾配法に固有の最適化環境を解析する。
3つの政策勾配法に対する定常点への収束(およびほぼ次元自由率)に関する新しい知見を導出する。
我々は,バニラポリシー勾配法が,そのようなミニマに近づいた場合,局所最小マに対して線形収束を示すことを示す。
論文 参考訳(メタデータ) (2023-10-29T14:25:57Z) - A Policy Gradient Method for Confounded POMDPs [7.75007282943125]
オフライン環境下での連続状態と観測空間を持つ部分観測可能マルコフ決定過程(POMDP)の整合化のためのポリシー勾配法を提案する。
まず、オフラインデータを用いて、POMDPの履歴依存ポリシー勾配を非パラメトリックに推定するために、新しい識別結果を確立する。
論文 参考訳(メタデータ) (2023-05-26T16:48:05Z) - The Role of Baselines in Policy Gradient Optimization [83.42050606055822]
Emphstateのバリューベースラインが、オン・ポリティクスを可能にしていることを示す。
世界的な最適な政策勾配(NPG)に収束する。
O (1/t) レート勾配でのポリシー。
値ベースラインの主な効果は、その分散ではなく、更新のアグレッシブさをthabfreduceすることにある。
論文 参考訳(メタデータ) (2023-01-16T06:28:00Z) - Policy Gradient for Continuing Tasks in Non-stationary Markov Decision
Processes [112.38662246621969]
強化学習は、マルコフ決定プロセスにおいて期待される累積報酬を最大化するポリシーを見つけることの問題を考える。
我々は、ポリシーを更新するために上昇方向として使用する値関数の偏りのないナビゲーション勾配を計算する。
ポリシー勾配型アルゴリズムの大きな欠点は、定常性の仮定が課せられない限り、それらがエピソジックなタスクに限定されていることである。
論文 参考訳(メタデータ) (2020-10-16T15:15:42Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z) - Statistically Efficient Off-Policy Policy Gradients [80.42316902296832]
政治外のデータから政策勾配を統計的に効率的に推定する。
パラメトリックな仮定を伴わずに下界を実現するメタアルゴリズムを提案する。
我々は、新たな推定政策勾配の方向へ進む際に、定常点に近づく速度の保証を確立する。
論文 参考訳(メタデータ) (2020-02-10T18:41:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。