論文の概要: Optimal Estimation of Off-Policy Policy Gradient via Double Fitted
Iteration
- arxiv url: http://arxiv.org/abs/2202.00076v1
- Date: Mon, 31 Jan 2022 20:23:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-03 06:51:49.386164
- Title: Optimal Estimation of Off-Policy Policy Gradient via Double Fitted
Iteration
- Title(参考訳): ダブル・アタッチ・イテレーションによるオフ・ポリシー政策勾配の最適推定
- Authors: Chengzhuo Ni, Ruiqi Zhang, Xiang Ji, Xuezhou Zhang, Mengdi Wang
- Abstract要約: 政策(PG)推定は、ターゲットポリシーのサンプル化が許されない場合、課題となる。
従来の非政治PG推定法は、しばしば大きなバイアスや指数関数的に大きなばらつきに悩まされる。
本稿では,FPG(Double Fitted PG Estimation)アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 39.250754806600135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Policy gradient (PG) estimation becomes a challenge when we are not allowed
to sample with the target policy but only have access to a dataset generated by
some unknown behavior policy. Conventional methods for off-policy PG estimation
often suffer from either significant bias or exponentially large variance. In
this paper, we propose the double Fitted PG estimation (FPG) algorithm. FPG can
work with an arbitrary policy parameterization, assuming access to a
Bellman-complete value function class. In the case of linear value function
approximation, we provide a tight finite-sample upper bound on policy gradient
estimation error, that is governed by the amount of distribution mismatch
measured in feature space. We also establish the asymptotic normality of FPG
estimation error with a precise covariance characterization, which is further
shown to be statistically optimal with a matching Cramer-Rao lower bound.
Empirically, we evaluate the performance of FPG on both policy gradient
estimation and policy optimization, using either softmax tabular or ReLU policy
networks. Under various metrics, our results show that FPG significantly
outperforms existing off-policy PG estimation methods based on importance
sampling and variance reduction techniques.
- Abstract(参考訳): 政策勾配(PG)推定は、ターゲットポリシーをサンプリングすることが許されず、未知の行動ポリシーによって生成されたデータセットのみにアクセスできない場合に課題となる。
従来の非政治PG推定法は、しばしば大きなバイアスまたは指数関数的に大きなばらつきに悩まされる。
本稿では,FPG(Double Fitted PG Estimation)アルゴリズムを提案する。
FPGは、ベルマン完全値関数クラスへのアクセスを前提として、任意のポリシーパラメータ化を扱うことができる。
線形値関数近似の場合、特徴空間で測定した分布ミスマッチの量によって制御される、ポリシー勾配推定誤差の有限個の上限を厳密に設定する。
また, FPG推定誤差の漸近正規度を高精度な共分散特性で証明し, 一致したクレーマー・ラオ下界に対して統計的に最適であることを示した。
実験では,softmax tabular と relu policy network を用いて,政策勾配推定と政策最適化の両方における fpg の性能評価を行った。
その結果, FPGは, 重要サンプリング法と分散低減法により, 既存の非政治的PG推定法よりも有意に優れていた。
関連論文リスト
- Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - High-probability sample complexities for policy evaluation with linear function approximation [88.87036653258977]
本研究では,2つの広く利用されている政策評価アルゴリズムに対して,最適線形係数の予め定義された推定誤差を保証するために必要なサンプル複素量について検討する。
高確率収束保証に縛られた最初のサンプル複雑性を確立し、許容レベルへの最適依存を実現する。
論文 参考訳(メタデータ) (2023-05-30T12:58:39Z) - Improving Deep Policy Gradients with Value Function Search [21.18135854494779]
本稿では、値近似の改善とDeep PGプリミティブへの影響の分析に焦点をあてる。
本稿では,より優れた近似を求めるために,摂動値ネットワークの集団を用いた値関数探索を提案する。
我々のフレームワークは、追加の環境相互作用、勾配計算、アンサンブルを必要としない。
論文 参考訳(メタデータ) (2023-02-20T18:23:47Z) - The Role of Baselines in Policy Gradient Optimization [83.42050606055822]
Emphstateのバリューベースラインが、オン・ポリティクスを可能にしていることを示す。
世界的な最適な政策勾配(NPG)に収束する。
O (1/t) レート勾配でのポリシー。
値ベースラインの主な効果は、その分散ではなく、更新のアグレッシブさをthabfreduceすることにある。
論文 参考訳(メタデータ) (2023-01-16T06:28:00Z) - PC-PG: Policy Cover Directed Exploration for Provable Policy Gradient
Learning [35.044047991893365]
本研究は,政策カバーグラディエント(PC-PG)アルゴリズムを導入し,政策(政策カバー)のアンサンブルを用いて,探索対搾取トレードオフのバランスをとる。
我々は,PC-PG が標準最悪の場合である $ell_infty$ の仮定を超越したモデル不特定性の下で強い保証を持つことを示す。
また、報酬なしと報酬駆動の両方の設定において、様々な領域にまたがる経験的評価で理論を補完する。
論文 参考訳(メタデータ) (2020-07-16T16:57:41Z) - Zeroth-order Deterministic Policy Gradient [116.87117204825105]
ゼロ階決定主義政策グラディエント(ZDPG)を紹介する。
ZDPGは、$Q$関数の2点評価によりポリシー逆勾配を近似する。
ZDPGの新たな有限サンプル複雑性境界は、既存の結果を最大2桁改善する。
論文 参考訳(メタデータ) (2020-06-12T16:52:29Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。