論文の概要: Off-Policy Fitted Q-Evaluation with Differentiable Function
Approximators: Z-Estimation and Inference Theory
- arxiv url: http://arxiv.org/abs/2202.04970v1
- Date: Thu, 10 Feb 2022 11:59:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-12 01:07:26.348364
- Title: Off-Policy Fitted Q-Evaluation with Differentiable Function
Approximators: Z-Estimation and Inference Theory
- Title(参考訳): 微分可能関数近似器を用いたオフポリシー適合q評価:z推定と推論理論
- Authors: Ruiqi Zhang, Xuezhou Zhang, Chengzhuo Ni, and Mengdi Wang
- Abstract要約: 強化学習(Reinforcement Learning, RL)における基盤の1つとして, オフ・ポリティ・アセスメント(Off-Policy Evaluation)が有効である
本稿では,一般微分関数近似器を用いたFQEに着目し,この理論を神経機能近似に適用する。
有限サンプル FQE 誤差境界は同じ分散項で支配され、関数クラス依存の発散でも有界である。
- 参考スコア(独自算出の注目度): 34.307187875861516
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Off-Policy Evaluation (OPE) serves as one of the cornerstones in
Reinforcement Learning (RL). Fitted Q Evaluation (FQE) with various function
approximators, especially deep neural networks, has gained practical success.
While statistical analysis has proved FQE to be minimax-optimal with tabular,
linear and several nonparametric function families, its practical performance
with more general function approximator is less theoretically understood. We
focus on FQE with general differentiable function approximators, making our
theory applicable to neural function approximations. We approach this problem
using the Z-estimation theory and establish the following results: The FQE
estimation error is asymptotically normal with explicit variance determined
jointly by the tangent space of the function class at the ground truth, the
reward structure, and the distribution shift due to off-policy learning; The
finite-sample FQE error bound is dominated by the same variance term, and it
can also be bounded by function class-dependent divergence, which measures how
the off-policy distribution shift intertwines with the function approximator.
In addition, we study bootstrapping FQE estimators for error distribution
inference and estimating confidence intervals, accompanied by a Cramer-Rao
lower bound that matches our upper bounds. The Z-estimation analysis provides a
generalizable theoretical framework for studying off-policy estimation in RL
and provides sharp statistical theory for FQE with differentiable function
approximators.
- Abstract(参考訳): off-policy evaluation (ope) は強化学習(rl)の基盤の一つである。
様々な機能近似器、特にディープニューラルネットワークを用いた適合Q評価(FQE)が実用化されている。
統計的解析により、FQEはタブ状、線形、および複数の非パラメトリック関数族を持つ極小最適であることが証明されているが、より一般的な関数近似器による実用性能は理論的には理解されていない。
我々は,一般微分可能関数近似子を用いたfqeに着目し,この理論を神経関数近似に適用する。
We approach this problem using the Z-estimation theory and establish the following results: The FQE estimation error is asymptotically normal with explicit variance determined jointly by the tangent space of the function class at the ground truth, the reward structure, and the distribution shift due to off-policy learning; The finite-sample FQE error bound is dominated by the same variance term, and it can also be bounded by function class-dependent divergence, which measures how the off-policy distribution shift intertwines with the function approximator.
さらに,誤差分布推定のためのfqe推定器のブートストラップを行い,信頼区間の推定を行った。
Z推定解析は、RLにおける非政治推定を研究するための一般化可能な理論フレームワークを提供し、微分関数近似器を用いたFQEの鋭い統計理論を提供する。
関連論文リスト
- Statistical Inference for Temporal Difference Learning with Linear Function Approximation [62.69448336714418]
時間差差(TD)学習は、おそらく政策評価に最も広く使用されるものであり、この目的の自然な枠組みとして機能する。
本稿では,Polyak-Ruppert平均化と線形関数近似によるTD学習の整合性について検討し,既存の結果よりも3つの重要な改善点を得た。
論文 参考訳(メタデータ) (2024-10-21T15:34:44Z) - Convergence of Continuous Normalizing Flows for Learning Probability Distributions [10.381321024264484]
連続正規化フロー (Continuous normalizing flow, CNFs) は確率分布を学習するための生成法である。
有限ランダムサンプルからの学習確率分布における線形正則性を持つCNFの理論的性質について検討する。
本稿では,速度推定,離散化誤差,早期停止誤差による誤差を包含する収束解析フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-31T03:39:04Z) - Statistical Inference of Optimal Allocations I: Regularities and their Implications [3.904240476752459]
まず、ソート作用素の一般性質の詳細な解析を通して、値関数のアダマール微分可能性(英語版)を導出する。
アダマール微分可能性の結果に基づいて、関数デルタ法を用いて値関数プロセスの特性を直接導出する方法を実証する。
論文 参考訳(メタデータ) (2024-03-27T04:39:13Z) - Structured Radial Basis Function Network: Modelling Diversity for
Multiple Hypotheses Prediction [51.82628081279621]
多重モード回帰は非定常過程の予測や分布の複雑な混合において重要である。
構造的放射基底関数ネットワークは回帰問題に対する複数の仮説予測器のアンサンブルとして提示される。
この構造モデルにより, このテッセルレーションを効率よく補間し, 複数の仮説対象分布を近似することが可能であることが証明された。
論文 参考訳(メタデータ) (2023-09-02T01:27:53Z) - Kernel-based off-policy estimation without overlap: Instance optimality
beyond semiparametric efficiency [53.90687548731265]
本研究では,観測データに基づいて線形関数を推定するための最適手順について検討する。
任意の凸および対称函数クラス $mathcalF$ に対して、平均二乗誤差で有界な非漸近局所ミニマックスを導出する。
論文 参考訳(メタデータ) (2023-01-16T02:57:37Z) - Data-Driven Influence Functions for Optimization-Based Causal Inference [105.5385525290466]
統計的汎関数に対するガトー微分を有限差分法で近似する構成的アルゴリズムについて検討する。
本研究では,確率分布を事前知識がないが,データから推定する必要がある場合について検討する。
論文 参考訳(メタデータ) (2022-08-29T16:16:22Z) - Efficient CDF Approximations for Normalizing Flows [64.60846767084877]
正規化フローの微分同相性に基づいて、閉領域上の累積分布関数(CDF)を推定する。
一般的なフローアーキテクチャとUCIデータセットに関する実験は,従来の推定器と比較して,サンプル効率が著しく向上したことを示している。
論文 参考訳(メタデータ) (2022-02-23T06:11:49Z) - Optimal variance-reduced stochastic approximation in Banach spaces [114.8734960258221]
可分バナッハ空間上で定義された収縮作用素の定点を推定する問題について検討する。
演算子欠陥と推定誤差の両方に対して漸近的でない境界を確立する。
論文 参考訳(メタデータ) (2022-01-21T02:46:57Z) - Neural Estimation of Statistical Divergences [24.78742908726579]
ニューラルネットワーク(NN)による経験的変動形態のパラメトリゼーションによる統計的発散推定の一手法
特に、近似と経験的推定という2つのエラー源の間には、根本的なトレードオフがある。
NN成長速度がわずかに異なる神経推定器は、最小値の最適値に近づき、パラメトリック収束率を対数因子まで達成できることを示す。
論文 参考訳(メタデータ) (2021-10-07T17:42:44Z) - Non-Asymptotic Performance Guarantees for Neural Estimation of
$\mathsf{f}$-Divergences [22.496696555768846]
統計的距離は確率分布の相似性を定量化する。
このようなデータからの距離を推定する現代的な方法は、ニューラルネットワーク(NN)による変動形態のパラメータ化と最適化に依存する。
本稿では,このトレードオフを非漸近誤差境界を用いて検討し,SDの3つの一般的な選択に焦点をあてる。
論文 参考訳(メタデータ) (2021-03-11T19:47:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。