論文の概要: Bootstrapping Statistical Inference for Off-Policy Evaluation
- arxiv url: http://arxiv.org/abs/2102.03607v2
- Date: Tue, 9 Feb 2021 11:19:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-10 12:50:27.614489
- Title: Bootstrapping Statistical Inference for Off-Policy Evaluation
- Title(参考訳): オフポリシー評価のためのブートストラップ統計推論
- Authors: Botao Hao, Xiang Ji, Yaqi Duan, Hao Lu, Csaba Szepesv\'ari, Mengdi
Wang
- Abstract要約: オフ政治評価(OPE)におけるブートストラップの利用について検討する。
本稿では,政策評価誤差の分布を推定するブートストラップFQE法を提案し,この手法が政治外の統計的推測に有効で一貫性があることを示す。
我々は,古典的RL環境におけるブートラッピング手法の評価を行い,信頼区間推定,オフポリチック評価器のばらつきの推定,複数オフポリチック評価器の相関性の推定を行った。
- 参考スコア(独自算出の注目度): 43.79456564713911
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bootstrapping provides a flexible and effective approach for assessing the
quality of batch reinforcement learning, yet its theoretical property is less
understood. In this paper, we study the use of bootstrapping in off-policy
evaluation (OPE), and in particular, we focus on the fitted Q-evaluation (FQE)
that is known to be minimax-optimal in the tabular and linear-model cases. We
propose a bootstrapping FQE method for inferring the distribution of the policy
evaluation error and show that this method is asymptotically efficient and
distributionally consistent for off-policy statistical inference. To overcome
the computation limit of bootstrapping, we further adapt a subsampling
procedure that improves the runtime by an order of magnitude. We numerically
evaluate the bootrapping method in classical RL environments for confidence
interval estimation, estimating the variance of off-policy evaluator, and
estimating the correlation between multiple off-policy evaluators.
- Abstract(参考訳): ブートストラッピングは、バッチ強化学習の品質を評価するための柔軟で効果的なアプローチを提供するが、その理論的性質は理解されていない。
本稿では,オフ・ポリシー評価(ope)におけるブートストラップの使用について検討し,特に,表型および線形モデルにおいて最小最適であることが知られているq値評価(fqe)に着目した。
本稿では,政策評価誤差の分布を推定するブートストラップFQE法を提案し,この手法が漸近的に効率的で,非政治的な統計的推測に一貫性があることを示す。
ブートストラップの計算限界を克服するため,実行時間を大幅に改善するサブサンプリング手法を更に適用する。
信頼区間推定のための古典的rl環境におけるブートラッピング法を数値的に評価し,オフポリシ評価器の分散を推定し,複数のオフポリシ評価器間の相関関係を推定した。
関連論文リスト
- Online Estimation and Inference for Robust Policy Evaluation in
Reinforcement Learning [7.875680651592574]
本研究では,バハドゥル表現に基づくオンラインロバストな政策評価手法を開発し,推定器の限定分布を確立する。
本稿では、強化学習における頑健な統計と統計的推測のギャップを埋め、より汎用的で信頼性の高い政策評価手法を提供する。
論文 参考訳(メタデータ) (2023-10-04T04:57:35Z) - A Tale of Sampling and Estimation in Discounted Reinforcement Learning [50.43256303670011]
割引平均推定問題に対して最小値の最小値を求める。
マルコフ過程の割引されたカーネルから直接サンプリングすることで平均を推定すると、説得力のある統計的性質が得られることを示す。
論文 参考訳(メタデータ) (2023-04-11T09:13:17Z) - Unifying Gradient Estimators for Meta-Reinforcement Learning via
Off-Policy Evaluation [53.83642844626703]
オフ・ポリシー評価に基づいて,高次値関数の高次微分を推定するための統一フレームワークを提供する。
本フレームワークは, ヘッセン推定の偏りと分散トレードオフを解明する特別事例として, 多くの先行的アプローチを解釈する。
論文 参考訳(メタデータ) (2021-06-24T15:58:01Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z) - Accountable Off-Policy Evaluation With Kernel Bellman Statistics [29.14119984573459]
我々は,以前の実験から収集した観測データから,新たな政策の評価を行うオフ・ポリティクス評価(OPE)について考察する。
政治外のデータからの情報が少ないため、点推定だけでなく厳密な信頼区間を構築することが望ましい。
我々は,OPEにおける厳密な信頼境界を計算する問題を削減するための新しい変分フレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-15T07:24:38Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。