論文の概要: Off-Policy Evaluation and Learning for External Validity under a
Covariate Shift
- arxiv url: http://arxiv.org/abs/2002.11642v3
- Date: Fri, 16 Oct 2020 01:40:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 14:42:01.152937
- Title: Off-Policy Evaluation and Learning for External Validity under a
Covariate Shift
- Title(参考訳): 共変量シフトによる外部妥当性の評価と学習
- Authors: Masahiro Kato, Masatoshi Uehara, Shota Yasui
- Abstract要約: 我々は,異なる政策から得られた履歴データを用いて,評価データに対する新たなポリシーの評価と訓練を検討する。
オフ政治評価(OPE)の目標は、評価データに対する新しい政策の期待報酬を推定することであり、オフ政治学習(OPL)の目標は、評価データに対する期待報酬を最大化する新しい政策を見つけることである。
- 参考スコア(独自算出の注目度): 32.37842308026544
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider evaluating and training a new policy for the evaluation data by
using the historical data obtained from a different policy. The goal of
off-policy evaluation (OPE) is to estimate the expected reward of a new policy
over the evaluation data, and that of off-policy learning (OPL) is to find a
new policy that maximizes the expected reward over the evaluation data.
Although the standard OPE and OPL assume the same distribution of covariate
between the historical and evaluation data, a covariate shift often exists,
i.e., the distribution of the covariate of the historical data is different
from that of the evaluation data. In this paper, we derive the efficiency bound
of OPE under a covariate shift. Then, we propose doubly robust and efficient
estimators for OPE and OPL under a covariate shift by using a nonparametric
estimator of the density ratio between the historical and evaluation data
distributions. We also discuss other possible estimators and compare their
theoretical properties. Finally, we confirm the effectiveness of the proposed
estimators through experiments.
- Abstract(参考訳): 異なる政策から得られた履歴データを用いて,評価データに対する新しい方針の評価と訓練について検討する。
オフ政治評価(OPE)の目標は、評価データに対する新しい政策の期待報酬を推定することであり、オフ政治学習(OPL)の目標は、評価データに対する期待報酬を最大化する新しい政策を見つけることである。
標準のopeとoplは、歴史データと評価データとの間に同じ共変量分布を仮定しているが、共変量シフト、すなわち、歴史データの共変量の分布は、評価データと異なることが多い。
本稿では,共変量シフトの下でのOPEの効率境界を導出する。
そこで,過去のデータ分布と評価データ分布の密度比の非パラメトリック推定器を用いて,共変量シフト下でのopeとoplの2倍のロバストで効率的な推定器を提案する。
また, その他の推定因子についても検討し, その理論的性質を比較した。
最後に,提案する推定器の有効性を実験により確認する。
関連論文リスト
- Combining Experimental and Historical Data for Policy Evaluation [17.89146022336492]
本研究では,実験データと履歴データに基づいて構築された基本方針値推定器を線形に統合する新たなデータ統合手法を提案する。
報奨シフトシナリオの幅広い範囲にわたって、ロバスト性、効率、特性を導出します。
配車会社による数値実験と実データに基づく分析は,提案した推定器の優れた性能を示す。
論文 参考訳(メタデータ) (2024-06-01T06:26:28Z) - OPERA: Automatic Offline Policy Evaluation with Re-weighted Aggregates of Multiple Estimators [13.408838970377035]
オフライン政策評価(OPE)により、新たなシーケンシャルな意思決定方針のパフォーマンスを評価し、見積もることができる。
統計的手法を用いた明示的な選択に頼ることなく,データセットに与えられたOPE推定器の集合を適応的にブレンドするアルゴリズムを提案する。
我々の研究は、オフラインRLのための汎用的、推定対象に依存しない、非政治評価フレームワークの使いやすさの向上に寄与する。
論文 参考訳(メタデータ) (2024-05-27T23:51:20Z) - Sample Complexity of Preference-Based Nonparametric Off-Policy
Evaluation with Deep Networks [58.469818546042696]
我々は、OPEのサンプル効率を人間の好みで研究し、その統計的保証を確立する。
ReLUネットワークのサイズを適切に選択することにより、マルコフ決定過程において任意の低次元多様体構造を活用できることが示される。
論文 参考訳(メタデータ) (2023-10-16T16:27:06Z) - Conformal Off-Policy Evaluation in Markov Decision Processes [53.786439742572995]
強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:45:11Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Asymptotically Unbiased Off-Policy Policy Evaluation when Reusing Old
Data in Nonstationary Environments [31.492146288630515]
回帰支援DR推定器(Regressive-Assisted DR estimator)と呼ばれる2重頑健(DR)推定器の変種を導入し、大きなバイアスを伴わずに過去のデータを組み込むことができる。
本研究では,新しい推定器が現在および将来の政策値の推定を改善することを実証的に示し,複数の非定常的推薦環境において厳密かつ有効な区間推定を提供する。
論文 参考訳(メタデータ) (2023-02-23T01:17:21Z) - Improved Policy Evaluation for Randomized Trials of Algorithmic Resource
Allocation [54.72195809248172]
提案する新しい概念を応用した新しい推定器を提案する。
我々は,このような推定器が,サンプル手段に基づく一般的な推定器よりも精度が高いことを理論的に証明した。
論文 参考訳(メタデータ) (2023-02-06T05:17:22Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Offline Policy Comparison under Limited Historical Agent-Environment
Interactions [0.0]
強化学習システムの現実的な応用における政策評価の課題に対処する。
我々は,利用可能な歴史データに基づいて,政策比較,すなわち,その価値の観点から,政策のランク付けを行うことを提案する。
論文 参考訳(メタデータ) (2021-06-07T19:51:00Z) - Off-Policy Evaluation via Adaptive Weighting with Data from Contextual
Bandits [5.144809478361604]
本研究では,2重に重み付けすることで2重に頑健な (DR) 推定器を改良し,その分散を制御した。
推定器の精度向上と既存の代替手段に対する推論特性に関する実証的証拠を提供する。
論文 参考訳(メタデータ) (2021-06-03T17:54:44Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。