論文の概要: Off-Policy Evaluation with Out-of-Sample Guarantees
- arxiv url: http://arxiv.org/abs/2301.08649v3
- Date: Fri, 30 Jun 2023 07:58:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-03 15:30:28.821838
- Title: Off-Policy Evaluation with Out-of-Sample Guarantees
- Title(参考訳): out-of-sample 保証によるオフポリシー評価
- Authors: Sofia Ek, Dave Zachariah, Fredrik D. Johansson, Petre Stoica
- Abstract要約: 過去の観測データを用いて意思決定ポリシーの性能を評価することの問題点を考察する。
本研究では,損失分布全体について,有限サンプルのカバレッジ保証でそのような推論を導出可能であることを示す。
この評価方法は、特定の信頼可能なモデル仮定の範囲で観測データを用いてポリシーの性能を認証するために用いられる。
- 参考スコア(独自算出の注目度): 21.527138355664174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of evaluating the performance of a decision policy
using past observational data. The outcome of a policy is measured in terms of
a loss (aka. disutility or negative reward) and the main problem is making
valid inferences about its out-of-sample loss when the past data was observed
under a different and possibly unknown policy. Using a sample-splitting method,
we show that it is possible to draw such inferences with finite-sample coverage
guarantees about the entire loss distribution, rather than just its mean.
Importantly, the method takes into account model misspecifications of the past
policy - including unmeasured confounding. The evaluation method can be used to
certify the performance of a policy using observational data under a specified
range of credible model assumptions.
- Abstract(参考訳): 過去の観測データを用いた意思決定ポリシーの性能評価の問題点を考察する。
政策の結果は、損失(すなわち不利または負の報酬)の観点から測定され、主要な問題は、過去のデータが異なる、おそらく未知のポリシーの下で観察されたときに、その外損失に関する有効な推論を行うことである。
サンプルスプリッティング法を用いて, 損失分布全体について, 有限サンプルカバレッジによる推定を, 単にその平均ではなく, 完全損失分布を保証できることを示す。
重要なのは、この手法が過去のポリシーのモデルの誤定義を考慮に入れることだ。
この評価方法は、所定の信頼可能なモデル仮定の範囲で観測データを用いてポリシーの性能を認証するために用いられる。
関連論文リスト
- Externally Valid Policy Evaluation Combining Trial and Observational Data [6.875312133832077]
対象人口に対する政策の結果について有効な推測を行うために,試行データを用いたい。
本研究では,任意のモデル誤校正範囲下で有効な試行ベースの政策評価を行う手法を開発した。
論文 参考訳(メタデータ) (2023-10-23T10:01:50Z) - Conformal Off-Policy Evaluation in Markov Decision Processes [53.786439742572995]
強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:45:11Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Conformal Off-Policy Prediction in Contextual Bandits [54.67508891852636]
コンフォーマルなオフ政治予測は、新しい目標ポリシーの下で、結果に対する信頼できる予測間隔を出力することができる。
理論上の有限サンプル保証は、標準的な文脈的バンディットの設定を超える追加の仮定をすることなく提供する。
論文 参考訳(メタデータ) (2022-06-09T10:39:33Z) - Identification of Subgroups With Similar Benefits in Off-Policy Policy
Evaluation [60.71312668265873]
我々は,パーソナライズの必要性と自信ある予測とのバランスをとる方法を開発した。
本手法は不均一な治療効果の正確な予測に有効であることを示す。
論文 参考訳(メタデータ) (2021-11-28T23:19:12Z) - Off-Policy Evaluation of Bandit Algorithm from Dependent Samples under
Batch Update Policy [8.807587076209566]
オフ・ポリティクス評価(OPE)の目的は、行動政策を通じて得られた履歴データを用いて、新しい政策を評価することである。
文脈的帯域幅は過去の観測に基づいてポリシーを更新するため、サンプルは独立ではなく、同一に分布する。
本稿では,従属サンプルに対するマーチンゲール差分列(MDS)から推定器を構築することにより,この問題に対処する。
論文 参考訳(メタデータ) (2020-10-23T15:22:57Z) - Confidence Interval for Off-Policy Evaluation from Dependent Samples via
Bandit Algorithm: Approach from Standardized Martingales [8.807587076209566]
OPEの目的は,バンディットアルゴリズムによって生成された行動ポリシーから得られた履歴データを用いて,新しいポリシーを評価することである。
バンディットアルゴリズムは過去の観測に基づいてポリシーを更新するため、サンプルは独立ではなく、同じ分布(すなわちd)である。
OPEのいくつかの既存の手法は、この問題を考慮に入れておらず、サンプルがi.d.であるという仮定に基づいている。
論文 参考訳(メタデータ) (2020-06-12T07:48:04Z) - Distributionally Robust Batch Contextual Bandits [20.667213458836734]
歴史的観測データを用いた政策学習は、広く応用されている重要な問題である。
既存の文献は、学習方針が展開される将来の環境が過去の環境と同じである、という決定的な前提に基づいている。
本稿では、この仮定を引き上げ、不完全な観測データを用いて、分布的に堅牢なポリシーを学習することを目的とする。
論文 参考訳(メタデータ) (2020-06-10T03:11:40Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - Learning Robust Decision Policies from Observational Data [21.05564340986074]
高いコストで成果のリスクを減らすような堅牢な政策を学ぶことは、興味深いことです。
本研究では,特定のレベルでのコスト分布のテールを削減するための政策学習手法を開発した。
論文 参考訳(メタデータ) (2020-06-03T16:02:57Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。