論文の概要: Off-Policy Evaluation via Adaptive Weighting with Data from Contextual
Bandits
- arxiv url: http://arxiv.org/abs/2106.02029v1
- Date: Thu, 3 Jun 2021 17:54:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-04 16:23:24.330167
- Title: Off-Policy Evaluation via Adaptive Weighting with Data from Contextual
Bandits
- Title(参考訳): コンテキストバンディットデータを用いた適応重み付けによるオフポリシー評価
- Authors: Ruohan Zhan, Vitor Hadad, David A. Hirshberg, and Susan Athey
- Abstract要約: 本研究では,2重に重み付けすることで2重に頑健な (DR) 推定器を改良し,その分散を制御した。
推定器の精度向上と既存の代替手段に対する推論特性に関する実証的証拠を提供する。
- 参考スコア(独自算出の注目度): 5.144809478361604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It has become increasingly common for data to be collected adaptively, for
example using contextual bandits. Historical data of this type can be used to
evaluate other treatment assignment policies to guide future innovation or
experiments. However, policy evaluation is challenging if the target policy
differs from the one used to collect data, and popular estimators, including
doubly robust (DR) estimators, can be plagued by bias, excessive variance, or
both. In particular, when the pattern of treatment assignment in the collected
data looks little like the pattern generated by the policy to be evaluated, the
importance weights used in DR estimators explode, leading to excessive
variance.
In this paper, we improve the DR estimator by adaptively weighting
observations to control its variance. We show that a t-statistic based on our
improved estimator is asymptotically normal under certain conditions, allowing
us to form confidence intervals and test hypotheses. Using synthetic data and
public benchmarks, we provide empirical evidence for our estimator's improved
accuracy and inferential properties relative to existing alternatives.
- Abstract(参考訳): コンテキストバンディットを使用するなど,データのアダプティブ収集はますます一般的になっています。
このタイプの歴史的データは、将来のイノベーションや実験を導く他の治療割り当てポリシーを評価するのに使うことができる。
しかし、対象ポリシーがデータ収集に使用されるものと異なる場合、政策評価は困難であり、二重頑健(DR)推定器を含む一般的な推定器はバイアスや過度の分散、あるいはその両方に悩まされる可能性がある。
特に、収集したデータにおける処理割り当てのパターンが評価対象のポリシーによって生成されたパターンにほとんど似ていない場合、DR推定器で使われる重みが爆発的に増加し、過度のばらつきが生じる。
本稿では,DR推定器を適応的に重み付けしてその分散を制御して改良する。
改良された推定器に基づくt-統計は一定の条件下で漸近的に正常であり,信頼区間を形成し仮説を検証できることを示した。
合成データと公開ベンチマークを用いて,推定器の精度向上と既存の代替手段に対する推論特性の実証的証拠を提供する。
関連論文リスト
- Geometry-Aware Instrumental Variable Regression [56.16884466478886]
本稿では,データ導出情報によるデータ多様体の幾何を考慮した移動型IV推定器を提案する。
本手法のプラグイン・アンド・プレイ実装は,標準設定で関連する推定器と同等に動作する。
論文 参考訳(メタデータ) (2024-05-19T17:49:33Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Asymptotically Unbiased Off-Policy Policy Evaluation when Reusing Old
Data in Nonstationary Environments [31.492146288630515]
回帰支援DR推定器(Regressive-Assisted DR estimator)と呼ばれる2重頑健(DR)推定器の変種を導入し、大きなバイアスを伴わずに過去のデータを組み込むことができる。
本研究では,新しい推定器が現在および将来の政策値の推定を改善することを実証的に示し,複数の非定常的推薦環境において厳密かつ有効な区間推定を提供する。
論文 参考訳(メタデータ) (2023-02-23T01:17:21Z) - Quantile Off-Policy Evaluation via Deep Conditional Generative Learning [21.448553360543478]
Off-Policy Evaluation (OPE) は、潜在的に異なる行動ポリシーによって生成されたオフラインデータを用いて、新しいターゲットポリシーを評価することに関心がある。
本稿では、逐次決定における量子OPEの2倍のロス率推論手順を提案する。
本提案手法の利点は,シミュレーションと,ショートビデオプラットフォームによる実世界のデータセットの両方を用いて示す。
論文 参考訳(メタデータ) (2022-12-29T22:01:43Z) - Control Variates for Slate Off-Policy Evaluation [112.35528337130118]
多次元動作を伴うバッチ化されたコンテキスト帯域データから政治外評価の問題について検討する。
我々は, PIと自己正規化PIの双方に対して, リスク改善を保証した新しい推定器を得る。
論文 参考訳(メタデータ) (2021-06-15T06:59:53Z) - Post-Contextual-Bandit Inference [57.88785630755165]
コンテキストバンディットアルゴリズムは、電子商取引、医療、政策立案における非適応的なA/Bテストを置き換える傾向にある。
研究参加者の成果を改善することもでき、良い方針や最良の政策を特定できる可能性を高めることもできる。
研究の終盤における新規介入の信頼性推論を支援するため, 平均治療効果, サブグループ効果, あるいは新政策の価値について, 有効な信頼区間を構築したい。
論文 参考訳(メタデータ) (2021-06-01T12:01:51Z) - Evaluating Model Robustness and Stability to Dataset Shift [7.369475193451259]
機械学習モデルの安定性を解析するためのフレームワークを提案する。
本手法では,アルゴリズムが性能の悪い分布を決定するために,元の評価データを用いる。
我々は,アルゴリズムの性能を"Worst-case"分布で推定する。
論文 参考訳(メタデータ) (2020-10-28T17:35:39Z) - The Adaptive Doubly Robust Estimator for Policy Evaluation in Adaptive
Experiments and a Paradox Concerning Logging Policy [13.772109618082382]
適応実験から得られた依存サンプルに対する2重頑健(DR)推定器を提案する。
提案するDR推定器は,他の推定器と比較して優れた性能を示す傾向にあるという実証的パラドックスを報告する。
論文 参考訳(メタデータ) (2020-10-08T06:42:48Z) - Performance metrics for intervention-triggering prediction models do not
reflect an expected reduction in outcomes from using the model [71.9860741092209]
臨床研究者はしばしばリスク予測モデルの中から選択し評価する。
振り返りデータから算出される標準メトリクスは、特定の仮定の下でのみモデルユーティリティに関係します。
予測が時間を通して繰り返し配信される場合、標準メトリクスとユーティリティの関係はさらに複雑になる。
論文 参考訳(メタデータ) (2020-06-02T16:26:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。