論文の概要: Post-Contextual-Bandit Inference
- arxiv url: http://arxiv.org/abs/2106.00418v1
- Date: Tue, 1 Jun 2021 12:01:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-02 14:30:32.659345
- Title: Post-Contextual-Bandit Inference
- Title(参考訳): Post-Contextual-Bandit推論
- Authors: Aur\'elien Bibaut and Antoine Chambaz and Maria Dimakopoulou and
Nathan Kallus and Mark van der Laan
- Abstract要約: コンテキストバンディットアルゴリズムは、電子商取引、医療、政策立案における非適応的なA/Bテストを置き換える傾向にある。
研究参加者の成果を改善することもでき、良い方針や最良の政策を特定できる可能性を高めることもできる。
研究の終盤における新規介入の信頼性推論を支援するため, 平均治療効果, サブグループ効果, あるいは新政策の価値について, 有効な信頼区間を構築したい。
- 参考スコア(独自算出の注目度): 57.88785630755165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contextual bandit algorithms are increasingly replacing non-adaptive A/B
tests in e-commerce, healthcare, and policymaking because they can both improve
outcomes for study participants and increase the chance of identifying good or
even best policies. To support credible inference on novel interventions at the
end of the study, nonetheless, we still want to construct valid confidence
intervals on average treatment effects, subgroup effects, or value of new
policies. The adaptive nature of the data collected by contextual bandit
algorithms, however, makes this difficult: standard estimators are no longer
asymptotically normally distributed and classic confidence intervals fail to
provide correct coverage. While this has been addressed in non-contextual
settings by using stabilized estimators, the contextual setting poses unique
challenges that we tackle for the first time in this paper. We propose the
Contextual Adaptive Doubly Robust (CADR) estimator, the first estimator for
policy value that is asymptotically normal under contextual adaptive data
collection. The main technical challenge in constructing CADR is designing
adaptive and consistent conditional standard deviation estimators for
stabilization. Extensive numerical experiments using 57 OpenML datasets
demonstrate that confidence intervals based on CADR uniquely provide correct
coverage.
- Abstract(参考訳): コンテクストバンディットアルゴリズムは、eコマース、ヘルスケア、ポリシーメーキングにおける非適応的なa/bテストを置き換えるようになってきている。
研究の終盤における新規介入の信頼性推論を支援するため, 平均治療効果, サブグループ効果, あるいは新政策の価値について, 有効な信頼区間を構築したい。
しかし、文脈的帯域幅アルゴリズムによって収集されたデータの適応性は、これを難しくする: 標準推定器は、もはや漸近的に分布せず、古典的な信頼区間は、正しいカバレッジを提供することができない。
これは、安定化推定器を用いて、非コンテキスト設定で対処されているが、この文脈設定は、我々が初めて取り組んだユニークな課題である。
本研究では,文脈適応型データ収集において漸近的に正常なポリシー値に対する最初の推定器であるCADR(Contextual Adaptive Doubly Robust)推定器を提案する。
CADRの構築における主な技術的課題は、安定化のための適応的で一貫した条件付き標準偏差推定器を設計することである。
57のOpenMLデータセットを用いた大規模な数値実験により、CADRに基づく信頼区間が一意に正しいカバレッジを提供することが示された。
関連論文リスト
- Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Adaptive Conformal Prediction by Reweighting Nonconformity Score [0.0]
我々は、QRF(Quantile Regression Forest)を用いて、不整合スコアの分布を学習し、QRFの重みを利用して、テストポイントに類似した残差を持つサンプルにより重要度を割り当てる。
提案手法は,仮定のない有限標本境界範囲と訓練条件範囲を満足し,適切な仮定の下で条件付き範囲を確保できる。
論文 参考訳(メタデータ) (2023-03-22T16:42:19Z) - Post Reinforcement Learning Inference [22.117487428829488]
強化学習アルゴリズムから収集したデータを用いた推定と推定について検討する。
本稿では,時間変化の分散を安定化させるために,適応重みを慎重に設計した重み付きZ推定手法を提案する。
主な応用は、動的処理効果推定と動的オフポリシー評価である。
論文 参考訳(メタデータ) (2023-02-17T12:53:15Z) - Improved Policy Evaluation for Randomized Trials of Algorithmic Resource
Allocation [54.72195809248172]
提案する新しい概念を応用した新しい推定器を提案する。
我々は,このような推定器が,サンプル手段に基づく一般的な推定器よりも精度が高いことを理論的に証明した。
論文 参考訳(メタデータ) (2023-02-06T05:17:22Z) - Conformal Off-Policy Prediction in Contextual Bandits [54.67508891852636]
コンフォーマルなオフ政治予測は、新しい目標ポリシーの下で、結果に対する信頼できる予測間隔を出力することができる。
理論上の有限サンプル保証は、標準的な文脈的バンディットの設定を超える追加の仮定をすることなく提供する。
論文 参考訳(メタデータ) (2022-06-09T10:39:33Z) - Off-Policy Evaluation via Adaptive Weighting with Data from Contextual
Bandits [5.144809478361604]
本研究では,2重に重み付けすることで2重に頑健な (DR) 推定器を改良し,その分散を制御した。
推定器の精度向上と既存の代替手段に対する推論特性に関する実証的証拠を提供する。
論文 参考訳(メタデータ) (2021-06-03T17:54:44Z) - Risk Minimization from Adaptively Collected Data: Guarantees for
Supervised and Policy Learning [57.88785630755165]
経験的リスク最小化(Empirical Risk Minimization, ERM)は、機械学習のワークホースであるが、適応的に収集されたデータを使用すると、そのモデルに依存しない保証が失敗する可能性がある。
本研究では,仮説クラス上での損失関数の平均値を最小限に抑えるため,適応的に収集したデータを用いた一般的な重み付きERMアルゴリズムについて検討する。
政策学習では、探索がゼロになるたびに既存の文献のオープンギャップを埋める率-最適後悔保証を提供する。
論文 参考訳(メタデータ) (2021-06-03T09:50:13Z) - Accountable Off-Policy Evaluation With Kernel Bellman Statistics [29.14119984573459]
我々は,以前の実験から収集した観測データから,新たな政策の評価を行うオフ・ポリティクス評価(OPE)について考察する。
政治外のデータからの情報が少ないため、点推定だけでなく厳密な信頼区間を構築することが望ましい。
我々は,OPEにおける厳密な信頼境界を計算する問題を削減するための新しい変分フレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-15T07:24:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。