論文の概要: The Adaptive Doubly Robust Estimator for Policy Evaluation in Adaptive
Experiments and a Paradox Concerning Logging Policy
- arxiv url: http://arxiv.org/abs/2010.03792v5
- Date: Fri, 18 Jun 2021 22:17:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 11:50:12.466268
- Title: The Adaptive Doubly Robust Estimator for Policy Evaluation in Adaptive
Experiments and a Paradox Concerning Logging Policy
- Title(参考訳): 適応実験における政策評価のための適応二重ロバスト推定器とロギング政策に関するパラドックス
- Authors: Masahiro Kato and Shota Yasui and Kenichiro McAlinn
- Abstract要約: 適応実験から得られた依存サンプルに対する2重頑健(DR)推定器を提案する。
提案するDR推定器は,他の推定器と比較して優れた性能を示す傾向にあるという実証的パラドックスを報告する。
- 参考スコア(独自算出の注目度): 13.772109618082382
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The doubly robust (DR) estimator, which consists of two nuisance parameters,
the conditional mean outcome and the logging policy (the probability of
choosing an action), is crucial in causal inference. This paper proposes a DR
estimator for dependent samples obtained from adaptive experiments. To obtain
an asymptotically normal semiparametric estimator from dependent samples with
non-Donsker nuisance estimators, we propose adaptive-fitting as a variant of
sample-splitting. We also report an empirical paradox that our proposed DR
estimator tends to show better performances compared to other estimators
utilizing the true logging policy. While a similar phenomenon is known for
estimators with i.i.d. samples, traditional explanations based on asymptotic
efficiency cannot elucidate our case with dependent samples. We confirm this
hypothesis through simulation studies.
- Abstract(参考訳): 2つのニュアンスパラメータ、条件平均結果とロギングポリシー(アクションを選択する確率)からなる二重頑健(DR)推定器は因果推論において重要である。
本稿では適応実験から得られた依存サンプルに対するDR推定器を提案する。
非ドンスカーニュアサンス推定器を有する依存サンプルから漸近的に正常な半パラメトリック推定器を得るため、サンプル分割の変種として適応フィッティングを提案する。
また,提案するdr推定器は,真のロギングポリシーを利用する他の推定器よりも優れた性能を示す傾向があるという経験的パラドックスを報告する。
i.i.d.サンプルを用いた推定では同様の現象が知られているが、漸近効率に基づく従来の説明は、我々のケースを依存サンプルで解明することはできない。
我々はこの仮説をシミュレーション研究を通じて確認する。
関連論文リスト
- Mitigating LLM Hallucinations via Conformal Abstention [70.83870602967625]
我々は,大言語モデルが一般ドメインでの応答をいつ無視すべきかを決定するための,原則化された手順を開発する。
我々は、幻覚率(エラー率)の厳密な理論的保証の恩恵を受けるため、共形予測手法を活用して、禁忌手順を開発する。
実験によって得られた共形禁忌法は, 種々の閉書, オープンドメイン生成質問応答データセットに, 幻覚率を確実に拘束する。
論文 参考訳(メタデータ) (2024-04-04T11:32:03Z) - Prognostic Covariate Adjustment for Logistic Regression in Randomized
Controlled Trials [1.5020330976600735]
本研究では, 確率的スコア調整により, 条件付オッズ比のウォルド試験のパワーを一定のサンプルサイズで向上させることができることを示す。
我々はg-computationを用いて、確率的スコア調整の範囲を、限界リスク差、相対リスク、確率比推定に基づいて拡張する。
論文 参考訳(メタデータ) (2024-02-29T06:53:16Z) - High Precision Causal Model Evaluation with Conditional Randomization [10.23470075454725]
因果誤差を推定するための新しい低分散推定器(ペア推定器)を提案する。
モデルと真の実験効果の両方に同じIPW推定器を適用することにより、IPWによる分散を効果的にキャンセルし、より小さな分散を実現する。
提案手法は,IPW推定器自体の複雑な変更を伴わずに,条件付きランダム化設定における因果推論モデルを評価するための,単純かつ強力な解を提供する。
論文 参考訳(メタデータ) (2023-11-03T13:22:27Z) - Detecting Adversarial Data by Probing Multiple Perturbations Using
Expected Perturbation Score [62.54911162109439]
逆方向検出は、自然分布と逆方向分布の差に基づいて、与えられたサンプルが逆方向であるかどうかを判定することを目的としている。
本研究では,様々な摂動後の標本の予測スコアであるEPS(pre expected perturbation score)を提案する。
EPSに基づく最大平均誤差(MMD)を,試験試料と自然試料との差を測定する指標として開発する。
論文 参考訳(メタデータ) (2023-05-25T13:14:58Z) - Improved Policy Evaluation for Randomized Trials of Algorithmic Resource
Allocation [54.72195809248172]
提案する新しい概念を応用した新しい推定器を提案する。
我々は,このような推定器が,サンプル手段に基づく一般的な推定器よりも精度が高いことを理論的に証明した。
論文 参考訳(メタデータ) (2023-02-06T05:17:22Z) - Near-optimal inference in adaptive linear regression [60.08422051718195]
最小二乗法のような単純な方法でさえ、データが適応的に収集されるときの非正規な振る舞いを示すことができる。
我々は,これらの分布異常を少なくとも2乗推定で補正するオンラインデバイアス推定器のファミリーを提案する。
我々は,マルチアームバンディット,自己回帰時系列推定,探索による能動的学習などの応用を通して,我々の理論の有用性を実証する。
論文 参考訳(メタデータ) (2021-07-05T21:05:11Z) - Off-Policy Evaluation via Adaptive Weighting with Data from Contextual
Bandits [5.144809478361604]
本研究では,2重に重み付けすることで2重に頑健な (DR) 推定器を改良し,その分散を制御した。
推定器の精度向上と既存の代替手段に対する推論特性に関する実証的証拠を提供する。
論文 参考訳(メタデータ) (2021-06-03T17:54:44Z) - Counterfactual Inference of the Mean Outcome under a Convergence of
Average Logging Probability [5.596752018167751]
本稿では,適応実験で得られたサンプルから,アクションの平均結果を推定する。
適応実験では、過去の観測に基づいて行動を選択する確率を逐次更新することができる。
論文 参考訳(メタデータ) (2021-02-17T19:05:53Z) - Optimal Off-Policy Evaluation from Multiple Logging Policies [77.62012545592233]
我々は,複数のロギングポリシからオフ政治評価を行い,それぞれが一定のサイズ,すなわち階層化サンプリングのデータセットを生成する。
複数ロガーのOPE推定器は,任意のインスタンス,すなわち効率のよいインスタンスに対して最小分散である。
論文 参考訳(メタデータ) (2020-10-21T13:43:48Z) - Estimating Gradients for Discrete Random Variables by Sampling without
Replacement [93.09326095997336]
我々は、置換のないサンプリングに基づいて、離散確率変数に対する期待値の偏りのない推定器を導出する。
推定器は3つの異なる推定器のラオ・ブラックウェル化として導出可能であることを示す。
論文 参考訳(メタデータ) (2020-02-14T14:15:18Z) - Efficient Adaptive Experimental Design for Average Treatment Effect
Estimation [18.027128141189355]
本研究では, 依存サンプルから構築した推定器を用いた効率的な実験法を提案する。
提案手法を正当化するために,有限および無限サンプル解析を行う。
論文 参考訳(メタデータ) (2020-02-13T02:04:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。