論文の概要: Off-policy estimation with adaptively collected data: the power of online learning
- arxiv url: http://arxiv.org/abs/2411.12786v1
- Date: Tue, 19 Nov 2024 10:18:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-21 16:12:50.047016
- Title: Off-policy estimation with adaptively collected data: the power of online learning
- Title(参考訳): 適応的収集データによるオフ政治推定--オンライン学習の力-
- Authors: Jeonghwan Lee, Cong Ma,
- Abstract要約: 適応的に収集したデータを用いて, 処理効果の線形関数を推定する。
本稿では,オンライン学習を通じて治療効果の一連の推定を生成できる一般還元方式を提案する。
- 参考スコア(独自算出の注目度): 20.023469636707635
- License:
- Abstract: We consider estimation of a linear functional of the treatment effect using adaptively collected data. This task finds a variety of applications including the off-policy evaluation (\textsf{OPE}) in contextual bandits, and estimation of the average treatment effect (\textsf{ATE}) in causal inference. While a certain class of augmented inverse propensity weighting (\textsf{AIPW}) estimators enjoys desirable asymptotic properties including the semi-parametric efficiency, much less is known about their non-asymptotic theory with adaptively collected data. To fill in the gap, we first establish generic upper bounds on the mean-squared error of the class of AIPW estimators that crucially depends on a sequentially weighted error between the treatment effect and its estimates. Motivated by this, we also propose a general reduction scheme that allows one to produce a sequence of estimates for the treatment effect via online learning to minimize the sequentially weighted estimation error. To illustrate this, we provide three concrete instantiations in (\romannumeral 1) the tabular case; (\romannumeral 2) the case of linear function approximation; and (\romannumeral 3) the case of general function approximation for the outcome model. We then provide a local minimax lower bound to show the instance-dependent optimality of the \textsf{AIPW} estimator using no-regret online learning algorithms.
- Abstract(参考訳): 適応的に収集したデータを用いて, 処理効果の線形関数を推定する。
このタスクは、文脈的包帯におけるオフ政治評価 (\textsf{OPE}) や、因果推論における平均処理効果 (\textsf{ATE}) の推定など、様々な応用を見出す。
ある種の拡張逆確率重み付け(\textsf{AIPW})推定器は半パラメトリック効率を含む望ましい漸近特性を享受するが、適応的に収集されたデータを持つ非漸近理論についてはあまり知られていない。
このギャップを埋めるために、我々はまず、処理効果と推定値の間の逐次重み付き誤差に決定的に依存するAIPW推定器のクラスの平均二乗誤差に関する一般的な上限を確立する。
そこで本研究では,オンライン学習を通じて処理効果の一連の推定を行い,逐次重み付けされた推定誤差を最小化するための一般化手法を提案する。
これを説明するために、我々は (\romannumeral) で3つの具体的なインスタンスを提供する。
1) 表の場合; (\romannumeral)
2) 線形関数近似の場合; および (\romannumeral)
3) 結果モデルの一般関数近似の場合。
そこで我々は, オンライン学習アルゴリズムを用いて, インスタンス依存の最適性を示すために, 局所ミニマックス下界を提供する。
関連論文リスト
- C-Learner: Constrained Learning for Causal Inference and Semiparametric Statistics [5.395560682099634]
そこで本研究では,安定なプラグイン推定を望ましい特性で実現する新しいデバイアス推定器を提案する。
我々の制約学習フレームワークは、プラグイン量に対する一階誤差がゼロであるという制約の下で、最高のプラグイン推定器を解く。
我々の推定器は、処理と制御の重複が限定された挑戦的な環境での一段階推定と目標を上回り、それ以外は比較可能である。
論文 参考訳(メタデータ) (2024-05-15T16:38:28Z) - Adaptive Linear Estimating Equations [5.985204759362746]
本稿では,デバイアス推定器の一般的な構成法を提案する。
適応線形推定方程式の考え方を利用し、正規性の理論的保証を確立する。
我々の推定器の健全な特徴は、マルチアームバンディットの文脈では、我々の推定器は非漸近的な性能を保っていることである。
論文 参考訳(メタデータ) (2023-07-14T12:55:47Z) - Kernel-based off-policy estimation without overlap: Instance optimality
beyond semiparametric efficiency [53.90687548731265]
本研究では,観測データに基づいて線形関数を推定するための最適手順について検討する。
任意の凸および対称函数クラス $mathcalF$ に対して、平均二乗誤差で有界な非漸近局所ミニマックスを導出する。
論文 参考訳(メタデータ) (2023-01-16T02:57:37Z) - Off-policy estimation of linear functionals: Non-asymptotic theory for
semi-parametric efficiency [59.48096489854697]
観測データに基づいて線形汎関数を推定する問題は、因果推論と包帯文献の両方において標準的である。
このような手順の平均二乗誤差に対して非漸近上界を証明した。
非漸近的局所ミニマックス下限をマッチングすることにより、有限標本のインスタンス依存最適性を確立する。
論文 参考訳(メタデータ) (2022-09-26T23:50:55Z) - Generalization bounds and algorithms for estimating conditional average
treatment effect of dosage [13.867315751451494]
本研究では,治療薬対の条件付き平均因果効果を観測データと仮定の組み合わせで推定する作業について検討した。
これは疫学や経済学など、意思決定のために治療薬対を必要とする分野における長年にわたる課題である。
この問題に対するいくつかのベンチマークデータセットに対して、実証的に新しい最先端のパフォーマンス結果を示す。
論文 参考訳(メタデータ) (2022-05-29T15:26:59Z) - Pessimistic Minimax Value Iteration: Provably Efficient Equilibrium
Learning from Offline Datasets [101.5329678997916]
両プレイヤーゼロサムマルコフゲーム(MG)をオフライン環境で研究する。
目標は、事前収集されたデータセットに基づいて、近似的なナッシュ均衡(NE)ポリシーペアを見つけることである。
論文 参考訳(メタデータ) (2022-02-15T15:39:30Z) - Semi-Supervised Quantile Estimation: Robust and Efficient Inference in High Dimensional Settings [0.5735035463793009]
2つの利用可能なデータセットを特徴とする半教師付き環境での量子推定を考察する。
本稿では,2つのデータセットに基づいて,応答量子化(s)に対する半教師付き推定器群を提案する。
論文 参考訳(メタデータ) (2022-01-25T10:02:23Z) - Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。
本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。
BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文 参考訳(メタデータ) (2021-10-24T10:23:51Z) - Near-optimal inference in adaptive linear regression [60.08422051718195]
最小二乗法のような単純な方法でさえ、データが適応的に収集されるときの非正規な振る舞いを示すことができる。
我々は,これらの分布異常を少なくとも2乗推定で補正するオンラインデバイアス推定器のファミリーを提案する。
我々は,マルチアームバンディット,自己回帰時系列推定,探索による能動的学習などの応用を通して,我々の理論の有用性を実証する。
論文 参考訳(メタデータ) (2021-07-05T21:05:11Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。