論文の概要: Do Contemporary CATE Models Capture Real-World Heterogeneity? Findings from a Large-Scale Benchmark
- arxiv url: http://arxiv.org/abs/2410.07021v1
- Date: Wed, 9 Oct 2024 16:04:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 22:57:18.184944
- Title: Do Contemporary CATE Models Capture Real-World Heterogeneity? Findings from a Large-Scale Benchmark
- Title(参考訳): 現代のCATEモデルは実世界の不均一性を捉えるか?
- Authors: Haining Yu, Yizhou Sun,
- Abstract要約: 本研究では,条件平均処理効果(CATE)推定アルゴリズムを大規模ベンチマークで評価し,予期せぬ結果を示す。
a) CATE推定の62%は、自明なゼロエフェクト予測よりも平均二乗誤差(MSE)が高く、少なくとも1つの有用なCATE推定を持つデータセットでは、80%は、定数エフェクトモデルよりも高いMSEを持ち、c) オルソゴン性に基づくモデルは、他のモデルよりも30%高い。
- 参考スコア(独自算出の注目度): 39.06952509635041
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present unexpected findings from a large-scale benchmark study evaluating Conditional Average Treatment Effect (CATE) estimation algorithms. By running 16 modern CATE models across 43,200 datasets, we find that: (a) 62\% of CATE estimates have a higher Mean Squared Error (MSE) than a trivial zero-effect predictor, rendering them ineffective; (b) in datasets with at least one useful CATE estimate, 80\% still have higher MSE than a constant-effect model; and (c) Orthogonality-based models outperform other models only 30\% of the time, despite widespread optimism about their performance. These findings expose significant limitations in current CATE models and suggest ample opportunities for further research. Our findings stem from a novel application of \textit{observational sampling}, originally developed to evaluate Average Treatment Effect (ATE) estimates from observational methods with experiment data. To adapt observational sampling for CATE evaluation, we introduce a statistical parameter, $Q$, equal to MSE minus a constant and preserves the ranking of models by their MSE. We then derive a family of sample statistics, collectively called $\hat{Q}$, that can be computed from real-world data. We prove that $\hat{Q}$ is a consistent estimator of $Q$ under mild technical conditions. When used in observational sampling, $\hat{Q}$ is unbiased and asymptotically selects the model with the smallest MSE. To ensure the benchmark reflects real-world heterogeneity, we handpick datasets where outcomes come from field rather than simulation. By combining the new observational sampling method, new statistics, and real-world datasets, the benchmark provides a unique perspective on CATE estimator performance and uncover gaps in capturing real-world heterogeneity.
- Abstract(参考訳): 本研究では,条件平均処理効果(CATE)推定アルゴリズムを大規模ベンチマークで評価し,予期せぬ結果を示す。
43,200データセットで16の現代的なCATEモデルを実行することで、次のようなことが分かる。
(a)CATE推定の62\%は、自明なゼロエフェクト予測器よりも平均正方形誤差(MSE)が高く、非効率である。
(b)少なくとも1つの有用なCATE推定値を持つデータセットでは、80 % は定数効果モデルよりも MSE が高い。
(c)直交性に基づくモデルは、その性能に対する楽観的評価にもかかわらず、他のモデルよりもわずか30%優れていた。
これらの知見は、現在のCATEモデルにおいて重大な限界を示し、さらなる研究の機会を示唆している。
本研究は,実験データを用いた観測方法から平均処理効果(ATE)の推定値を評価するために開発された,textit{observational sample} の新規な応用に起因している。
CATE評価に観測サンプリングを適用するために,MSE の定数に等しい統計パラメータ $Q$ を導入し,MSE によるモデルのランキングを維持する。
次に、実世界のデータから計算できるサンプル統計のファミリである$\hat{Q}$を導出する。
我々は、$\hat{Q}$が穏やかな技術的条件下での$Q$の一貫した推定量であることを証明する。
観測サンプリングで使用される場合、$\hat{Q}$ は非バイアスであり、漸近的に最小の MSE でモデルを選択する。
ベンチマークが実世界の不均一性を反映することを保証するため、シミュレーションではなくフィールドから結果が得られたデータセットをハンドピックする。
新しい観測サンプリング手法、新しい統計、および実世界のデータセットを組み合わせることで、ベンチマークはCATE推定器のパフォーマンスと現実世界の不均一性を捉える際のギャップを明らかにするためのユニークな視点を提供する。
関連論文リスト
- K-Fold Causal BART for CATE Estimation [0.0]
この研究は、広く認知されているInfant Health and Development Program(IHDP)ベンチマークデータセットを含む、合成および半合成データセットを使用している。
合成シナリオにおける有望な結果にもかかわらず、IHDPデータセットは、提案されたモデルがATEとCATE推定の最先端ではないことを明らかにしている。
論文 参考訳(メタデータ) (2024-09-09T14:36:33Z) - Adaptive LASSO estimation for functional hidden dynamic geostatistical
model [69.10717733870575]
関数型隠れ統計モデル(f-HD)のためのペナル化極大推定器(PMLE)に基づく新しいモデル選択アルゴリズムを提案する。
このアルゴリズムは反復最適化に基づいており、適応最小限の収縮・セレクタ演算子(GMSOLAS)ペナルティ関数を用いており、これは不給付のf-HD最大線量推定器によって得られる。
論文 参考訳(メタデータ) (2022-08-10T19:17:45Z) - Data-Driven Sample Average Approximation with Covariate Information [0.0]
我々は、コパラメトリックの同時観測とともに、最適化モデル内の不確実なパラメータの観測を行う際に、データ駆動意思決定のための最適化について検討する。
本稿では,機械学習予測モデルをプログラムサンプル平均近似(SAA)に組み込んだ3つのデータ駆動フレームワークについて検討する。
論文 参考訳(メタデータ) (2022-07-27T14:45:04Z) - MRCLens: an MRC Dataset Bias Detection Toolkit [82.44296974850639]
MRCLensは,ユーザがフルモデルをトレーニングする前に,バイアスが存在するかどうかを検出するツールキットである。
ツールキットの導入の便宜のために,MDCにおける共通バイアスの分類も提供する。
論文 参考訳(メタデータ) (2022-07-18T21:05:39Z) - RIFLE: Imputation and Robust Inference from Low Order Marginals [10.082738539201804]
我々は,不備なデータの存在下での回帰と分類のための統計的推論フレームワークを開発する。
我々のフレームワークであるRIFLEは、基礎となるデータ分布の低次モーメントを対応する信頼区間で推定し、分布的に堅牢なモデルを学ぶ。
実験の結果,RIFLEは,欠落値の割合が高い場合や,データポイント数が比較的小さい場合には,他のベンチマークアルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-09-01T23:17:30Z) - Evaluating State-of-the-Art Classification Models Against Bayes
Optimality [106.50867011164584]
正規化フローを用いて学習した生成モデルのベイズ誤差を正確に計算できることを示す。
われわれの手法を用いて、最先端の分類モデルについて徹底的な調査を行う。
論文 参考訳(メタデータ) (2021-06-07T06:21:20Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - Model-based metrics: Sample-efficient estimates of predictive model
subpopulation performance [11.994417027132807]
健康状態の表示、診断、予測のために現在一般的に開発されている機械学習モデル$-$は、様々なパフォーマンス指標で評価される。
サブ集団のパフォーマンスメトリクスは、通常、そのサブグループのデータのみを使用して計算されるため、より小さなグループに対する分散推定が高くなる。
本稿では,予測モデルスコアの条件分布を記述した評価モデル$-$を用いて,モデルベース計量(MBM)の推定値を生成する。
論文 参考訳(メタデータ) (2021-04-25T19:06:34Z) - Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。
我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。
その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2020-10-12T03:27:07Z) - Unbiased and Efficient Log-Likelihood Estimation with Inverse Binomial
Sampling [9.66840768820136]
逆二項サンプリング(IBS)は、データセット全体のログ類似度を、バイアスなく効率的に推定することができる。
IBSは、推定パラメータと最大対数類似値において、代替サンプリング法よりも低い誤差を生成する。
論文 参考訳(メタデータ) (2020-01-12T19:51:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。