論文の概要: Do Contemporary Causal Inference Models Capture Real-World Heterogeneity? Findings from a Large-Scale Benchmark
- arxiv url: http://arxiv.org/abs/2410.07021v2
- Date: Thu, 20 Feb 2025 04:09:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:25:58.829094
- Title: Do Contemporary Causal Inference Models Capture Real-World Heterogeneity? Findings from a Large-Scale Benchmark
- Title(参考訳): 現代の因果推論モデルは実世界の不均一性を捉えるか?
- Authors: Haining Yu, Yizhou Sun,
- Abstract要約: 本研究では,条件平均処理効果(CATE)推定アルゴリズムを大規模ベンチマークで評価し,予期せぬ結果を示す。
CATE推定の62%は、自明なゼロエフェクト予測器よりも平均正方形誤差(MSE)が高く、非効率であることがわかった。
これらの結果は、現在のCATEモデルにおける重要な課題を浮き彫りにして、より広範な評価と方法論的改善の必要性を浮き彫りにしている。
- 参考スコア(独自算出の注目度): 39.06952509635041
- License:
- Abstract: We present unexpected findings from a large-scale benchmark study evaluating Conditional Average Treatment Effect (CATE) estimation algorithms, i.e., CATE models. By running 16 modern CATE models on 12 datasets and 43,200 sampled variants generated through diverse observational sampling strategies, we find that: (a) 62\% of CATE estimates have a higher Mean Squared Error (MSE) than a trivial zero-effect predictor, rendering them ineffective; (b) in datasets with at least one useful CATE estimate, 80\% still have higher MSE than a constant-effect model; and (c) Orthogonality-based models outperform other models only 30\% of the time, despite widespread optimism about their performance. These findings highlight significant challenges in current CATE models and underscore the need for broader evaluation and methodological improvements. Our findings stem from a novel application of \textit{observational sampling}, originally developed to evaluate Average Treatment Effect (ATE) estimates from observational methods with experiment data. To adapt observational sampling for CATE evaluation, we introduce a statistical parameter, $Q$, equal to MSE minus a constant and preserves the ranking of models by their MSE. We then derive a family of sample statistics, collectively called $\hat{Q}$, that can be computed from real-world data. When used in observational sampling, $\hat{Q}$ is an unbiased estimator of $Q$ and asymptotically selects the model with the smallest MSE. To ensure the benchmark reflects real-world heterogeneity, we handpick datasets where outcomes come from field rather than simulation. By integrating observational sampling, new statistics, and real-world datasets, the benchmark provides new insights into CATE model performance and reveals gaps in capturing real-world heterogeneity, emphasizing the need for more robust benchmarks.
- Abstract(参考訳): 我々は,条件平均処理効果(CATE)推定アルゴリズム,すなわちCATEモデルを評価する大規模ベンチマークによる予期せぬ結果を示す。
12のデータセットで16の現代的なCATEモデルと43,200のサンプルモデルを実行することで、次のようなことが分かる。
(a)CATE推定の62\%は、自明なゼロエフェクト予測器よりも平均正方形誤差(MSE)が高く、非効率である。
(b)少なくとも1つの有用なCATE推定値を持つデータセットでは、80 % は定数効果モデルよりも MSE が高い。
(c)直交性に基づくモデルは、その性能に対する楽観的評価にもかかわらず、他のモデルよりもわずか30%優れていた。
これらの結果は、現在のCATEモデルにおける重要な課題を浮き彫りにして、より広範な評価と方法論的改善の必要性を浮き彫りにしている。
本研究は,実験データを用いた観測方法から平均処理効果(ATE)の推定値を評価するために開発された,textit{observational sample} の新規な応用に起因している。
CATE評価に観測サンプリングを適用するために,MSE の定数に等しい統計パラメータ $Q$ を導入し,MSE によるモデルのランキングを維持する。
次に、実世界のデータから計算できるサンプル統計のファミリである$\hat{Q}$を導出する。
観測サンプリングで使用される場合、$\hat{Q}$ は $Q$ の偏りのない推定器であり、漸近的に最小の MSE でモデルを選択する。
ベンチマークが実世界の不均一性を反映することを保証するため、シミュレーションではなくフィールドから結果が得られたデータセットをハンドピックする。
観察的なサンプリング、新しい統計、実世界のデータセットを統合することで、ベンチマークはCATEモデルのパフォーマンスに関する新たな洞察を提供し、より堅牢なベンチマークの必要性を強調しながら、現実世界の不均一性をキャプチャするギャップを明らかにする。
関連論文リスト
- Supervised Score-Based Modeling by Gradient Boosting [49.556736252628745]
本稿では,スコアマッチングを組み合わせた勾配向上アルゴリズムとして,SSM(Supervised Score-based Model)を提案する。
推測時間と予測精度のバランスをとるため,SSMの学習とサンプリングに関する理論的解析を行った。
我々のモデルは、精度と推測時間の両方で既存のモデルより優れています。
論文 参考訳(メタデータ) (2024-11-02T07:06:53Z) - Precise Model Benchmarking with Only a Few Observations [6.092112060364272]
本稿では,各サブグループの直接推定と回帰推定を個別にバランスする経験的ベイズ推定器を提案する。
EBは、直接的および回帰的アプローチと比較して、LCM性能のより正確な推定を一貫して提供する。
論文 参考訳(メタデータ) (2024-10-07T17:26:31Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Data-Driven Sample Average Approximation with Covariate Information [0.0]
我々は、コパラメトリックの同時観測とともに、最適化モデル内の不確実なパラメータの観測を行う際に、データ駆動意思決定のための最適化について検討する。
本稿では,機械学習予測モデルをプログラムサンプル平均近似(SAA)に組み込んだ3つのデータ駆動フレームワークについて検討する。
論文 参考訳(メタデータ) (2022-07-27T14:45:04Z) - fETSmcs: Feature-based ETS model component selection [8.99236558175168]
シミュレーションデータに基づく分類器の訓練によるETSモデル選択の効率的な手法を提案し, 与えられた時系列に対する適切なモデル成分の予測を行う。
提案手法は,広く使用されている予測競合データセットM4に対して,点予測と予測間隔の両面から評価する。
論文 参考訳(メタデータ) (2022-06-26T13:52:43Z) - RIFLE: Imputation and Robust Inference from Low Order Marginals [10.082738539201804]
我々は,不備なデータの存在下での回帰と分類のための統計的推論フレームワークを開発する。
我々のフレームワークであるRIFLEは、基礎となるデータ分布の低次モーメントを対応する信頼区間で推定し、分布的に堅牢なモデルを学ぶ。
実験の結果,RIFLEは,欠落値の割合が高い場合や,データポイント数が比較的小さい場合には,他のベンチマークアルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-09-01T23:17:30Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - Model-based metrics: Sample-efficient estimates of predictive model
subpopulation performance [11.994417027132807]
健康状態の表示、診断、予測のために現在一般的に開発されている機械学習モデル$-$は、様々なパフォーマンス指標で評価される。
サブ集団のパフォーマンスメトリクスは、通常、そのサブグループのデータのみを使用して計算されるため、より小さなグループに対する分散推定が高くなる。
本稿では,予測モデルスコアの条件分布を記述した評価モデル$-$を用いて,モデルベース計量(MBM)の推定値を生成する。
論文 参考訳(メタデータ) (2021-04-25T19:06:34Z) - Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。
我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。
その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2020-10-12T03:27:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。