論文の概要: Real vs. Semi-Simulated: Rethinking Evaluation for Treatment Effect Estimation
- arxiv url: http://arxiv.org/abs/2605.10430v1
- Date: Mon, 11 May 2026 12:04:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.790861
- Title: Real vs. Semi-Simulated: Rethinking Evaluation for Treatment Effect Estimation
- Title(参考訳): Real vs. Semi-Simulated: Rethinking Evaluation for Treatment Effect Estimation
- Authors: George Panagopoulos,
- Abstract要約: 我々は、標準的な半シミュレーションされたベンチマークファミリーと実世界のデータセット間で、治療効果の評価に関する大規模な実証的研究を行う。
本稿では,アプリケーション指向の文献に共通する可観測測値と,メソッド論文でよく使用される対実測値を用いて,これらの手法を評価する。
- 参考スコア(独自算出の注目度): 1.286026162904759
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Estimating heterogeneous treatment effects with machine learning has attracted substantial attention in both academic research and industrial practice. However, the two communities often evaluate models under markedly different conditions. Methodological work typically relies on semi-simulated benchmarks and metrics that require counterfactual outcomes, whereas real-world applications rely on observable metrics based on ranking or test outcomes. Despite the well-known gap between methodological progress and practical deployment, the relationship between these evaluation regimes has not been examined systematically. We conduct a large-scale empirical study of treatment effect evaluation across standard semi-simulated benchmark families and real-world datasets. Our benchmark covers meta-learners paired with multiple base learners, as well as specialized causal machine learning models. We evaluate these methods using observable metrics common in application-oriented literature, alongside counterfactual metrics commonly used in methods papers. Our results reveal two complementary gaps. First, counterfactual metrics do not reliably recover the estimators preferred by observable metrics, even on the same semi-simulated benchmarks. Second, rankings obtained on semi-simulated benchmarks do not transfer to real datasets. We further find that simple meta-learners with strong base models are consistently competitive, in contrast to specialized causal models. Overall, our findings suggest that progress in treatment effect estimation research should not be assessed solely through counterfactual metrics and semi-simulated benchmarks, but it would benefit from incorporating observable metrics and real-data validation.
- Abstract(参考訳): 機械学習による異種治療効果の推定は、学術研究と産業実践の両方において大きな注目を集めている。
しかし、2つのコミュニティは、しばしば著しく異なる条件下でモデルを評価する。
方法論的な作業は通常、カウンターファクトな結果を必要とする半シミュレートされたベンチマークとメトリクスに依存しますが、現実のアプリケーションはランキングやテスト結果に基づいた観測可能なメトリクスに依存しています。
方法論的進歩と実践的展開の間にはよく知られたギャップがあるにもかかわらず、これらの評価体制との関係は体系的に検討されていない。
我々は、標準的な半シミュレーションされたベンチマークファミリーと実世界のデータセット間で、治療効果の評価に関する大規模な実証的研究を行う。
本ベンチマークでは,複数のベースラーナーと組み合わせたメタラーナーと,特殊な因果学習モデルについて検討する。
本稿では,アプリケーション指向の文献に共通する可観測測値と,メソッド論文でよく使用される対実測値を用いて,これらの手法を評価する。
以上の結果から2つの相補的ギャップが明らかとなった。
第一に、カウンターファクトメトリクスは、同じ半シミュレートされたベンチマークでさえ、観測可能なメトリクスに好まれる推定器を確実に回復しない。
第2に、セミシミュレートされたベンチマークで得られたランキングは、実際のデータセットに転送されない。
さらに、強力なベースモデルを持つ単純なメタラーナーは、特別な因果モデルとは対照的に、一貫して競争力があることがわかった。
以上の結果から, 治療効果評価研究の進展は, 対策指標と半シミュレーションベンチマークのみで評価すべきではなく, 観測可能な指標と実データ検証を取り入れることのメリットが示唆された。
関連論文リスト
- Revisiting OmniAnomaly for Anomaly Detection: performance metrics and comparison with PCA-based models [0.08155575318208629]
この研究は、MSSADの広く使われているリカレントモデルであるOmniAnomalyを再検討し、主成分分析に基づく単純な線形ベースラインと比較する。
どちらの手法もしきい値と評価手順で評価され、データセット内の28台のマシン毎に100回のラン毎に実験が繰り返される。
その結果,OmniAnomalyに匹敵する性能を達成でき,点調整が適用されない場合にも性能が向上することを示した。
論文 参考訳(メタデータ) (2026-03-19T14:54:38Z) - Reference-Specific Unlearning Metrics Can Hide the Truth: A Reality Check [60.77691669644931]
本研究では,非学習モデルと参照モデル間の分布類似度を測定する新しい尺度であるFADE(Functional Alignment for Distributional Equivalence)を提案する。
FADEは出力分布全体の機能的アライメントをキャプチャし、真の未学習の原則的評価を提供する。
これらの知見は、現在の評価実践における根本的なギャップを明らかにし、FADEが真に効果的な未学習手法を開発し評価するための、より堅牢な基盤を提供することを示した。
論文 参考訳(メタデータ) (2025-10-14T20:50:30Z) - How NOT to benchmark your SITE metric: Beyond Static Leaderboards and Towards Realistic Evaluation [11.33816414982401]
伝達可能性推定メトリクスは、与えられた目標タスクに対して高い性能の事前訓練されたモデルを見つけるために使用される。
このようなメトリクスの開発に対する関心が高まっているにもかかわらず、彼らの進捗を測るベンチマークは、ほとんど検討されていない。
これらの指標が評価されるベンチマークには、根本的な欠陥がある、と我々は主張する。
論文 参考訳(メタデータ) (2025-10-07T20:38:12Z) - Testing Generalizability in Causal Inference [3.547529079746247]
機械学習アルゴリズムの一般化性を統計的に評価するための公式な手続きは存在しない。
本研究では,高次元因果推論モデルの一般化可能性を統計的に評価するための体系的枠組みを提案する。
論文 参考訳(メタデータ) (2024-11-05T11:44:00Z) - A Large-Scale Neutral Comparison Study of Survival Models on Low-Dimensional Data [7.199059106376138]
この研究は、単一イベント、右検閲、低次元生存データに焦点を当てた最初の大規模な中性ベンチマーク実験を示す。
我々は、32の公開データセット上で、古典的な統計的アプローチから多くの一般的な機械学習手法まで、18のモデルをベンチマークした。
論文 参考訳(メタデータ) (2024-06-06T14:13:38Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - Systematic Evaluation of Predictive Fairness [60.0947291284978]
バイアス付きデータセットのトレーニングにおけるバイアスの緩和は、重要なオープンな問題である。
複数のタスクにまたがる様々なデバイアス化手法の性能について検討する。
データ条件が相対モデルの性能に強い影響を与えることがわかった。
論文 参考訳(メタデータ) (2022-10-17T05:40:13Z) - Doing Great at Estimating CATE? On the Neglected Assumptions in
Benchmark Comparisons of Treatment Effect Estimators [91.3755431537592]
もっとも単純な設定であっても、無知性仮定に基づく推定は誤解を招く可能性があることを示す。
異種処理効果評価のための機械学習ベンチマークデータセットを2つ検討した。
ベンチマークデータセットの固有の特性が、他のものよりもいくつかのアルゴリズムを好んでいる点を強調します。
論文 参考訳(メタデータ) (2021-07-28T13:21:27Z) - Performance metrics for intervention-triggering prediction models do not
reflect an expected reduction in outcomes from using the model [71.9860741092209]
臨床研究者はしばしばリスク予測モデルの中から選択し評価する。
振り返りデータから算出される標準メトリクスは、特定の仮定の下でのみモデルユーティリティに関係します。
予測が時間を通して繰り返し配信される場合、標準メトリクスとユーティリティの関係はさらに複雑になる。
論文 参考訳(メタデータ) (2020-06-02T16:26:49Z) - Machine learning for causal inference: on the use of cross-fit
estimators [77.34726150561087]
より優れた統計特性を得るために、二重ローバストなクロスフィット推定器が提案されている。
平均因果効果(ACE)に対する複数の推定器の性能評価のためのシミュレーション研究を行った。
機械学習で使用する場合、二重確率のクロスフィット推定器は、バイアス、分散、信頼区間のカバレッジで他のすべての推定器よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-04-21T23:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。