論文の概要: Empirical Analysis of Model Selection for Heterogenous Causal Effect
Estimation
- arxiv url: http://arxiv.org/abs/2211.01939v1
- Date: Thu, 3 Nov 2022 16:26:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 13:01:47.709203
- Title: Empirical Analysis of Model Selection for Heterogenous Causal Effect
Estimation
- Title(参考訳): 異種因果効果推定のためのモデル選択の実証分析
- Authors: Divyat Mahajan, Ioannis Mitliagkas, Brady Neal, Vasilis Syrgkanis
- Abstract要約: 因果推論におけるモデル選択の問題,特に2次的治療下での条件平均治療効果(CATE)推定について検討した。
機械学習におけるモデル選択とは異なり、あらゆるデータポイントに対する反現実的な潜在的結果を観察しないため、ここではクロスバリデーションのテクニックを使用することはできない。
- 参考スコア(独自算出の注目度): 28.408998847597882
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of model selection in causal inference, specifically for
the case of conditional average treatment effect (CATE) estimation under binary
treatments. Unlike model selection in machine learning, we cannot use the
technique of cross-validation here as we do not observe the counterfactual
potential outcome for any data point. Hence, we need to design model selection
techniques that do not explicitly rely on counterfactual data. As an
alternative to cross-validation, there have been a variety of proxy metrics
proposed in the literature, that depend on auxiliary nuisance models also
estimated from the data (propensity score model, outcome regression model).
However, the effectiveness of these metrics has only been studied on synthetic
datasets as we can observe the counterfactual data for them. We conduct an
extensive empirical analysis to judge the performance of these metrics, where
we utilize the latest advances in generative modeling to incorporate multiple
realistic datasets. We evaluate 9 metrics on 144 datasets for selecting between
415 estimators per dataset, including datasets that closely mimic real-world
datasets. Further, we use the latest techniques from AutoML to ensure
consistent hyperparameter selection for nuisance models for a fair comparison
across metrics.
- Abstract(参考訳): 因果推論におけるモデル選択の問題,特に2次的治療下での条件平均治療効果(CATE)推定について検討した。
機械学習におけるモデル選択とは異なり、あらゆるデータポイントに対する反実的ポテンシャルの結果を観察しないため、ここではクロスバリデーションのテクニックを使用することはできない。
したがって、反事実データに明示的に依存しないモデル選択手法を設計する必要がある。
クロスバリデーションの代替として,データから推定される補助的ニュアサンスモデル(確率スコアモデル,結果回帰モデル)に依存する様々な指標が文献に提案されている。
しかし、これらの指標の有効性は、それらの反事実データを観察できるため、合成データセットでのみ研究されている。
我々は、これらの指標の性能を判断するために広範な実証分析を行い、生成モデルの最新技術を活用し、複数の現実的なデータセットを組み込む。
実際のデータセットを忠実に模倣するデータセットを含む、データセット毎に415の推定値を選択するために、144データセットの9つのメトリクスを評価した。
さらに、AutoMLの最新技術を用いて、ニュアンスモデルに対する一貫したハイパーパラメータ選択を、メトリクス間で公平に比較する。
関連論文リスト
- In Search of Insights, Not Magic Bullets: Towards Demystification of the
Model Selection Dilemma in Heterogeneous Treatment Effect Estimation [92.51773744318119]
本稿では,異なるモデル選択基準の長所と短所を実験的に検討する。
選択戦略,候補推定器,比較に用いるデータの間には,複雑な相互作用があることを強調した。
論文 参考訳(メタデータ) (2023-02-06T16:55:37Z) - A prediction and behavioural analysis of machine learning methods for
modelling travel mode choice [0.26249027950824505]
我々は、モデル選択に影響を及ぼす可能性のある重要な要因の観点から、複数のモデリング問題に対して異なるモデリングアプローチを体系的に比較する。
その結果,非凝集性予測性能が最も高いモデルでは,行動指標やアグリゲーションモードのシェアが低下することが示唆された。
MNLモデルは様々な状況において堅牢に機能するが、ML手法はWillingness to Payのような行動指標の推定を改善することができる。
論文 参考訳(メタデータ) (2023-01-11T11:10:32Z) - Out-of-sample scoring and automatic selection of causal estimators [0.0]
本稿では,CATEの場合と器楽変数問題の重要な部分集合に対する新しいスコアリング手法を提案する。
私たちはそれを、DoWhyとEconMLライブラリに依存するオープンソースパッケージで実装しています。
論文 参考訳(メタデータ) (2022-12-20T08:29:18Z) - Data-Driven Sample Average Approximation with Covariate Information [0.0]
我々は、コパラメトリックの同時観測とともに、最適化モデル内の不確実なパラメータの観測を行う際に、データ駆動意思決定のための最適化について検討する。
本稿では,機械学習予測モデルをプログラムサンプル平均近似(SAA)に組み込んだ3つのデータ駆動フレームワークについて検討する。
論文 参考訳(メタデータ) (2022-07-27T14:45:04Z) - Mixed Effects Neural ODE: A Variational Approximation for Analyzing the
Dynamics of Panel Data [50.23363975709122]
パネルデータ解析に(固定・ランダムな)混合効果を取り入れたME-NODEという確率モデルを提案する。
我々は、Wong-Zakai定理によって提供されるSDEの滑らかな近似を用いて、我々のモデルを導出できることを示す。
次に、ME-NODEのためのエビデンスに基づく下界を導出し、(効率的な)トレーニングアルゴリズムを開発する。
論文 参考訳(メタデータ) (2022-02-18T22:41:51Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Nonparametric Functional Analysis of Generalized Linear Models Under
Nonlinear Constraints [0.0]
本稿では、一般化線形モデルのための新しい非パラメトリック方法論を紹介する。
これは二項回帰の強さとカテゴリーデータに対する潜在変数の定式化の強さを組み合わせたものである。
これは最近公開された方法論のパラメトリックバージョンを拡張し、一般化する。
論文 参考訳(メタデータ) (2021-10-11T04:49:59Z) - A non-asymptotic penalization criterion for model selection in mixture
of experts models [1.491109220586182]
ガウス型局所化moe(glome)回帰モデルを用いて異種データをモデル化する。
このモデルは、統計的推定とモデル選択の問題に関して難しい疑問を提起する。
本稿では,GLoMEモデルの成分数を推定する問題について,最大推定法を用いて検討する。
論文 参考訳(メタデータ) (2021-04-06T16:24:55Z) - Selecting Treatment Effects Models for Domain Adaptation Using Causal
Knowledge [82.5462771088607]
監視されていないドメイン適応設定下でITE法用に特別に設計された新しいモデル選択メトリックを提案する。
特に,介入効果の予測が対象領域の既知の因果構造を満たすモデルを選択することを提案する。
論文 参考訳(メタデータ) (2021-02-11T21:03:14Z) - Performance metrics for intervention-triggering prediction models do not
reflect an expected reduction in outcomes from using the model [71.9860741092209]
臨床研究者はしばしばリスク予測モデルの中から選択し評価する。
振り返りデータから算出される標準メトリクスは、特定の仮定の下でのみモデルユーティリティに関係します。
予測が時間を通して繰り返し配信される場合、標準メトリクスとユーティリティの関係はさらに複雑になる。
論文 参考訳(メタデータ) (2020-06-02T16:26:49Z) - Machine learning for causal inference: on the use of cross-fit
estimators [77.34726150561087]
より優れた統計特性を得るために、二重ローバストなクロスフィット推定器が提案されている。
平均因果効果(ACE)に対する複数の推定器の性能評価のためのシミュレーション研究を行った。
機械学習で使用する場合、二重確率のクロスフィット推定器は、バイアス、分散、信頼区間のカバレッジで他のすべての推定器よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-04-21T23:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。