論文の概要: Evaluating tree-based imputation methods as an alternative to MICE PMM
for drawing inference in empirical studies
- arxiv url: http://arxiv.org/abs/2401.09602v1
- Date: Wed, 17 Jan 2024 21:28:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-19 18:33:49.605077
- Title: Evaluating tree-based imputation methods as an alternative to MICE PMM
for drawing inference in empirical studies
- Title(参考訳): MICE PMMの代替として樹木を用いた倒立法の評価 : 実証的研究
- Authors: Jakob Schwerter, Ketevan Gurtskaia, Andr\'es Romero, Birgit
Zeyer-Gliozzo, Markus Pauly
- Abstract要約: 欠落したデータを扱うことは、しばしば計算手順で対処される統計解析において重要な問題である。
予測平均マッチング(PMM)を用いた連鎖方程式による多重計算の一般的な方法は、社会科学文献において標準とされている。
特に、木に基づく計算手法は、非常に競争力のあるアプローチとして現れてきた。
- 参考スコア(独自算出の注目度): 0.5892638927736115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dealing with missing data is an important problem in statistical analysis
that is often addressed with imputation procedures. The performance and
validity of such methods are of great importance for their application in
empirical studies. While the prevailing method of Multiple Imputation by
Chained Equations (MICE) with Predictive Mean Matching (PMM) is considered
standard in the social science literature, the increase in complex datasets may
require more advanced approaches based on machine learning. In particular,
tree-based imputation methods have emerged as very competitive approaches.
However, the performance and validity are not completely understood,
particularly compared to the standard MICE PMM. This is especially true for
inference in linear models. In this study, we investigate the impact of various
imputation methods on coefficient estimation, Type I error, and power, to gain
insights that can help empirical researchers deal with missingness more
effectively. We explore MICE PMM alongside different tree-based methods, such
as MICE with Random Forest (RF), Chained Random Forests with and without PMM
(missRanger), and Extreme Gradient Boosting (MIXGBoost), conducting a realistic
simulation study using the German National Educational Panel Study (NEPS) as
the original data source. Our results reveal that Random Forest-based
imputations, especially MICE RF and missRanger with PMM, consistently perform
better in most scenarios. Standard MICE PMM shows partially increased bias and
overly conservative test decisions, particularly with non-true zero
coefficients. Our results thus underscore the potential advantages of
tree-based imputation methods, albeit with a caveat that all methods perform
worse with an increased missingness, particularly missRanger.
- Abstract(参考訳): 欠落したデータの処理は、しばしば計算手順で対処される統計解析において重要な問題である。
このような手法の性能と妥当性は、実証研究の応用において非常に重要である。
分岐方程式(MICE)と予測平均マッチング(PMM)は社会科学文献において一般的な方法であるが、複雑なデータセットの増加は機械学習に基づくより高度なアプローチを必要とする可能性がある。
特に、木に基づくインプテーション手法は、非常に競争的なアプローチとして現れてきた。
しかし、その性能と妥当性は、特に標準のMICE PMMと比較して完全には理解されていない。
これは特に線形モデルにおける推論に当てはまる。
本研究では,様々なインプテーション手法が係数推定,i型誤差,パワーに与える影響を調査し,経験的研究者がより効果的に欠如に対処できる洞察を得る。
MICE PMMは,MICE with Random Forest (RF), Chained Random Forests with and without PMM (missRanger), Extreme Gradient Boosting (MIXGBoost) と並んで,ドイツ国立教育パネル研究 (NEPS) を原資料としてリアルなシミュレーション研究を行っている。
以上の結果から,ランダムフォレストをベースとした障害,特にMICE RFとMICE RFとミスランガーは,ほとんどのシナリオにおいて一貫して改善されていることがわかった。
標準MICE PMMは偏見と過度に保守的なテスト決定、特に非真のゼロ係数を示す。
以上の結果から,木をベースとした計算手法の潜在的な利点は,すべての手法が欠落,特にMissRangerの欠如により悪化することを示す。
関連論文リスト
- A Gradient Analysis Framework for Rewarding Good and Penalizing Bad Examples in Language Models [63.949883238901414]
本稿では,損失関数の勾配解析の特異な角度について述べる。
ExMATEはMLEの優れたサロゲートであり,DPOとMLEの代わりにExMATEを組み合わせることで,統計的(5-7%)と生成的(+18%)の性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-29T17:46:18Z) - Improving Bias Correction Standards by Quantifying its Effects on Treatment Outcomes [54.18828236350544]
Propensity score matching (PSM) は、分析のために同等の人口を選択することで選択バイアスに対処する。
異なるマッチング手法は、すべての検証基準を満たす場合でも、同じタスクに対する平均処理効果(ATE)を著しく異なるものにすることができる。
この問題に対処するため,新しい指標A2Aを導入し,有効試合数を削減した。
論文 参考訳(メタデータ) (2024-07-20T12:42:24Z) - Querying Easily Flip-flopped Samples for Deep Active Learning [63.62397322172216]
アクティブラーニング(英: Active Learning)は、ラベルのないデータを戦略的に選択してクエリすることで、モデルの性能を向上させることを目的とした機械学習パラダイムである。
効果的な選択戦略の1つはモデルの予測の不確実性に基づくもので、サンプルがどの程度情報的であるかの尺度として解釈できる。
本稿では,予測されたラベルの不一致の最小確率として,最小不一致距離(LDM)を提案する。
論文 参考訳(メタデータ) (2024-01-18T08:12:23Z) - Sparse high-dimensional linear mixed modeling with a partitioned empirical Bayes ECM algorithm [41.25603565852633]
この研究は、高次元LMMに対する効率的かつ正確なベイズ的枠組みを示す。
このアプローチの斬新さは、パーティショニングとパラメータ拡張と、高速でスケーラブルな計算にある。
実世界の例では、小児のループスの研究データを用いて、新しいループスバイオマーカーに関連する遺伝子と臨床因子を特定し、時間とともにバイオマーカーを予測する。
論文 参考訳(メタデータ) (2023-10-18T19:34:56Z) - B-Learner: Quasi-Oracle Bounds on Heterogeneous Causal Effects Under
Hidden Confounding [51.74479522965712]
本稿では,B-Learnerと呼ばれるメタラーナーを提案する。
我々は、その推定が有効で、鋭く、効率的であることを証明し、既存の方法よりも一般的な条件下で構成推定器に対して準オーラル特性を持つことを示した。
論文 参考訳(メタデータ) (2023-04-20T18:07:19Z) - In Search of Insights, Not Magic Bullets: Towards Demystification of the
Model Selection Dilemma in Heterogeneous Treatment Effect Estimation [92.51773744318119]
本稿では,異なるモデル選択基準の長所と短所を実験的に検討する。
選択戦略,候補推定器,比較に用いるデータの間には,複雑な相互作用があることを強調した。
論文 参考訳(メタデータ) (2023-02-06T16:55:37Z) - Tradeoffs of Linear Mixed Models in Genome-wide Association Studies [18.560273425572582]
ゲノムワイド・アソシエーション研究(GWAS)に応用した線形混合モデル(LMM)の統計的性質について検討する。
まず,LMMの親和性行列への候補SNPの導入に対する感度について検討する。
第2に、混合モデルが従来の手法よりもLMMの利点として広く受け入れられているGWASの共創者を補正する方法について検討する。
論文 参考訳(メタデータ) (2021-11-05T22:05:59Z) - Counterfactual Maximum Likelihood Estimation for Training Deep Networks [83.44219640437657]
深層学習モデルは、予測的手がかりとして学習すべきでない急激な相関を学習する傾向がある。
本研究では,観測可能な共同設立者による相関関係の緩和を目的とした因果関係に基づくトレーニングフレームワークを提案する。
自然言語推論(NLI)と画像キャプションという2つの実世界の課題について実験を行った。
論文 参考訳(メタデータ) (2021-06-07T17:47:16Z) - Variable selection with missing data in both covariates and outcomes:
Imputation and machine learning [1.0333430439241666]
欠落したデータ問題は、健康研究で普遍的です。
機械学習はパラメトリックな仮定を弱める。
XGBoostとBARTは、さまざまな設定で最高のパフォーマンスを発揮します。
論文 参考訳(メタデータ) (2021-04-06T20:18:29Z) - Are deep learning models superior for missing data imputation in large
surveys? Evidence from an empirical comparison [5.994312110645453]
マルチプルインプテーション(Multiple imputation、MI)は、サンプル調査における非応答性に起因する欠落データを扱うための最先端のアプローチです。
深層学習モデルに基づく最近のMI手法は、小さな研究の成果を奨励して開発されています。
本稿では,実測データに基づくシミュレーションのフレームワークと,MI手法を比較するための性能指標について述べる。
論文 参考訳(メタデータ) (2021-03-14T16:24:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。