論文の概要: Adapting tree-based multiple imputation methods for multi-level data? A simulation study
- arxiv url: http://arxiv.org/abs/2401.14161v2
- Date: Wed, 19 Mar 2025 22:03:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 19:00:33.139468
- Title: Adapting tree-based multiple imputation methods for multi-level data? A simulation study
- Title(参考訳): 多レベルデータに対する木に基づく多重計算手法の適用 : シュミレーションスタディ
- Authors: Nico Föge, Jakob Schwerter, Ketevan Gurtskaia, Markus Pauly, Philipp Doebler,
- Abstract要約: 木に基づく計算法は、観測間の独立を暗黙的に仮定する。
オルタナティブツリーベースのアプローチは、個々のレベルのデータに対して有望であるが、階層的な文脈では探索されていない。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: When data have a hierarchical structure, such as students nested within classrooms, ignoring dependencies between observations can compromise the validity of imputation procedures. Standard tree-based imputation methods implicitly assume independence between observations, limiting their applicability in multilevel data settings. Although Multivariate Imputation by Chained Equations (MICE) is widely used for hierarchical data, it has limitations, including sensitivity to model specification and computational complexity. Alternative tree-based approaches have shown promise for individual-level data, but remain largely unexplored for hierarchical contexts. In this simulation study, we systematically evaluate the performance of novel tree-based methods--Chained Random Forests and Extreme Gradient Boosting (mixgb)--explicitly adapted for multi-level data by incorporating dummy variables indicating cluster membership. We compare these tree-based methods and their adapted versions with traditional MICE imputation in terms of coefficient estimation bias, type I error rates and statistical power, under different cluster sizes, missingness mechanisms and missingness rates, using both random intercept and random slope data generation models. The results show that MICE provides robust and accurate inference for level 2 variables, especially at low missingness rates. However, the adapted boosting approach (mixgb with cluster dummies) consistently outperforms other methods for Level-1 variables at higher missingness rates (30%, 50%). For level 2 variables, while MICE retains better power at moderate missingness (30%), adapted boosting becomes superior at high missingness (50%), regardless of the missingness mechanism or cluster size. These findings highlight the potential of appropriately adapted tree-based imputation methods as effective alternatives to conventional MICE in multilevel data analyses.
- Abstract(参考訳): データが教室内にネストされた学生のような階層構造を持つ場合、観察間の依存関係を無視することは、計算手順の有効性を損なう可能性がある。
標準的なツリーベースの計算手法は、観測間の独立性を暗黙的に仮定し、多レベルデータ設定における適用性を制限している。
MICE(Multivarate Imputation by Chained Equations)は階層データに広く使われているが、モデル仕様に対する感度や計算複雑性などの制限がある。
オルタナティブツリーベースのアプローチは、個々のレベルのデータに対して有望であるが、階層的な文脈では探索されていない。
本研究では, 群集構成を示すダミー変数を組み込むことにより, マルチレベルデータに適用し, 木質林と過度重力増進法(mixgb)を系統的に評価する。
我々は,これらの木に基づく手法とそれらの適応バージョンを,予測バイアス,タイプI誤差率,統計パワーの観点から従来のMICE計算法と比較し,ランダムインターセプトモデルとランダムスロープデータ生成モデルの両方を用いて,異なるクラスタサイズ,欠落機構および欠落率で比較した。
その結果,MICEはレベル2変数,特に欠落率の低いレベル2変数に対して,頑健かつ正確な推論を提供することがわかった。
しかし、適応的なブースティングアプローチ(クラスタダミーとの混合gb)は、より高い欠落率(30%、50%)でレベル1変数の他の方法よりも一貫して優れている。
レベル2の変数では、MICEは適度な欠落(30%)で優れたパワーを維持するが、適応的なブーストは、欠落機構やクラスタサイズに関わらず、高い欠落(50%)で優れている。
これらの知見は,マルチレベルデータ解析における従来のMICEの代替手段として,適切に適応されたツリーベースの計算手法の可能性を強調した。
関連論文リスト
- Adaptive Sampled Softmax with Inverted Multi-Index: Methods, Theory and Applications [79.53938312089308]
MIDX-Samplerは、逆多重インデックスアプローチに基づく新しい適応型サンプリング戦略である。
本手法は, サンプリングバイアス, 勾配バイアス, 収束速度, 一般化誤差境界などの重要な問題に対処するため, 厳密な理論的解析によって裏付けられている。
論文 参考訳(メタデータ) (2025-01-15T04:09:21Z) - Mitigating covariate shift in non-colocated data with learned parameter priors [0.0]
textitFragmentation-induced co-shift remediation(FIcsR$)は、フラグメントの共変量分布と標準クロスバリデーションベースラインとの$f$-divergenceを最小限にする。
複数のデータクラス、40ドル以上のデータセット、および複数のシーケンス長にわたってバッチ化されたデータに対して、広範な分類実験を行います。
バッチとフォールド・オブ・ザ・アーティファクトに対する精度は、それぞれ5%以上と10%以上向上している。
論文 参考訳(メタデータ) (2024-11-10T15:48:29Z) - Evaluating tree-based imputation methods as an alternative to MICE PMM
for drawing inference in empirical studies [0.5892638927736115]
欠落したデータを扱うことは、しばしば計算手順で対処される統計解析において重要な問題である。
予測平均マッチング(PMM)を用いた連鎖方程式による多重計算の一般的な方法は、社会科学文献において標準とされている。
特に、木に基づく計算手法は、非常に競争力のあるアプローチとして現れてきた。
論文 参考訳(メタデータ) (2024-01-17T21:28:00Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - Compound Batch Normalization for Long-tailed Image Classification [77.42829178064807]
本稿では,ガウス混合に基づく複合バッチ正規化法を提案する。
機能空間をより包括的にモデル化し、ヘッドクラスの優位性を減らすことができる。
提案手法は,画像分類における既存の手法よりも優れている。
論文 参考訳(メタデータ) (2022-12-02T07:31:39Z) - Distributional Adaptive Soft Regression Trees [0.0]
本稿では,多変量ソフトスプリットルールを用いた分布回帰木の新しいタイプを提案する。
ソフトスプリットの大きな利点の1つは、滑らかな高次元函数を1つの木で見積もることができることである。
シミュレーションにより,アルゴリズムは優れた特性を有し,様々なベンチマーク手法より優れていることを示す。
論文 参考訳(メタデータ) (2022-10-19T08:59:02Z) - On multivariate randomized classification trees: $l_0$-based sparsity,
VC~dimension and decomposition methods [0.9346127431927981]
Blanquero et alで提案された非線形連続最適化の定式化について検討する。
我々はまず、$l_0$ノルムの凹凸近似に基づいて、そのような木をスパース化する代替手法を検討する。
より大規模なデータセットを用いた実験により,提案手法は精度を損なうことなく,学習時間を著しく短縮できることが示された。
論文 参考訳(メタデータ) (2021-12-09T22:49:08Z) - Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。
本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。
ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文 参考訳(メタデータ) (2020-12-13T03:41:52Z) - Handling missing data in model-based clustering [0.0]
欠損データの存在下でガウス混合体を適合させる2つの方法を提案する。
どちらの手法もデータ拡張のためにモンテカルロ予測最大化アルゴリズムの変種を用いる。
提案手法はクラスタ同定と密度推定の両面で多重計算手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-06-04T15:36:31Z) - Carath\'eodory Sampling for Stochastic Gradient Descent [79.55586575988292]
本稿では,Tchakaloff と Carath'eodory の古典的な結果から着想を得た手法を提案する。
我々は、測定値の低減を行う降下ステップを適応的に選択する。
これをBlock Coordinate Descentと組み合わせることで、測定の削減を極めて安価に行えるようにします。
論文 参考訳(メタデータ) (2020-06-02T17:52:59Z) - Adaptive Correlated Monte Carlo for Contextual Categorical Sequence
Generation [77.7420231319632]
我々は,モンテカルロ (MC) ロールアウトの集合を分散制御のために評価する政策勾配推定器に,カテゴリー列の文脈的生成を適用する。
また,二分木ソフトマックスモデルに相関したMCロールアウトを用いることで,大語彙シナリオにおける高生成コストを低減できることを示す。
論文 参考訳(メタデータ) (2019-12-31T03:01:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。