論文の概要: Adapting tree-based multiple imputation methods for multi-level data? A
simulation study
- arxiv url: http://arxiv.org/abs/2401.14161v1
- Date: Thu, 25 Jan 2024 13:12:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-26 14:31:27.229112
- Title: Adapting tree-based multiple imputation methods for multi-level data? A
simulation study
- Title(参考訳): 多レベルデータに対するツリーベース多重計算手法の適用?
シミュレーション研究
- Authors: Ketevan Gurtskaia, Jakob Schwerter and Philipp Doebler
- Abstract要約: 本研究は,マルチレベルデータに対する多重計算手法の有効性を評価する。
連鎖方程式(MICE)による従来の多重計算の性能と木に基づく手法との比較を行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This simulation study evaluates the effectiveness of multiple imputation (MI)
techniques for multilevel data. It compares the performance of traditional
Multiple Imputation by Chained Equations (MICE) with tree-based methods such as
Chained Random Forests with Predictive Mean Matching and Extreme Gradient
Boosting. Adapted versions that include dummy variables for cluster membership
are also included for the tree-based methods. Methods are evaluated for
coefficient estimation bias, statistical power, and type I error rates on
simulated hierarchical data with different cluster sizes (25 and 50) and levels
of missingness (10\% and 50\%). Coefficients are estimated using random
intercept and random slope models. The results show that while MICE is
preferred for accurate rejection rates, Extreme Gradient Boosting is
advantageous for reducing bias. Furthermore, the study finds that bias levels
are similar across different cluster sizes, but rejection rates tend to be less
favorable with fewer clusters (lower power, higher type I error). In addition,
the inclusion of cluster dummies in tree-based methods improves estimation for
Level 1 variables, but is less effective for Level 2 variables. When data
become too complex and MICE is too slow, extreme gradient boosting is a good
alternative for hierarchical data.
Keywords: Multiple imputation; multi-level data; MICE; missRanger; mixgb
- Abstract(参考訳): 本研究はマルチレベルデータに対する多重計算(MI)手法の有効性を評価する。
これは、連鎖方程式(英語版)(mice)による従来の多重インプテーションの性能と、予測平均マッチングと極端な勾配ブースティングを伴う連鎖ランダムフォレストのような木に基づく手法を比較している。
クラスタメンバシップ用のダミー変数を含む適応バージョンもツリーベースのメソッドに含まれている。
クラスタサイズの違い (25 と 50 ) と欠落率 (10 % と 50 %) のシミュレーション階層データに対して, 予測バイアス, 統計パワー, I 型誤差率の評価を行った。
ランダムインターセプトモデルとランダムスロープモデルを用いて係数を推定する。
その結果、MICEは正確な拒絶率に好適であるが、極勾配ブースティングはバイアスを低減するのに有利であることがわかった。
さらに、研究により、バイアスレベルは異なるクラスタサイズで類似しているが、より少ないクラスタ(より低いパワー、より高いI型エラー)では拒絶率がより好ましい傾向にあることがわかった。
さらに、ツリーベースのメソッドにクラスタダミーを組み込むことで、レベル1変数の推定が改善されるが、レベル2変数では効果が低い。
データが複雑になり、MICEが遅すぎると、極端な勾配が階層データにとって良い代替手段となる。
キーワード:多重計算、マルチレベルデータ、MICE、MissRanger、mixgb
関連論文リスト
- Mitigating covariate shift in non-colocated data with learned parameter priors [0.0]
textitFragmentation-induced co-shift remediation(FIcsR$)は、フラグメントの共変量分布と標準クロスバリデーションベースラインとの$f$-divergenceを最小限にする。
複数のデータクラス、40ドル以上のデータセット、および複数のシーケンス長にわたってバッチ化されたデータに対して、広範な分類実験を行います。
バッチとフォールド・オブ・ザ・アーティファクトに対する精度は、それぞれ5%以上と10%以上向上している。
論文 参考訳(メタデータ) (2024-11-10T15:48:29Z) - Evaluating tree-based imputation methods as an alternative to MICE PMM
for drawing inference in empirical studies [0.5892638927736115]
欠落したデータを扱うことは、しばしば計算手順で対処される統計解析において重要な問題である。
予測平均マッチング(PMM)を用いた連鎖方程式による多重計算の一般的な方法は、社会科学文献において標準とされている。
特に、木に基づく計算手法は、非常に競争力のあるアプローチとして現れてきた。
論文 参考訳(メタデータ) (2024-01-17T21:28:00Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - Compound Batch Normalization for Long-tailed Image Classification [77.42829178064807]
本稿では,ガウス混合に基づく複合バッチ正規化法を提案する。
機能空間をより包括的にモデル化し、ヘッドクラスの優位性を減らすことができる。
提案手法は,画像分類における既存の手法よりも優れている。
論文 参考訳(メタデータ) (2022-12-02T07:31:39Z) - Distributional Adaptive Soft Regression Trees [0.0]
本稿では,多変量ソフトスプリットルールを用いた分布回帰木の新しいタイプを提案する。
ソフトスプリットの大きな利点の1つは、滑らかな高次元函数を1つの木で見積もることができることである。
シミュレーションにより,アルゴリズムは優れた特性を有し,様々なベンチマーク手法より優れていることを示す。
論文 参考訳(メタデータ) (2022-10-19T08:59:02Z) - On multivariate randomized classification trees: $l_0$-based sparsity,
VC~dimension and decomposition methods [0.9346127431927981]
Blanquero et alで提案された非線形連続最適化の定式化について検討する。
我々はまず、$l_0$ノルムの凹凸近似に基づいて、そのような木をスパース化する代替手法を検討する。
より大規模なデータセットを用いた実験により,提案手法は精度を損なうことなく,学習時間を著しく短縮できることが示された。
論文 参考訳(メタデータ) (2021-12-09T22:49:08Z) - Gated recurrent units and temporal convolutional network for multilabel
classification [122.84638446560663]
本研究は,マルチラベル分類を管理するための新しいアンサンブル手法を提案する。
提案手法のコアは,Adamグラデーション最適化アプローチの変種で訓練された,ゲート再帰単位と時間畳み込みニューラルネットワークの組み合わせである。
論文 参考訳(メタデータ) (2021-10-09T00:00:16Z) - Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。
本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。
ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文 参考訳(メタデータ) (2020-12-13T03:41:52Z) - Handling missing data in model-based clustering [0.0]
欠損データの存在下でガウス混合体を適合させる2つの方法を提案する。
どちらの手法もデータ拡張のためにモンテカルロ予測最大化アルゴリズムの変種を用いる。
提案手法はクラスタ同定と密度推定の両面で多重計算手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-06-04T15:36:31Z) - Carath\'eodory Sampling for Stochastic Gradient Descent [79.55586575988292]
本稿では,Tchakaloff と Carath'eodory の古典的な結果から着想を得た手法を提案する。
我々は、測定値の低減を行う降下ステップを適応的に選択する。
これをBlock Coordinate Descentと組み合わせることで、測定の削減を極めて安価に行えるようにします。
論文 参考訳(メタデータ) (2020-06-02T17:52:59Z) - Adaptive Correlated Monte Carlo for Contextual Categorical Sequence
Generation [77.7420231319632]
我々は,モンテカルロ (MC) ロールアウトの集合を分散制御のために評価する政策勾配推定器に,カテゴリー列の文脈的生成を適用する。
また,二分木ソフトマックスモデルに相関したMCロールアウトを用いることで,大語彙シナリオにおける高生成コストを低減できることを示す。
論文 参考訳(メタデータ) (2019-12-31T03:01:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。