論文の概要: Adapting tree-based multiple imputation methods for multi-level data? A
simulation study
- arxiv url: http://arxiv.org/abs/2401.14161v1
- Date: Thu, 25 Jan 2024 13:12:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-01-26 14:31:27.229112
- Title: Adapting tree-based multiple imputation methods for multi-level data? A
simulation study
- Title(参考訳): 多レベルデータに対するツリーベース多重計算手法の適用?
シミュレーション研究
- Authors: Ketevan Gurtskaia, Jakob Schwerter and Philipp Doebler
- Abstract要約: 本研究は,マルチレベルデータに対する多重計算手法の有効性を評価する。
連鎖方程式(MICE)による従来の多重計算の性能と木に基づく手法との比較を行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This simulation study evaluates the effectiveness of multiple imputation (MI)
techniques for multilevel data. It compares the performance of traditional
Multiple Imputation by Chained Equations (MICE) with tree-based methods such as
Chained Random Forests with Predictive Mean Matching and Extreme Gradient
Boosting. Adapted versions that include dummy variables for cluster membership
are also included for the tree-based methods. Methods are evaluated for
coefficient estimation bias, statistical power, and type I error rates on
simulated hierarchical data with different cluster sizes (25 and 50) and levels
of missingness (10\% and 50\%). Coefficients are estimated using random
intercept and random slope models. The results show that while MICE is
preferred for accurate rejection rates, Extreme Gradient Boosting is
advantageous for reducing bias. Furthermore, the study finds that bias levels
are similar across different cluster sizes, but rejection rates tend to be less
favorable with fewer clusters (lower power, higher type I error). In addition,
the inclusion of cluster dummies in tree-based methods improves estimation for
Level 1 variables, but is less effective for Level 2 variables. When data
become too complex and MICE is too slow, extreme gradient boosting is a good
alternative for hierarchical data.
Keywords: Multiple imputation; multi-level data; MICE; missRanger; mixgb
- Abstract(参考訳): 本研究はマルチレベルデータに対する多重計算(MI)手法の有効性を評価する。
これは、連鎖方程式(英語版)(mice)による従来の多重インプテーションの性能と、予測平均マッチングと極端な勾配ブースティングを伴う連鎖ランダムフォレストのような木に基づく手法を比較している。
クラスタメンバシップ用のダミー変数を含む適応バージョンもツリーベースのメソッドに含まれている。
クラスタサイズの違い (25 と 50 ) と欠落率 (10 % と 50 %) のシミュレーション階層データに対して, 予測バイアス, 統計パワー, I 型誤差率の評価を行った。
ランダムインターセプトモデルとランダムスロープモデルを用いて係数を推定する。
その結果、MICEは正確な拒絶率に好適であるが、極勾配ブースティングはバイアスを低減するのに有利であることがわかった。
さらに、研究により、バイアスレベルは異なるクラスタサイズで類似しているが、より少ないクラスタ(より低いパワー、より高いI型エラー)では拒絶率がより好ましい傾向にあることがわかった。
さらに、ツリーベースのメソッドにクラスタダミーを組み込むことで、レベル1変数の推定が改善されるが、レベル2変数では効果が低い。
データが複雑になり、MICEが遅すぎると、極端な勾配が階層データにとって良い代替手段となる。
キーワード:多重計算、マルチレベルデータ、MICE、MissRanger、mixgb
関連論文リスト
- Efficient Multi-Agent System Training with Data Influence-Oriented Tree Search [59.75749613951193]
木探索とデータ選択の両方をガイドするデータインフルエンス指向木探索(DITS)を提案する。
インフルエンススコアを活用することで、システム改善のための最も影響力のあるデータを効果的に特定する。
非微分不可能な指標に適した影響スコア推定法を導出する。
論文 参考訳(メタデータ) (2025-02-02T23:20:16Z) - Mitigating covariate shift in non-colocated data with learned parameter priors [0.0]
textitFragmentation-induced co-shift remediation(FIcsR$)は、フラグメントの共変量分布と標準クロスバリデーションベースラインとの$f$-divergenceを最小限にする。
複数のデータクラス、40ドル以上のデータセット、および複数のシーケンス長にわたってバッチ化されたデータに対して、広範な分類実験を行います。
バッチとフォールド・オブ・ザ・アーティファクトに対する精度は、それぞれ5%以上と10%以上向上している。
論文 参考訳(メタデータ) (2024-11-10T15:48:29Z) - Unmasking Trees for Tabular Data [0.0]
勾配型決定木を用いた表計算(および生成)の簡易な方法であるUnmaskingTreesを提案する。
条件生成サブプロブレムを解決するために,木分類器のバランス木に適合するBaltoBotを提案する。
従来の方法とは異なり、条件分布のパラメトリックな仮定は必要とせず、多重モーダル分布を持つ特徴を収容する。
我々はついに2つのアプローチをメタアルゴリズムとみなし、TabPFNを用いた文脈内学習に基づく生成モデリングを実証した。
論文 参考訳(メタデータ) (2024-07-08T04:15:43Z) - BooleanOCT: Optimal Classification Trees based on multivariate Boolean
Rules [14.788278997556606]
最適な分類木を導出するために,MIP(Mixed-integer Programming)の定式化を導入する。
提案手法は,F1スコアなどの非線形指標と同様に,精度,バランスの取れた精度,コストに敏感なコストを含む線形メトリクスを統合する。
提案したモデルでは,実世界のデータセットに対して現実的な可解性を示し,数万のサイズの処理を効果的に行う。
論文 参考訳(メタデータ) (2024-01-29T12:58:44Z) - Evaluating tree-based imputation methods as an alternative to MICE PMM
for drawing inference in empirical studies [0.5892638927736115]
欠落したデータを扱うことは、しばしば計算手順で対処される統計解析において重要な問題である。
予測平均マッチング(PMM)を用いた連鎖方程式による多重計算の一般的な方法は、社会科学文献において標準とされている。
特に、木に基づく計算手法は、非常に競争力のあるアプローチとして現れてきた。
論文 参考訳(メタデータ) (2024-01-17T21:28:00Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease
detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。
我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。
このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文 参考訳(メタデータ) (2023-09-13T10:40:41Z) - DCID: Deep Canonical Information Decomposition [84.59396326810085]
本稿では,2つの1次元目標変数間で共有される信号の同定について考察する。
そこで本研究では,地中トラスラベルの存在下で使用可能な評価指標であるICMを提案する。
また、共有変数を学習するための単純かつ効果的なアプローチとして、Deep Canonical Information Decomposition (DCID)を提案する。
論文 参考訳(メタデータ) (2023-06-27T16:59:06Z) - Compound Batch Normalization for Long-tailed Image Classification [77.42829178064807]
本稿では,ガウス混合に基づく複合バッチ正規化法を提案する。
機能空間をより包括的にモデル化し、ヘッドクラスの優位性を減らすことができる。
提案手法は,画像分類における既存の手法よりも優れている。
論文 参考訳(メタデータ) (2022-12-02T07:31:39Z) - Distributional Adaptive Soft Regression Trees [0.0]
本稿では,多変量ソフトスプリットルールを用いた分布回帰木の新しいタイプを提案する。
ソフトスプリットの大きな利点の1つは、滑らかな高次元函数を1つの木で見積もることができることである。
シミュレーションにより,アルゴリズムは優れた特性を有し,様々なベンチマーク手法より優れていることを示す。
論文 参考訳(メタデータ) (2022-10-19T08:59:02Z) - Few-Shot Non-Parametric Learning with Deep Latent Variable Model [50.746273235463754]
遅延変数を用いた圧縮による非パラメトリック学習(NPC-LV)を提案する。
NPC-LVは、ラベルなしデータが多いがラベル付きデータはほとんどないデータセットの学習フレームワークである。
我々は,NPC-LVが低データ構造における画像分類における3つのデータセットの教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-23T09:35:03Z) - On multivariate randomized classification trees: $l_0$-based sparsity,
VC~dimension and decomposition methods [0.9346127431927981]
Blanquero et alで提案された非線形連続最適化の定式化について検討する。
我々はまず、$l_0$ノルムの凹凸近似に基づいて、そのような木をスパース化する代替手法を検討する。
より大規模なデータセットを用いた実験により,提案手法は精度を損なうことなく,学習時間を著しく短縮できることが示された。
論文 参考訳(メタデータ) (2021-12-09T22:49:08Z) - A cautionary tale on fitting decision trees to data from additive
models: generalization lower bounds [9.546094657606178]
本研究では,異なる回帰モデルに対する決定木の一般化性能について検討する。
これにより、アルゴリズムが新しいデータに一般化するために(あるいは作らない)仮定する帰納的バイアスが引き起こされる。
スパース加法モデルに適合する大規模な決定木アルゴリズムに対して、シャープな2乗誤差一般化を低い境界で証明する。
論文 参考訳(メタデータ) (2021-10-18T21:22:40Z) - Gated recurrent units and temporal convolutional network for multilabel
classification [122.84638446560663]
本研究は,マルチラベル分類を管理するための新しいアンサンブル手法を提案する。
提案手法のコアは,Adamグラデーション最適化アプローチの変種で訓練された,ゲート再帰単位と時間畳み込みニューラルネットワークの組み合わせである。
論文 参考訳(メタデータ) (2021-10-09T00:00:16Z) - Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。
本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。
ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文 参考訳(メタデータ) (2020-12-13T03:41:52Z) - Handling missing data in model-based clustering [0.0]
欠損データの存在下でガウス混合体を適合させる2つの方法を提案する。
どちらの手法もデータ拡張のためにモンテカルロ予測最大化アルゴリズムの変種を用いる。
提案手法はクラスタ同定と密度推定の両面で多重計算手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-06-04T15:36:31Z) - Carath\'eodory Sampling for Stochastic Gradient Descent [79.55586575988292]
本稿では,Tchakaloff と Carath'eodory の古典的な結果から着想を得た手法を提案する。
我々は、測定値の低減を行う降下ステップを適応的に選択する。
これをBlock Coordinate Descentと組み合わせることで、測定の削減を極めて安価に行えるようにします。
論文 参考訳(メタデータ) (2020-06-02T17:52:59Z) - Adaptive Correlated Monte Carlo for Contextual Categorical Sequence
Generation [77.7420231319632]
我々は,モンテカルロ (MC) ロールアウトの集合を分散制御のために評価する政策勾配推定器に,カテゴリー列の文脈的生成を適用する。
また,二分木ソフトマックスモデルに相関したMCロールアウトを用いることで,大語彙シナリオにおける高生成コストを低減できることを示す。
論文 参考訳(メタデータ) (2019-12-31T03:01:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。