論文の概要: Missing Value Estimation using Clustering and Deep Learning within
Multiple Imputation Framework
- arxiv url: http://arxiv.org/abs/2202.13734v1
- Date: Mon, 28 Feb 2022 13:02:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-02 00:46:32.143188
- Title: Missing Value Estimation using Clustering and Deep Learning within
Multiple Imputation Framework
- Title(参考訳): クラスタリングと深層学習を用いた複数インプットフレームワークの欠落値推定
- Authors: Manar D Samad, Sakib Abrar, Norou Diawara
- Abstract要約: 最も一般的な計算アルゴリズムは、方程式の連鎖(MICE)を用いた複数の計算法である。
本稿では,MICEの計算精度とインプットデータの分類精度を両立させる手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Missing values in tabular data restrict the use and performance of machine
learning, requiring the imputation of missing values. The most popular
imputation algorithm is arguably multiple imputations using chains of equations
(MICE), which estimates missing values from linear conditioning on observed
values. This paper proposes methods to improve both the imputation accuracy of
MICE and the classification accuracy of imputed data by replacing MICE's linear
conditioning with ensemble learning and deep neural networks (DNN). The
imputation accuracy is further improved by characterizing individual samples
with cluster labels (CISCL) obtained from the training data. Our extensive
analyses involving six tabular data sets, up to 80% missingness, and three
missingness types (missing completely at random, missing at random, missing not
at random) reveal that ensemble or deep learning within MICE is superior to the
baseline MICE (b-MICE), both of which are consistently outperformed by CISCL.
Results show that CISCL plus b-MICE outperforms b-MICE for all percentages and
types of missingness. Our proposed DNN based MICE and gradient boosting MICE
plus CISCL (GB-MICE-CISCL) outperform seven other baseline imputation
algorithms in most experimental cases. The classification accuracy on the data
imputed by GB-MICE is improved by proposed GB-MICE-CISCL imputed data across
all missingness percentages. Results also reveal a shortcoming of the MICE
framework at high missingness (>50%) and when the missing type is not random.
This paper provides a generalized approach to identifying the best imputation
model for a data set with a missingness percentage and type.
- Abstract(参考訳): 表データの欠落値は機械学習の使用と性能を制限し、欠落した値の計算を必要とする。
最も一般的なインプテーションアルゴリズムは、観測値の線形条件付けから欠落した値を推定する連鎖方程式 (chains of equation, mice) を用いた複数のインプテーションである。
本稿では,MICEの線形条件をアンサンブル学習とディープニューラルネットワーク(DNN)に置き換えることで,MICEの計算精度とインプットデータの分類精度の両方を改善する方法を提案する。
トレーニングデータから得られたクラスタラベル(CISCL)を用いて個々のサンプルを特徴付けることにより、計算精度をさらに向上する。
我々は,6つの表形式のデータセット,最大80%の欠落,および3つの欠落型(ランダムに欠落,ランダムに欠落,ランダムに欠落)を網羅的に分析した結果,MICE内のアンサンブルや深層学習は,CISCLより一貫して優れていることがわかった。
その結果, CISCL+b-MICEは, 欠失率, 欠失率でb-MICEを上回った。
提案したDNNベースのMICEと勾配向上MICEとCISCL(GB-MICE-CISCL)は,多くの実験例において,他の7つのベースライン計算アルゴリズムより優れていた。
gb-miceインデュートデータの分類精度は,すべての欠落率でgb-mice-cisclインデュートデータにより向上する。
また,マウスの欠落率 (>50%) と欠落している型がランダムでない場合の欠点も明らかになった。
本稿では、欠落率と型を持つデータセットの最適なインプテーションモデルを特定するための一般化したアプローチを提案する。
関連論文リスト
- On the Performance of Imputation Techniques for Missing Values on Healthcare Datasets [0.0]
値やデータの欠落は、実世界のデータセット、特に医療データの一般的な特徴のひとつだ。
本研究は, 平均計算法, 中間計算法, 最終観測法 (LOCF) 計算法, K-Nearest Neighbor (KNN) 計算法, 補間計算法, ミスフォレスト計算法, 連鎖方程式による多重計算法の比較である。
その結果,ミスフォレスト・インキュベーションが最善であり,MICEインキュベーションが最善であることがわかった。
論文 参考訳(メタデータ) (2024-03-13T18:07:17Z) - Machine Learning Based Missing Values Imputation in Categorical Datasets [2.5611256859404983]
この研究では、分類データセットのギャップを埋めるための機械学習アルゴリズムの使用について検討した。
Error Correction Output Codesフレームワークを使用して構築されたアンサンブルモデルに重点が置かれた。
大量のラベル付きデータの要求を含む、これらの奨励的な結果にもかかわらず、データ計算の欠如に対する深い学習には障害がある。
論文 参考訳(メタデータ) (2023-06-10T03:29:48Z) - MISNN: Multiple Imputation via Semi-parametric Neural Networks [9.594714330925703]
バイオメディカル・ソーシャル・エコノメトリー研究において、多重計算(Multiple Imputation, MI)は、欠落した価値問題に広く応用されている。
提案するMISNNは,MIの特徴選択を取り入れた,新規で効率的なアルゴリズムである。
論文 参考訳(メタデータ) (2023-05-02T21:45:36Z) - To Impute or not to Impute? -- Missing Data in Treatment Effect
Estimation [84.76186111434818]
我々は,MCM(Mixed Con founded missingness)と呼ばれる新しい欠損機構を同定し,ある欠損度が治療選択を判断し,他の欠損度が治療選択によって決定されることを示した。
本研究は,全てのデータを因果的に入力すると,不偏推定を行うために必要な情報を効果的に除去するので,処理効果のモデルが貧弱になることを示す。
私たちのソリューションは選択的計算であり、CMMからの洞察を使って、どの変数をインプットすべきで、どの変数をインプットすべきでないかを正確に知らせる。
論文 参考訳(メタデータ) (2022-02-04T12:08:31Z) - MIRACLE: Causally-Aware Imputation via Learning Missing Data Mechanisms [82.90843777097606]
欠落データに対する因果認識型計算アルゴリズム(MIRACLE)を提案する。
MIRACLEは、欠落発生機構を同時にモデル化することにより、ベースラインの計算を反復的に洗練する。
我々は、MIRACLEが一貫してイミューテーションを改善することができることを示すために、合成および様々な公開データセットに関する広範な実験を行う。
論文 参考訳(メタデータ) (2021-11-04T22:38:18Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Model-based clustering of partial records [11.193504036335503]
観測値の限界密度を用いたモデルベースの手法でクラスタリング手法を開発しています。
提案アルゴリズムは,不完全データセットの欠落値を考慮した,対応する全期待最大化(EM)手法と比較する。
シミュレーション研究により,本手法は実クラスタ分割の回復に有利であることが示された。
論文 参考訳(メタデータ) (2021-03-30T13:30:59Z) - Learning by Minimizing the Sum of Ranked Range [58.24935359348289]
本稿では,学習目標を定式化するための一般的なアプローチとして,ランキング範囲(SoRR)の和を紹介した。
ランク付き範囲は、実数の集合のソートされた値の連続的なシーケンスである。
我々は,SoRRフレームワークの最小化のための機械学習における2つの応用,すなわち,バイナリ分類のためのAoRR集約損失とマルチラベル/マルチクラス分類のためのTKML個人損失について検討する。
論文 参考訳(メタデータ) (2020-10-05T01:58:32Z) - Deep F-measure Maximization for End-to-End Speech Understanding [52.36496114728355]
本稿では,F測度に対する微分可能な近似法を提案し,標準バックプロパゲーションを用いてネットワークをトレーニングする。
我々は、アダルト、コミュニティ、犯罪の2つの標準フェアネスデータセットの実験を行い、ATISデータセットの音声・インテリジェンス検出と音声・COCOデータセットの音声・イメージ概念分類を行った。
これらの4つのタスクのすべてにおいて、F測定は、クロスエントロピー損失関数で訓練されたモデルと比較して、最大8%の絶対的な絶対的な改善を含む、マイクロF1スコアの改善をもたらす。
論文 参考訳(メタデータ) (2020-08-08T03:02:27Z) - ELMV: an Ensemble-Learning Approach for Analyzing Electrical Health
Records with Significant Missing Values [4.9810955364960385]
本稿では,ELMV(Ensemble-Learning for Missing Value)フレームワークを提案する。
ELMVは、重要な特徴識別のための現実世界の医療データと、結果予測の欠落率の異なるシミュレーションデータのバッチで評価されている。
論文 参考訳(メタデータ) (2020-06-25T06:29:55Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。