論文の概要: On the Performance of Imputation Techniques for Missing Values on Healthcare Datasets
- arxiv url: http://arxiv.org/abs/2403.14687v1
- Date: Wed, 13 Mar 2024 18:07:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 03:23:33.652708
- Title: On the Performance of Imputation Techniques for Missing Values on Healthcare Datasets
- Title(参考訳): 医療データセットの欠落価値評価手法の性能について
- Authors: Luke Oluwaseye Joel, Wesley Doorsamy, Babu Sena Paul,
- Abstract要約: 値やデータの欠落は、実世界のデータセット、特に医療データの一般的な特徴のひとつだ。
本研究は, 平均計算法, 中間計算法, 最終観測法 (LOCF) 計算法, K-Nearest Neighbor (KNN) 計算法, 補間計算法, ミスフォレスト計算法, 連鎖方程式による多重計算法の比較である。
その結果,ミスフォレスト・インキュベーションが最善であり,MICEインキュベーションが最善であることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Missing values or data is one popular characteristic of real-world datasets, especially healthcare data. This could be frustrating when using machine learning algorithms on such datasets, simply because most machine learning models perform poorly in the presence of missing values. The aim of this study is to compare the performance of seven imputation techniques, namely Mean imputation, Median Imputation, Last Observation carried Forward (LOCF) imputation, K-Nearest Neighbor (KNN) imputation, Interpolation imputation, Missforest imputation, and Multiple imputation by Chained Equations (MICE), on three healthcare datasets. Some percentage of missing values - 10\%, 15\%, 20\% and 25\% - were introduced into the dataset, and the imputation techniques were employed to impute these missing values. The comparison of their performance was evaluated by using root mean squared error (RMSE) and mean absolute error (MAE). The results show that Missforest imputation performs the best followed by MICE imputation. Additionally, we try to determine whether it is better to perform feature selection before imputation or vice versa by using the following metrics - the recall, precision, f1-score and accuracy. Due to the fact that there are few literature on this and some debate on the subject among researchers, we hope that the results from this experiment will encourage data scientists and researchers to perform imputation first before feature selection when dealing with data containing missing values.
- Abstract(参考訳): 値やデータの欠落は、実世界のデータセット、特に医療データの一般的な特徴のひとつだ。
このようなデータセットで機械学習アルゴリズムを使用する場合、ほとんどの機械学習モデルは、欠落した値の存在下ではパフォーマンスが悪いため、これはフラストレーションになる可能性がある。
本研究の目的は, 平均計算, 中間計算, 最終観測処理 (LOCF) 計算, K-Nearest Neighbor (KNN) 計算, 補間計算, ミスフォレスト計算, 多重計算処理 (MICE) を3つの医療データセットで比較することである。
欠落した値のいくつか(10\%, 15\%, 20\%, 25\%)がデータセットに導入され、これらの欠落した値をインプットするために計算手法が用いられた。
平均二乗誤差 (RMSE) と平均絶対誤差 (MAE) を用いて評価した。
その結果,ミスフォレスト・インキュベーションが最善であり,MICEインキュベーションが最善であることがわかった。
さらに,リコール,精度,f1スコア,精度といった指標を用いて,計算前の特徴選択を行う方がよいかどうかを判断する。
この研究についてはほとんど文献がなく、また研究者の間でもいくつかの議論があるので、この実験の結果は、データ科学者や研究者が、欠落した値を含むデータを扱う際に、最初に特徴選択を行う前に、インキュベーションを行うよう促すことを願っている。
関連論文リスト
- Attribute-to-Delete: Machine Unlearning via Datamodel Matching [65.13151619119782]
機械学習 -- 事前訓練された機械学習モデルで、小さな"ターゲットセット"トレーニングデータを効率的に削除する -- は、最近関心を集めている。
最近の研究では、機械学習技術はこのような困難な環境では耐えられないことが示されている。
論文 参考訳(メタデータ) (2024-10-30T17:20:10Z) - Machine Learning Based Missing Values Imputation in Categorical Datasets [2.5611256859404983]
この研究では、分類データセットのギャップを埋めるための機械学習アルゴリズムの使用について検討した。
Error Correction Output Codesフレームワークを使用して構築されたアンサンブルモデルに重点が置かれた。
大量のラベル付きデータの要求を含む、これらの奨励的な結果にもかかわらず、データ計算の欠如に対する深い学習には障害がある。
論文 参考訳(メタデータ) (2023-06-10T03:29:48Z) - IRTCI: Item Response Theory for Categorical Imputation [5.9952530228468754]
欠落したデータをスタンドイン値に置き換えるために、いくつかの計算手法が設計されている。
ここで紹介された作品は、アイテム応答理論(IRT)に基づく分類論的計算の新しい手段を提供する。
これらの手法を比較した分析は、3つの異なるデータセットで行われた。
論文 参考訳(メタデータ) (2023-02-08T16:17:20Z) - Missing Value Estimation using Clustering and Deep Learning within
Multiple Imputation Framework [0.0]
最も一般的な計算アルゴリズムは、方程式の連鎖(MICE)を用いた複数の計算法である。
本稿では,MICEの計算精度とインプットデータの分類精度を両立させる手法を提案する。
論文 参考訳(メタデータ) (2022-02-28T13:02:44Z) - Benchmarking missing-values approaches for predictive models on health
databases [47.187609203210705]
我々は、大規模健康データベースに焦点を当てた予測モデルにおいて、不足値戦略のベンチマークを行う。
教師あり機械学習における欠落値に対するネイティブサポートは、計算コストをはるかに少なくして最先端の計算計算よりも優れていると予測できる。
論文 参考訳(メタデータ) (2022-02-17T09:40:04Z) - To Impute or not to Impute? -- Missing Data in Treatment Effect
Estimation [84.76186111434818]
我々は,MCM(Mixed Con founded missingness)と呼ばれる新しい欠損機構を同定し,ある欠損度が治療選択を判断し,他の欠損度が治療選択によって決定されることを示した。
本研究は,全てのデータを因果的に入力すると,不偏推定を行うために必要な情報を効果的に除去するので,処理効果のモデルが貧弱になることを示す。
私たちのソリューションは選択的計算であり、CMMからの洞察を使って、どの変数をインプットすべきで、どの変数をインプットすべきでないかを正確に知らせる。
論文 参考訳(メタデータ) (2022-02-04T12:08:31Z) - MIRACLE: Causally-Aware Imputation via Learning Missing Data Mechanisms [82.90843777097606]
欠落データに対する因果認識型計算アルゴリズム(MIRACLE)を提案する。
MIRACLEは、欠落発生機構を同時にモデル化することにより、ベースラインの計算を反復的に洗練する。
我々は、MIRACLEが一貫してイミューテーションを改善することができることを示すために、合成および様々な公開データセットに関する広範な実験を行う。
論文 参考訳(メタデータ) (2021-11-04T22:38:18Z) - Doing Great at Estimating CATE? On the Neglected Assumptions in
Benchmark Comparisons of Treatment Effect Estimators [91.3755431537592]
もっとも単純な設定であっても、無知性仮定に基づく推定は誤解を招く可能性があることを示す。
異種処理効果評価のための機械学習ベンチマークデータセットを2つ検討した。
ベンチマークデータセットの固有の特性が、他のものよりもいくつかのアルゴリズムを好んでいる点を強調します。
論文 参考訳(メタデータ) (2021-07-28T13:21:27Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Missing Data Imputation for Classification Problems [1.52292571922932]
特徴学習行列が欠落している様々な分類問題において、欠落データの計算は一般的な応用である。
本稿では,クラス重み付きグレー距離に基づく新しい反復的kNN計算手法を提案する。
これにより、トレーニングデータの計算が分類性能の向上に向けられていることが保証される。
論文 参考訳(メタデータ) (2020-02-25T07:48:45Z) - Missing Data Imputation using Optimal Transport [43.14084843713895]
最適輸送距離を利用して基準を定量化し、損失関数に変換し、欠落したデータ値をインプットする。
エンド・ツー・エンド・ラーニングを用いてこれらの損失を最小限に抑えるための実践的手法を提案する。
これらの実験により、OTベースの手法は、欠落した値の高い割合であっても、最先端の計算手法と一致しているか、性能が良くないことを示す。
論文 参考訳(メタデータ) (2020-02-10T15:23:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。