論文の概要: Comparison of Missing Data Imputation Methods using the Framingham Heart
study dataset
- arxiv url: http://arxiv.org/abs/2210.03154v2
- Date: Mon, 10 Oct 2022 07:22:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 18:24:23.213581
- Title: Comparison of Missing Data Imputation Methods using the Framingham Heart
study dataset
- Title(参考訳): Framingham Heart Study データセットを用いた欠測データ計算法の比較
- Authors: Konstantinos Psychogyios, Loukas Ilias, Dimitris Askounis
- Abstract要約: 我々は,GAN(Generative Adversarial Networks)とオートエンコーダに基づいて,最先端の欠落値計算手法を検証・修正する。
データ計算とポストインプット予測の両方のタスクに対して評価を行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Cardiovascular disease (CVD) is a class of diseases that involve the heart or
blood vessels and according to World Health Organization is the leading cause
of death worldwide. EHR data regarding this case, as well as medical cases in
general, contain missing values very frequently. The percentage of missingness
may vary and is linked with instrument errors, manual data entry procedures,
etc. Even though the missing rate is usually significant, in many cases the
missing value imputation part is handled poorly either with case-deletion or
with simple statistical approaches such as mode and median imputation. These
methods are known to introduce significant bias, since they do not account for
the relationships between the dataset's variables. Within the medical
framework, many datasets consist of lab tests or patient medical tests, where
these relationships are present and strong. To address these limitations, in
this paper we test and modify state-of-the-art missing value imputation methods
based on Generative Adversarial Networks (GANs) and Autoencoders. The
evaluation is accomplished for both the tasks of data imputation and
post-imputation prediction. Regarding the imputation task, we achieve
improvements of 0.20, 7.00% in normalised Root Mean Squared Error (RMSE) and
Area Under the Receiver Operating Characteristic Curve (AUROC) respectively. In
terms of the post-imputation prediction task, our models outperform the
standard approaches by 2.50% in F1-score.
- Abstract(参考訳): 心臓血管疾患(英: Cardiovascular disease, CVD)は、心臓や血管を包含する疾患の一種であり、世界保健機関(WHO)によると、世界中の死因である。
この症例に関するEHRデータは、一般的には医療ケースと同様に、非常に頻度の低い値を含んでいる。
欠落の割合は様々であり、計器エラーや手動データ入力手順などと関連付けられている。
通常、欠落率は大きいが、多くの場合、欠落した値の計算部はケース削除またはモードや中央値の計算のような単純な統計手法で処理される。
これらの手法はデータセットの変数間の関係を考慮しないため、大きなバイアスをもたらすことが知られている。
医療フレームワークでは、多くのデータセットがラボテストまたは患者の医療テストで構成されており、これらの関係は存在し強い。
本稿では,GAN(Generative Adversarial Networks)とオートエンコーダ(Autoencoder)に基づく,最先端の欠落値計算手法のテストと修正を行う。
データ計算とポストインプット予測の両方のタスクに対して評価を行う。
計算作業では,正常化ルート平均正方形誤差 (RMSE) と受信器動作特性曲線 (AUROC) の0.20, 7.00%の改善が達成された。
計算後予測タスクでは、F1スコアで標準手法を2.50%上回っている。
関連論文リスト
- FedCVD: The First Real-World Federated Learning Benchmark on Cardiovascular Disease Data [52.55123685248105]
心臓血管疾患(CVD)は、現在世界でも主要な死因であり、早期診断と治療の要点を浮き彫りにしている。
機械学習(ML)手法はCVDの早期診断に役立つが、その性能は高品質なデータへのアクセスに依存している。
本稿では、FedCVDという心臓血管疾患検出のための、世界初の実世界のFLベンチマークを示す。
論文 参考訳(メタデータ) (2024-10-28T02:24:01Z) - On the Performance of Imputation Techniques for Missing Values on Healthcare Datasets [0.0]
値やデータの欠落は、実世界のデータセット、特に医療データの一般的な特徴のひとつだ。
本研究は, 平均計算法, 中間計算法, 最終観測法 (LOCF) 計算法, K-Nearest Neighbor (KNN) 計算法, 補間計算法, ミスフォレスト計算法, 連鎖方程式による多重計算法の比較である。
その結果,ミスフォレスト・インキュベーションが最善であり,MICEインキュベーションが最善であることがわかった。
論文 参考訳(メタデータ) (2024-03-13T18:07:17Z) - What is Hiding in Medicine's Dark Matter? Learning with Missing Data in
Medical Practices [38.64139739520114]
欠落したデータは、医療専門家の実践パターンに関連付けられている可能性がある。
外傷例5,791例のTARNフィールド79例について検討した。
我々は,1NNインプタが,通常の臨床意思決定のパターンを示す最も優れたインキュベーションであると結論づけた。
論文 参考訳(メタデータ) (2024-02-09T17:27:35Z) - An Improved Heart Disease Prediction Using Stacked Ensemble Method [0.9187159782788579]
機械学習を用いた心疾患予測システムを構築した。
心臓疾患のある人と正常な人とを簡単に区別することができる。
論文 参考訳(メタデータ) (2023-04-12T17:53:59Z) - Density-Aware Personalized Training for Risk Prediction in Imbalanced
Medical Data [89.79617468457393]
不均衡率(クラス密度差)のトレーニングモデルは、最適以下の予測につながる可能性がある。
この不均衡問題に対するモデルトレーニングのためのフレームワークを提案する。
実世界の医療データセットにおけるモデルの性能向上を実証する。
論文 参考訳(メタデータ) (2022-07-23T00:39:53Z) - Practical Challenges in Differentially-Private Federated Survival
Analysis of Medical Data [57.19441629270029]
本稿では,ニューラルネットワークの本質的特性を活用し,生存分析モデルの訓練過程を関連づける。
小さな医療データセットと少数のデータセンターの現実的な設定では、このノイズはモデルを収束させるのが難しくなります。
DPFed-post は,私的フェデレート学習方式に後処理の段階を追加する。
論文 参考訳(メタデータ) (2022-02-08T10:03:24Z) - To Impute or not to Impute? -- Missing Data in Treatment Effect
Estimation [84.76186111434818]
我々は,MCM(Mixed Con founded missingness)と呼ばれる新しい欠損機構を同定し,ある欠損度が治療選択を判断し,他の欠損度が治療選択によって決定されることを示した。
本研究は,全てのデータを因果的に入力すると,不偏推定を行うために必要な情報を効果的に除去するので,処理効果のモデルが貧弱になることを示す。
私たちのソリューションは選択的計算であり、CMMからの洞察を使って、どの変数をインプットすべきで、どの変数をインプットすべきでないかを正確に知らせる。
論文 参考訳(メタデータ) (2022-02-04T12:08:31Z) - A Graph-based Imputation Method for Sparse Medical Records [3.136861161060886]
本稿では,不確実性や不確実性に頑健なグラフベースの計算法を提案する。
その結果,異なるイベントタイプを臨床的に有意義な方法で組み込むことが,モデルで学べることが示唆された。
論文 参考訳(メタデータ) (2021-11-17T13:06:08Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Medical data wrangling with sequential variational autoencoders [5.9207487081080705]
本稿では,逐次変分オートエンコーダ(vaes)を用いた異種データ型とバースト欠落データを用いた医療データ記録のモデル化を提案する。
GP-VAEモデルより計算複雑性が低く,両指標を用いた場合,Shi-VAEが最高の性能を発揮することを示す。
論文 参考訳(メタデータ) (2021-03-12T10:59:26Z) - A random shuffle method to expand a narrow dataset and overcome the
associated challenges in a clinical study: a heart failure cohort example [50.591267188664666]
本研究の目的は、統計的に合法なHFデータセットのカーディナリティを高めるためにランダムシャッフル法を設計することであった。
提案されたランダムシャッフル法は、HFデータセットのカーディナリティを10回、およびランダムな繰り返し測定アプローチに続いて21回向上させることができた。
論文 参考訳(メタデータ) (2020-12-12T10:59:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。