論文の概要: MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data
Augmentation
- arxiv url: http://arxiv.org/abs/2310.02520v2
- Date: Thu, 5 Oct 2023 16:31:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-09 10:29:54.327349
- Title: MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data
Augmentation
- Title(参考訳): MedDiffusion:拡散に基づくデータ拡張による健康リスク予測の促進
- Authors: Yuan Zhong, Suhan Cui, Jiaqi Wang, Xiaochen Wang, Ziyi Yin, Yaqing
Wang, Houping Xiao, Mengdi Huai, Ting Wang, Fenglong Ma
- Abstract要約: 本稿では,MedDiffusion という,エンドツーエンドの拡散に基づくリスク予測モデルを提案する。
トレーニング中に合成患者データを作成し、サンプルスペースを拡大することで、リスク予測性能を向上させる。
ステップワイズ・アテンション・メカニズムを用いて患者の来訪者間の隠れた関係を識別し、高品質なデータを生成する上で最も重要な情報をモデルが自動的に保持することを可能にする。
- 参考スコア(独自算出の注目度): 58.93221876843639
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Health risk prediction is one of the fundamental tasks under predictive
modeling in the medical domain, which aims to forecast the potential health
risks that patients may face in the future using their historical Electronic
Health Records (EHR). Researchers have developed several risk prediction models
to handle the unique challenges of EHR data, such as its sequential nature,
high dimensionality, and inherent noise. These models have yielded impressive
results. Nonetheless, a key issue undermining their effectiveness is data
insufficiency. A variety of data generation and augmentation methods have been
introduced to mitigate this issue by expanding the size of the training data
set through the learning of underlying data distributions. However, the
performance of these methods is often limited due to their task-unrelated
design. To address these shortcomings, this paper introduces a novel,
end-to-end diffusion-based risk prediction model, named MedDiffusion. It
enhances risk prediction performance by creating synthetic patient data during
training to enlarge sample space. Furthermore, MedDiffusion discerns hidden
relationships between patient visits using a step-wise attention mechanism,
enabling the model to automatically retain the most vital information for
generating high-quality data. Experimental evaluation on four real-world
medical datasets demonstrates that MedDiffusion outperforms 14 cutting-edge
baselines in terms of PR-AUC, F1, and Cohen's Kappa. We also conduct ablation
studies and benchmark our model against GAN-based alternatives to further
validate the rationality and adaptability of our model design. Additionally, we
analyze generated data to offer fresh insights into the model's
interpretability.
- Abstract(参考訳): 健康リスク予測(Health Risk Prediction)は、医療領域における予測モデルの基本課題の一つであり、患者が将来直面する可能性のある健康リスクを、電子健康記録(EHR)を用いて予測することを目的としている。
研究者は、そのシーケンシャルな性質、高次元性、固有のノイズなど、EHRデータのユニークな課題を扱うために、いくつかのリスク予測モデルを開発した。
これらのモデルは印象的な結果をもたらした。
それでも、その効果を損なう重要な問題はデータ不足である。
基礎となるデータ分布の学習を通じて、トレーニングデータセットのサイズを拡大することにより、この問題を軽減するために、さまざまなデータ生成および拡張手法が導入されている。
しかし,これらの手法の性能はタスク非関連設計によって制限されることが多い。
これらの欠点に対処するため,本研究では,MedDiffusion という新たな拡散に基づくリスク予測モデルを提案する。
トレーニング中に合成患者データを作成してサンプル空間を拡大することにより、リスク予測性能を向上させる。
さらにmeddiffusionは、ステップワイズ・アテンション(step-wise attention)機構を用いて、患者の訪問間の隠れた関係を識別し、高品質データを生成する上で最も重要な情報を自動保持する。
4つの実世界の医療データセットに対する実験的評価は、MedDiffusionがPR-AUC、F1、Cohen's Kappaで14の最先端ベースラインを上回っていることを示している。
また、モデル設計の合理性と適応性をさらに検証するため、GANベースの代替案に対してアブレーション研究を行い、モデルをベンチマークする。
さらに,生成されたデータを分析し,モデルの解釈可能性に関する新たな洞察を提供する。
関連論文リスト
- Synthesizing Multimodal Electronic Health Records via Predictive Diffusion Models [69.06149482021071]
EHRPDと呼ばれる新しいEHRデータ生成モデルを提案する。
時間間隔推定を組み込んだ拡散モデルである。
我々は2つの公開データセットで実験を行い、忠実さ、プライバシー、実用性の観点からEPHPDを評価する。
論文 参考訳(メタデータ) (2024-06-20T02:20:23Z) - Guided Discrete Diffusion for Electronic Health Record Generation [47.129056768385084]
EHRは、病気の進行予測、臨床試験設計、健康経済学と結果研究など、多くの計算医学の応用を可能にする中心的なデータソースである。
幅広いユーザビリティにもかかわらず、その繊細な性質はプライバシーと秘密の懸念を高め、潜在的なユースケースを制限する。
これらの課題に対処するために,人工的かつ現実的なEHRを合成するための生成モデルの利用について検討する。
論文 参考訳(メタデータ) (2024-04-18T16:50:46Z) - Recent Advances in Predictive Modeling with Electronic Health Records [73.31880579203012]
EHRデータを予測モデリングに利用すると、その特徴からいくつかの課題が生じる。
深層学習は、医療を含む様々な応用においてその優位性を示している。
論文 参考訳(メタデータ) (2024-02-02T00:31:01Z) - Contrastive Learning-based Imputation-Prediction Networks for
In-hospital Mortality Risk Modeling using EHRs [9.578930989075035]
本稿では, EHRデータを用いた病院内死亡リスク予測のための, 対照的な学習ベース予測ネットワークを提案する。
本研究は, グラフ解析に基づく患者層形成モデルを用いて, 似通った患者をグループ化する手法を提案する。
2つの実世界のEHRデータセットの実験により、我々のアプローチは、計算タスクと予測タスクの両方において最先端のアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-19T03:24:34Z) - Integrated Convolutional and Recurrent Neural Networks for Health Risk
Prediction using Patient Journey Data with Many Missing Values [9.418011774179794]
本稿では,統合畳み込みニューラルネットワークとリカレントニューラルネットワークを用いたEMH患者旅行データモデリングのためのエンドツーエンドアプローチを提案する。
本モデルでは,各患者旅行における長期的・短期的時間的パターンを抽出し,インパルスデータ生成を伴わずに,高レベルのEHRデータの欠落を効果的に処理することができる。
論文 参考訳(メタデータ) (2022-11-11T07:36:18Z) - Generating Synthetic Mixed-type Longitudinal Electronic Health Records
for Artificial Intelligent Applications [9.374416143268892]
EHR-M-GAN (Generative Adversarial Network, GAN) は、EHRデータを合成する。
EHR-M-GANは,141,488名の患者を対象とし,3つの公用集中治療単位データベース上で検証した。
論文 参考訳(メタデータ) (2021-12-22T17:17:34Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced
Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。
UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。
非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。
UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文 参考訳(メタデータ) (2020-10-22T02:28:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。