論文の概要: Synthetic Survival Data Generation for Heart Failure Prognosis Using Deep Generative Models
- arxiv url: http://arxiv.org/abs/2509.04245v1
- Date: Thu, 04 Sep 2025 14:17:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.185613
- Title: Synthetic Survival Data Generation for Heart Failure Prognosis Using Deep Generative Models
- Title(参考訳): 深部生成モデルを用いた心不全予後のための合成生存データ生成
- Authors: Chanon Puttanawarut, Natcha Fongsrisin, Porntep Amornritvanich, Cholatid Ratanatharathorn, Panu Looareesuwan,
- Abstract要約: 心臓不全(HF)の研究は、プライバシー規制と制度上の障壁により、大きな共有可能なデータセットへのアクセスが制限されていることで制限されている。
12,552人のユニークな患者からなる施設データから合成HFデータセットを生成した。
ディープラーニングに基づく合成データ生成は、研究アプリケーションに適した高忠実でプライバシー保護のHFデータセットを生成することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Background: Heart failure (HF) research is constrained by limited access to large, shareable datasets due to privacy regulations and institutional barriers. Synthetic data generation offers a promising solution to overcome these challenges while preserving patient confidentiality. Methods: We generated synthetic HF datasets from institutional data comprising 12,552 unique patients using five deep learning models: tabular variational autoencoder (TVAE), normalizing flow, ADSGAN, SurvivalGAN, and tabular denoising diffusion probabilistic models (TabDDPM). We comprehensively evaluated synthetic data utility through statistical similarity metrics, survival prediction using machine learning and privacy assessments. Results: SurvivalGAN and TabDDPM demonstrated high fidelity to the original dataset, exhibiting similar variable distributions and survival curves after applying histogram equalization. SurvivalGAN (C-indices: 0.71-0.76) and TVAE (C-indices: 0.73-0.76) achieved the strongest performance in survival prediction evaluation, closely matched real data performance (C-indices: 0.73-0.76). Privacy evaluation confirmed protection against re-identification attacks. Conclusions: Deep learning-based synthetic data generation can produce high-fidelity, privacy-preserving HF datasets suitable for research applications. This publicly available synthetic dataset addresses critical data sharing barriers and provides a valuable resource for advancing HF research and predictive modeling.
- Abstract(参考訳): 背景:HF(Heart failure)研究は、プライバシー規制と制度上の障壁により、大きな共有可能なデータセットへのアクセスが制限されていることで制限される。
合成データ生成は、患者の機密性を維持しながらこれらの課題を克服する有望なソリューションを提供する。
方法: 表層変動オートエンコーダ(TVAE), 正規化フロー, ADSGAN, SurvivalGAN, 表層拡散確率モデル(TabDDPM)の5つの深層学習モデルを用いて, 12,552人の施設データから合成HFデータセットを生成した。
統計的類似度指標, 機械学習を用いた生存予測, プライバシ評価を用いて, 総合的に合成データの有用性を評価した。
結果:SurvivalGANおよびTabDDPMは,ヒストグラム等化を適用した後に,類似の変動分布と生存曲線を示した。
SurvivalGAN (Cインデックス: 0.71-0.76) と TVAE (Cインデックス: 0.73-0.76) は、生存予測評価において最強のパフォーマンスを達成した。
プライバシー評価は再識別攻撃に対する保護を確認した。
結論: ディープラーニングベースの合成データ生成は、研究アプリケーションに適した高忠実でプライバシ保護されたHFデータセットを生成することができる。
この公開可能な合成データセットは、重要なデータ共有障壁に対処し、HF研究の進展と予測モデリングのための貴重なリソースを提供する。
関連論文リスト
- Graph-Convolutional-Beta-VAE for Synthetic Abdominal Aorta Aneurysm Generation [4.363232795241618]
本研究は, 人工腹部大動脈瘤(AAA)生成のためのβ可変オートエンコーダグラフ畳み込みニューラルネットワークフレームワークを提案する。
提案手法は, 解剖学的特徴を抽出し, コンパクトな非絡み合い空間内での複雑な統計的関係を捉える。
合成AAAデータセットは患者のプライバシを保護し、医療研究、デバイステスト、計算モデリングのためのスケーラブルな基盤を提供する。
論文 参考訳(メタデータ) (2025-06-16T15:55:56Z) - Zero-shot generation of synthetic neurosurgical data with large language models [0.7373617024876725]
本研究の目的は,大言語モデル(LLM, GPT-4o)を用いた人工神経外科データのゼロショット生成能力を評価することである。
GPT-4oで合成されたデータは、小さなサンプルサイズで臨床データを効果的に増強し、神経外科的結果を予測するためのMLモデルを訓練することができる。
論文 参考訳(メタデータ) (2025-02-13T18:21:15Z) - Socially Aware Synthetic Data Generation for Suicidal Ideation Detection
Using Large Language Models [8.832297887534445]
我々は、生成AIモデルの能力を活用して、自殺的思考検出のための合成データを作成する革新的な戦略を導入する。
我々は、最先端のNLP分類モデル、特にBERTファミリー構造を中心としてベンチマークを行った。
我々の合成データ駆動方式は,両モデルに一貫したF1スコア(0.82)を提供する。
論文 参考訳(メタデータ) (2024-01-25T18:25:05Z) - Reliability in Semantic Segmentation: Can We Use Synthetic Data? [69.28268603137546]
セマンティックセグメンテーションモデルの現実的信頼性を総合的に評価するために、合成データを具体的に生成する方法を初めて示す。
この合成データは、事前訓練されたセグメンタの堅牢性を評価するために使用される。
セグメンタのキャリブレーションとOOD検出能力を向上するために,我々のアプローチをどのように活用できるかを実証する。
論文 参考訳(メタデータ) (2023-12-14T18:56:07Z) - MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data
Augmentation [58.93221876843639]
本稿では,MedDiffusion という,エンドツーエンドの拡散に基づくリスク予測モデルを提案する。
トレーニング中に合成患者データを作成し、サンプルスペースを拡大することで、リスク予測性能を向上させる。
ステップワイズ・アテンション・メカニズムを用いて患者の来訪者間の隠れた関係を識別し、高品質なデータを生成する上で最も重要な情報をモデルが自動的に保持することを可能にする。
論文 参考訳(メタデータ) (2023-10-04T01:36:30Z) - Conservative Prediction via Data-Driven Confidence Minimization [70.93946578046003]
機械学習の安全性クリティカルな応用においては、モデルが保守的であることが望ましいことが多い。
本研究では,不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:05:36Z) - Synthesize High-dimensional Longitudinal Electronic Health Records via
Hierarchical Autoregressive Language Model [40.473866438962034]
合成電子健康記録は、機械学習(ML)モデリングと統計解析のための実際のEHRの代替として機能することができる。
階層型自己回帰言語mOdel(HALO)を提案する。
論文 参考訳(メタデータ) (2023-04-04T23:53:34Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。