論文の概要: Synthesizing Mixed-type Electronic Health Records using Diffusion Models
- arxiv url: http://arxiv.org/abs/2302.14679v2
- Date: Thu, 10 Aug 2023 16:46:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-11 16:16:09.622810
- Title: Synthesizing Mixed-type Electronic Health Records using Diffusion Models
- Title(参考訳): 拡散モデルを用いた混合電子健康記録の合成
- Authors: Taha Ceritli, Ghadeer O. Ghosheh, Vinod Kumar Chauhan, Tingting Zhu,
Andrew P. Creagh, and David A. Clifton
- Abstract要約: 合成データ生成は、機密性の高い患者情報を共有する際のプライバシー上の懸念を軽減するための有望なソリューションである。
近年の研究では、拡散モデルは、より現実的な合成データの生成や、画像、テキスト、音声などのデータモダリティの生成における安定したトレーニングなど、GANに対していくつかの利点があることが示された。
実験の結果,TabDDPMは,プライバシーとユーティリティのトレードオフを確認するプライバシー以外のすべての評価指標において,最先端モデルよりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 10.973115905786129
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Electronic Health Records (EHRs) contain sensitive patient information, which
presents privacy concerns when sharing such data. Synthetic data generation is
a promising solution to mitigate these risks, often relying on deep generative
models such as Generative Adversarial Networks (GANs). However, recent studies
have shown that diffusion models offer several advantages over GANs, such as
generation of more realistic synthetic data and stable training in generating
data modalities, including image, text, and sound. In this work, we investigate
the potential of diffusion models for generating realistic mixed-type tabular
EHRs, comparing TabDDPM model with existing methods on four datasets in terms
of data quality, utility, privacy, and augmentation. Our experiments
demonstrate that TabDDPM outperforms the state-of-the-art models across all
evaluation metrics, except for privacy, which confirms the trade-off between
privacy and utility.
- Abstract(参考訳): 電子健康記録(ehrs)はセンシティブな患者情報を含み、そのようなデータを共有する際にプライバシーの懸念を示す。
合成データ生成はこれらのリスクを軽減するための有望なソリューションであり、しばしばジェネレーティブ・アドバイザリ・ネットワーク(GAN)のような深層生成モデルに依存している。
しかし、最近の研究では、拡散モデルがより現実的な合成データの生成や、画像、テキスト、音声などのデータモダリティの生成における安定したトレーニングなど、GANに対していくつかの利点をもたらすことが示されている。
本研究では,データ品質,ユーティリティ,プライバシ,拡張性の観点から,TabDDPMモデルと4つのデータセット上の既存手法を比較して,現実的な混合型表型EHRを生成するための拡散モデルの可能性を検討する。
実験の結果,TabDDPMは,プライバシーとユーティリティのトレードオフを確認するプライバシー以外のすべての評価指標において,最先端モデルよりも優れていることがわかった。
関連論文リスト
- Synthesizing Multimodal Electronic Health Records via Predictive Diffusion Models [69.06149482021071]
EHRPDと呼ばれる新しいEHRデータ生成モデルを提案する。
時間間隔推定を組み込んだ拡散モデルである。
我々は2つの公開データセットで実験を行い、忠実さ、プライバシー、実用性の観点からEPHPDを評価する。
論文 参考訳(メタデータ) (2024-06-20T02:20:23Z) - Efficient Differentially Private Fine-Tuning of Diffusion Models [15.71777343534365]
DP-SGDによる微調整された大規模な拡散モデルは、メモリ使用量や計算量の観点から非常にリソース需要が高い。
本研究では,低次元適応(LoDA)と微分プライバシーを用いた拡散モデルの高効率微調整(PEFT)について検討する。
ソースコードはGitHubで公開されます。
論文 参考訳(メタデータ) (2024-06-07T21:00:20Z) - Guided Discrete Diffusion for Electronic Health Record Generation [47.129056768385084]
EHRは、病気の進行予測、臨床試験設計、健康経済学と結果研究など、多くの計算医学の応用を可能にする中心的なデータソースである。
幅広いユーザビリティにもかかわらず、その繊細な性質はプライバシーと秘密の懸念を高め、潜在的なユースケースを制限する。
これらの課題に対処するために,人工的かつ現実的なEHRを合成するための生成モデルの利用について検討する。
論文 参考訳(メタデータ) (2024-04-18T16:50:46Z) - An improved tabular data generator with VAE-GMM integration [9.4491536689161]
本稿では,現在のアプローチの限界に対処する新しい変分オートエンコーダ(VAE)モデルを提案する。
本手法は,TVAEモデルにインスパイアされたベイジアン・ガウス混合モデル(BGM)をVAEアーキテクチャに組み込む。
我々は,2つの医療関連データセットを含む混合データ型を持つ実世界の3つのデータセットに対して,我々のモデルを徹底的に検証する。
論文 参考訳(メタデータ) (2024-04-12T12:31:06Z) - Synthetic location trajectory generation using categorical diffusion
models [50.809683239937584]
拡散モデル(DPM)は急速に進化し、合成データのシミュレーションにおける主要な生成モデルの一つとなっている。
本稿では,個人が訪れた物理的位置を表す変数列である合成個別位置軌跡(ILT)の生成にDPMを用いることを提案する。
論文 参考訳(メタデータ) (2024-02-19T15:57:39Z) - MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data
Augmentation [58.93221876843639]
本稿では,MedDiffusion という,エンドツーエンドの拡散に基づくリスク予測モデルを提案する。
トレーニング中に合成患者データを作成し、サンプルスペースを拡大することで、リスク予測性能を向上させる。
ステップワイズ・アテンション・メカニズムを用いて患者の来訪者間の隠れた関係を識別し、高品質なデータを生成する上で最も重要な情報をモデルが自動的に保持することを可能にする。
論文 参考訳(メタデータ) (2023-10-04T01:36:30Z) - On the Stability of Iterative Retraining of Generative Models on their own Data [56.153542044045224]
混合データセットに対する生成モデルの訓練が与える影響について検討する。
まず、初期生成モデルがデータ分布を十分に近似する条件下で反復学習の安定性を実証する。
我々は、正規化フローと最先端拡散モデルを繰り返し訓練することにより、合成画像と自然画像の両方に関する我々の理論を実証的に検証する。
論文 参考訳(メタデータ) (2023-09-30T16:41:04Z) - Evaluation of the Synthetic Electronic Health Records [3.255030588361125]
本研究は、合成データセットのサンプルワイズ評価のための類似性と特異性という2つの指標を概説する。
本研究は,Cystic Fibrosis (CF) 患者の電子的健康記録を合成するために,いくつかの最先端の遺伝子モデルを用いて提案された概念を実証する。
論文 参考訳(メタデータ) (2022-10-16T22:46:08Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。