論文の概要: Synthesizing Mixed-type Electronic Health Records using Diffusion Models
- arxiv url: http://arxiv.org/abs/2302.14679v2
- Date: Thu, 10 Aug 2023 16:46:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-11 16:16:09.622810
- Title: Synthesizing Mixed-type Electronic Health Records using Diffusion Models
- Title(参考訳): 拡散モデルを用いた混合電子健康記録の合成
- Authors: Taha Ceritli, Ghadeer O. Ghosheh, Vinod Kumar Chauhan, Tingting Zhu,
Andrew P. Creagh, and David A. Clifton
- Abstract要約: 合成データ生成は、機密性の高い患者情報を共有する際のプライバシー上の懸念を軽減するための有望なソリューションである。
近年の研究では、拡散モデルは、より現実的な合成データの生成や、画像、テキスト、音声などのデータモダリティの生成における安定したトレーニングなど、GANに対していくつかの利点があることが示された。
実験の結果,TabDDPMは,プライバシーとユーティリティのトレードオフを確認するプライバシー以外のすべての評価指標において,最先端モデルよりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 10.973115905786129
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Electronic Health Records (EHRs) contain sensitive patient information, which
presents privacy concerns when sharing such data. Synthetic data generation is
a promising solution to mitigate these risks, often relying on deep generative
models such as Generative Adversarial Networks (GANs). However, recent studies
have shown that diffusion models offer several advantages over GANs, such as
generation of more realistic synthetic data and stable training in generating
data modalities, including image, text, and sound. In this work, we investigate
the potential of diffusion models for generating realistic mixed-type tabular
EHRs, comparing TabDDPM model with existing methods on four datasets in terms
of data quality, utility, privacy, and augmentation. Our experiments
demonstrate that TabDDPM outperforms the state-of-the-art models across all
evaluation metrics, except for privacy, which confirms the trade-off between
privacy and utility.
- Abstract(参考訳): 電子健康記録(ehrs)はセンシティブな患者情報を含み、そのようなデータを共有する際にプライバシーの懸念を示す。
合成データ生成はこれらのリスクを軽減するための有望なソリューションであり、しばしばジェネレーティブ・アドバイザリ・ネットワーク(GAN)のような深層生成モデルに依存している。
しかし、最近の研究では、拡散モデルがより現実的な合成データの生成や、画像、テキスト、音声などのデータモダリティの生成における安定したトレーニングなど、GANに対していくつかの利点をもたらすことが示されている。
本研究では,データ品質,ユーティリティ,プライバシ,拡張性の観点から,TabDDPMモデルと4つのデータセット上の既存手法を比較して,現実的な混合型表型EHRを生成するための拡散モデルの可能性を検討する。
実験の結果,TabDDPMは,プライバシーとユーティリティのトレードオフを確認するプライバシー以外のすべての評価指標において,最先端モデルよりも優れていることがわかった。
関連論文リスト
- Synthetic location trajectory generation using categorical diffusion
models [50.809683239937584]
拡散モデル(DPM)は急速に進化し、合成データのシミュレーションにおける主要な生成モデルの一つとなっている。
本稿では,個人が訪れた物理的位置を表す変数列である合成個別位置軌跡(ILT)の生成にDPMを用いることを提案する。
論文 参考訳(メタデータ) (2024-02-19T15:57:39Z) - MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data
Augmentation [58.93221876843639]
本稿では,MedDiffusion という,エンドツーエンドの拡散に基づくリスク予測モデルを提案する。
トレーニング中に合成患者データを作成し、サンプルスペースを拡大することで、リスク予測性能を向上させる。
ステップワイズ・アテンション・メカニズムを用いて患者の来訪者間の隠れた関係を識別し、高品質なデータを生成する上で最も重要な情報をモデルが自動的に保持することを可能にする。
論文 参考訳(メタデータ) (2023-10-04T01:36:30Z) - On the Stability of Iterative Retraining of Generative Models on their
own Data [56.153542044045224]
生成モデルの訓練がデータセット(実データと合成データの混合データ)の安定性に及ぼす影響について検討した。
まず、初期生成モデルがデータ分布を十分に近似する条件下で反復学習の安定性を実証する。
我々は,CIFAR10およびFFHQ上の正規化フローと最先端拡散モデルの反復的訓練により,合成画像と自然画像の両方に関する理論を実証的に検証した。
論文 参考訳(メタデータ) (2023-09-30T16:41:04Z) - Generating tabular datasets under differential privacy [0.0]
ディープニューラルネットワークのトレーニングプロセスに差分プライバシー(DP)を導入する。
これにより、結果データの品質とプライバシの間にトレードオフが生じます。
我々は、注意機構を活用する新しいエンドツーエンドモデルを実装している。
論文 参考訳(メタデータ) (2023-08-28T16:35:43Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Synthetic Health-related Longitudinal Data with Mixed-type Variables
Generated using Diffusion Models [2.140861702387444]
本稿では拡散確率モデル(DPM)を用いた電子健康記録のシミュレーション手法を提案する。
数値変数,二項変数,カテゴリー変数を含む混合型変数を捕捉する縦型EHRの合成におけるDPMの有効性を示す。
論文 参考訳(メタデータ) (2023-03-22T03:15:33Z) - MedDiff: Generating Electronic Health Records using Accelerated
Denoising Diffusion Model [5.677138915301383]
電子健康記録への最初の応用である拡散モデルに基づく新しい生成モデルを提案する。
本モデルでは,ラベル情報を保存するために,クラス条件サンプリングを行う機構を提案する。
論文 参考訳(メタデータ) (2023-02-08T22:06:34Z) - Evaluation of the Synthetic Electronic Health Records [3.255030588361125]
本研究は、合成データセットのサンプルワイズ評価のための類似性と特異性という2つの指標を概説する。
本研究は,Cystic Fibrosis (CF) 患者の電子的健康記録を合成するために,いくつかの最先端の遺伝子モデルを用いて提案された概念を実証する。
論文 参考訳(メタデータ) (2022-10-16T22:46:08Z) - Mixed Effects Neural ODE: A Variational Approximation for Analyzing the
Dynamics of Panel Data [50.23363975709122]
パネルデータ解析に(固定・ランダムな)混合効果を取り入れたME-NODEという確率モデルを提案する。
我々は、Wong-Zakai定理によって提供されるSDEの滑らかな近似を用いて、我々のモデルを導出できることを示す。
次に、ME-NODEのためのエビデンスに基づく下界を導出し、(効率的な)トレーニングアルゴリズムを開発する。
論文 参考訳(メタデータ) (2022-02-18T22:41:51Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。