論文の概要: Synthetic Health-related Longitudinal Data with Mixed-type Variables
Generated using Diffusion Models
- arxiv url: http://arxiv.org/abs/2303.12281v1
- Date: Wed, 22 Mar 2023 03:15:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-23 15:28:05.083976
- Title: Synthetic Health-related Longitudinal Data with Mixed-type Variables
Generated using Diffusion Models
- Title(参考訳): 拡散モデルを用いた混合型変数の合成健康関連縦断データ
- Authors: Nicholas I-Hsien Kuo, Louisa Jorm, Sebastiano Barbieri
- Abstract要約: 本稿では拡散確率モデル(DPM)を用いた電子健康記録のシミュレーション手法を提案する。
数値変数,二項変数,カテゴリー変数を含む混合型変数を捕捉する縦型EHRの合成におけるDPMの有効性を示す。
- 参考スコア(独自算出の注目度): 2.140861702387444
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a novel approach to simulating electronic health records
(EHRs) using diffusion probabilistic models (DPMs). Specifically, we
demonstrate the effectiveness of DPMs in synthesising longitudinal EHRs that
capture mixed-type variables, including numeric, binary, and categorical
variables. To our knowledge, this represents the first use of DPMs for this
purpose. We compared our DPM-simulated datasets to previous state-of-the-art
results based on generative adversarial networks (GANs) for two clinical
applications: acute hypotension and human immunodeficiency virus (ART for HIV).
Given the lack of similar previous studies in DPMs, a core component of our
work involves exploring the advantages and caveats of employing DPMs across a
wide range of aspects. In addition to assessing the realism of the synthetic
datasets, we also trained reinforcement learning (RL) agents on the synthetic
data to evaluate their utility for supporting the development of downstream
machine learning models. Finally, we estimated that our DPM-simulated datasets
are secure and posed a low patient exposure risk for public access.
- Abstract(参考訳): 本稿では拡散確率モデル(DPM)を用いた電子健康記録(EHR)のシミュレーション手法を提案する。
具体的には、数値変数、二項変数、カテゴリー変数を含む混合型変数を捕捉する縦型EHRの合成におけるDPMの有効性を示す。
私たちの知る限り、これはdpmsをこの目的に初めて使うことを表している。
ヒト免疫不全ウイルス (art for hiv) と急性低血圧の2つの臨床応用について, dpmシミュレーションデータセットとgans(generative adversarial network)を用いた先行研究結果を比較した。
DPMにおける同様の研究が欠如していることを踏まえると、我々の研究の中核となるコンポーネントは、幅広い側面でDPMを採用する利点と欠点を探究することである。
また,合成データセットのリアリズムの評価に加えて,合成データに対する強化学習(rl)エージェントを訓練し,下流機械学習モデルの開発を支援するための有用性を評価した。
最後に、我々のDPMシミュレーションデータセットは安全であり、公開アクセスのリスクが低いと推定した。
関連論文リスト
- Towards a Theoretical Understanding of Memorization in Diffusion Models [76.85077961718875]
拡散確率モデル(DPM)は、生成人工知能(GenAI)の主流モデルとして採用されている。
モデル収束を前提とした条件付きおよび非条件付きDPMにおける記憶の理論的理解を提供する。
本研究では、生成されたデータに基づいて訓練された時間依存型分類器を代理条件として利用し、無条件DPMからトレーニングデータを抽出する、textbfSurrogate condItional Data extract (SIDE) という新しいデータ抽出手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T13:17:06Z) - Synthesizing Multimodal Electronic Health Records via Predictive Diffusion Models [69.06149482021071]
EHRPDと呼ばれる新しいEHRデータ生成モデルを提案する。
時間間隔推定を組み込んだ拡散モデルである。
我々は2つの公開データセットで実験を行い、忠実さ、プライバシー、実用性の観点からEPHPDを評価する。
論文 参考訳(メタデータ) (2024-06-20T02:20:23Z) - Extracting Training Data from Unconditional Diffusion Models [76.85077961718875]
拡散確率モデル(DPM)は、生成人工知能(AI)の主流モデルとして採用されている。
本研究の目的は,1) 理論解析のための記憶量,2) 情報ラベルとランダムラベルを用いた条件記憶量,3) 記憶量測定のための2つのより良い評価指標を用いて,DPMにおける記憶量の理論的理解を確立することである。
提案手法は,理論解析に基づいて,SIDE (textbfSurrogate condItional Data extract) と呼ばれる新しいデータ抽出手法を提案する。
論文 参考訳(メタデータ) (2024-06-18T16:20:12Z) - Guided Discrete Diffusion for Electronic Health Record Generation [47.129056768385084]
EHRは、病気の進行予測、臨床試験設計、健康経済学と結果研究など、多くの計算医学の応用を可能にする中心的なデータソースである。
幅広いユーザビリティにもかかわらず、その繊細な性質はプライバシーと秘密の懸念を高め、潜在的なユースケースを制限する。
これらの課題に対処するために,人工的かつ現実的なEHRを合成するための生成モデルの利用について検討する。
論文 参考訳(メタデータ) (2024-04-18T16:50:46Z) - Synthetic location trajectory generation using categorical diffusion
models [50.809683239937584]
拡散モデル(DPM)は急速に進化し、合成データのシミュレーションにおける主要な生成モデルの一つとなっている。
本稿では,個人が訪れた物理的位置を表す変数列である合成個別位置軌跡(ILT)の生成にDPMを用いることを提案する。
論文 参考訳(メタデータ) (2024-02-19T15:57:39Z) - MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data
Augmentation [58.93221876843639]
本稿では,MedDiffusion という,エンドツーエンドの拡散に基づくリスク予測モデルを提案する。
トレーニング中に合成患者データを作成し、サンプルスペースを拡大することで、リスク予測性能を向上させる。
ステップワイズ・アテンション・メカニズムを用いて患者の来訪者間の隠れた関係を識別し、高品質なデータを生成する上で最も重要な情報をモデルが自動的に保持することを可能にする。
論文 参考訳(メタデータ) (2023-10-04T01:36:30Z) - Synthesizing Mixed-type Electronic Health Records using Diffusion Models [10.973115905786129]
合成データ生成は、機密性の高い患者情報を共有する際のプライバシー上の懸念を軽減するための有望なソリューションである。
近年の研究では、拡散モデルは、より現実的な合成データの生成や、画像、テキスト、音声などのデータモダリティの生成における安定したトレーニングなど、GANに対していくつかの利点があることが示された。
実験の結果,TabDDPMは,プライバシーとユーティリティのトレードオフを確認するプライバシー以外のすべての評価指標において,最先端モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-28T15:42:30Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。