論文の概要: Synthesize High-dimensional Longitudinal Electronic Health Records via
Hierarchical Autoregressive Language Model
- arxiv url: http://arxiv.org/abs/2304.02169v2
- Date: Thu, 24 Aug 2023 04:25:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-25 18:12:53.624746
- Title: Synthesize High-dimensional Longitudinal Electronic Health Records via
Hierarchical Autoregressive Language Model
- Title(参考訳): 階層的自己回帰言語モデルによる高次元縦型電子健康記録の合成
- Authors: Brandon Theodorou, Cao Xiao, and Jimeng Sun
- Abstract要約: 合成電子健康記録は、機械学習(ML)モデリングと統計解析のための実際のEHRの代替として機能することができる。
階層型自己回帰言語mOdel(HALO)を提案する。
- 参考スコア(独自算出の注目度): 40.473866438962034
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synthetic electronic health records (EHRs) that are both realistic and
preserve privacy can serve as an alternative to real EHRs for machine learning
(ML) modeling and statistical analysis. However, generating high-fidelity and
granular electronic health record (EHR) data in its original,
highly-dimensional form poses challenges for existing methods due to the
complexities inherent in high-dimensional data. In this paper, we propose
Hierarchical Autoregressive Language mOdel (HALO) for generating longitudinal
high-dimensional EHR, which preserve the statistical properties of real EHR and
can be used to train accurate ML models without privacy concerns. Our HALO
method, designed as a hierarchical autoregressive model, generates a
probability density function of medical codes, clinical visits, and patient
records, allowing for the generation of realistic EHR data in its original,
unaggregated form without the need for variable selection or aggregation.
Additionally, our model also produces high-quality continuous variables in a
longitudinal and probabilistic manner. We conducted extensive experiments and
demonstrate that HALO can generate high-fidelity EHR data with high-dimensional
disease code probabilities (d > 10,000), disease co-occurrence probabilities
within visits (d > 1,000,000), and conditional probabilities across consecutive
visits (d > 5,000,000) and achieve above 0.9 R2 correlation in comparison to
real EHR data. This performance then enables downstream ML models trained on
its synthetic data to achieve comparable accuracy to models trained on real
data (0.938 AUROC with HALO data vs. 0.943 with real data). Finally, using a
combination of real and synthetic data enhances the accuracy of ML models
beyond that achieved by using only real EHR data.
- Abstract(参考訳): リアルかつプライバシを保護した合成電子健康記録(EHR)は、機械学習(ML)モデリングと統計分析のための実際のEHRの代替となる。
しかし,ehr(high-fidelity and granular electronic health record)データの生成は,高次元データに固有の複雑さが原因で既存の手法では課題となっている。
本稿では, 階層型自己回帰言語mOdel(HALO)を提案する。これは, 現実のEHRの統計特性を保存し, プライバシーを考慮せずに正確なMLモデルのトレーニングに使用できる。
階層的自己回帰モデルとして設計されたhalo法は, 医用コード, 臨床訪問, 患者記録の確率密度関数を生成し, 変数選択や集計を必要とせず, 元の非集約形式のehrデータを生成する。
さらに,このモデルでは,高品質な連続変数を連続的かつ確率的に生成する。
我々は, HALOが高次元疾患コード確率(d >10,000), 訪問中の疾患共起確率(d > 1000,000), 連続訪問における条件付き確率(d > 5,000,000)で高忠実性EHRデータを生成し, 実EHRデータと比較して0.9R2以上の相関を達成できることを実証した。
このパフォーマンスにより、合成データに基づいてトレーニングされた下流MLモデルを、実データでトレーニングされたモデルに匹敵する精度を達成することができる(HALOデータでは0.938 AUROC、実データでは0.943)。
最後に、実データと合成データの組み合わせにより、実際のEHRデータのみを使用することで達成された以上のMLモデルの精度を高める。
関連論文リスト
- Synthesizing Multimodal Electronic Health Records via Predictive Diffusion Models [69.06149482021071]
EHRPDと呼ばれる新しいEHRデータ生成モデルを提案する。
時間間隔推定を組み込んだ拡散モデルである。
我々は2つの公開データセットで実験を行い、忠実さ、プライバシー、実用性の観点からEPHPDを評価する。
論文 参考訳(メタデータ) (2024-06-20T02:20:23Z) - Synthetic location trajectory generation using categorical diffusion
models [50.809683239937584]
拡散モデル(DPM)は急速に進化し、合成データのシミュレーションにおける主要な生成モデルの一つとなっている。
本稿では,個人が訪れた物理的位置を表す変数列である合成個別位置軌跡(ILT)の生成にDPMを用いることを提案する。
論文 参考訳(メタデータ) (2024-02-19T15:57:39Z) - IGNITE: Individualized GeNeration of Imputations in Time-series
Electronic health records [7.451873794596469]
本研究では、患者動態を学習し、個人の人口動態の特徴や治療に合わせたパーソナライズされた値を生成する新しいディープラーニングモデルを提案する。
提案モデルであるIGNITEは,2段階の注意を付加した条件付き2変分オートエンコーダを用いて,個人に対して欠落した値を生成する。
IGNITEは,データ再構成の欠如やタスク予測において,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-01-09T07:57:21Z) - How Good Are Synthetic Medical Images? An Empirical Study with Lung
Ultrasound [0.3312417881789094]
生成モデルを使用して合成トレーニングデータを追加することで、データの不足に対処するための低コストな方法が提供される。
合成データと実データの両方によるトレーニングは、実データのみによるトレーニングよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-05T15:42:53Z) - MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data
Augmentation [58.93221876843639]
本稿では,MedDiffusion という,エンドツーエンドの拡散に基づくリスク予測モデルを提案する。
トレーニング中に合成患者データを作成し、サンプルスペースを拡大することで、リスク予測性能を向上させる。
ステップワイズ・アテンション・メカニズムを用いて患者の来訪者間の隠れた関係を識別し、高品質なデータを生成する上で最も重要な情報をモデルが自動的に保持することを可能にする。
論文 参考訳(メタデータ) (2023-10-04T01:36:30Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Can segmentation models be trained with fully synthetically generated
data? [0.39577682622066246]
BrainSPADEは、合成拡散ベースのラベルジェネレータとセマンティックイメージジェネレータを組み合わせたモデルである。
本モデルでは, 興味の病理の有無に関わらず, オンデマンドで完全合成脳ラベルを作成でき, 任意のガイド型MRI画像を生成することができる。
brainSPADE合成データは、実際のデータでトレーニングされたモデルに匹敵するパフォーマンスでセグメンテーションモデルをトレーニングするために使用できる。
論文 参考訳(メタデータ) (2022-09-17T05:24:04Z) - Generating Synthetic Mixed-type Longitudinal Electronic Health Records
for Artificial Intelligent Applications [9.374416143268892]
EHR-M-GAN (Generative Adversarial Network, GAN) は、EHRデータを合成する。
EHR-M-GANは,141,488名の患者を対象とし,3つの公用集中治療単位データベース上で検証した。
論文 参考訳(メタデータ) (2021-12-22T17:17:34Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - EVA: Generating Longitudinal Electronic Health Records Using Conditional
Variational Autoencoders [34.22731849545798]
離散的な EHR の出会いと出会いの特徴を合成するための EHR Variational Autoencoder (EVA) を提案する。
EVAは現実的なシーケンスを生成でき、患者間の個人差を考慮し、特定の疾患条件で条件付けできる。
250,000人以上の患者を含む大規模な現実世界のEHRリポジトリの方法の有用性を評価します。
論文 参考訳(メタデータ) (2020-12-18T02:37:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。