論文の概要: SynEHRgy: Synthesizing Mixed-Type Structured Electronic Health Records using Decoder-Only Transformers
- arxiv url: http://arxiv.org/abs/2411.13428v1
- Date: Wed, 20 Nov 2024 16:11:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-21 16:12:59.116158
- Title: SynEHRgy: Synthesizing Mixed-Type Structured Electronic Health Records using Decoder-Only Transformers
- Title(参考訳): SynEHRgy:デコーダオンリートランスを用いた混合型構造化電子健康記録の合成
- Authors: Hojjat Karami, David Atienza, Anisoara Ionescu,
- Abstract要約: 構造化EHRデータに適した新しいトークン化戦略を提案する。
我々は、生成したデータの忠実度、実用性、プライバシを最先端のモデルと比較する。
- 参考スコア(独自算出の注目度): 3.9018723423306003
- License:
- Abstract: Generating synthetic Electronic Health Records (EHRs) offers significant potential for data augmentation, privacy-preserving data sharing, and improving machine learning model training. We propose a novel tokenization strategy tailored for structured EHR data, which encompasses diverse data types such as covariates, ICD codes, and irregularly sampled time series. Using a GPT-like decoder-only transformer model, we demonstrate the generation of high-quality synthetic EHRs. Our approach is evaluated using the MIMIC-III dataset, and we benchmark the fidelity, utility, and privacy of the generated data against state-of-the-art models.
- Abstract(参考訳): 合成電子健康記録(EHRs)の生成は、データ拡張、プライバシ保護データ共有、マシンラーニングモデルトレーニングの改善に重要な可能性を秘めている。
本稿では,共変量,ICD符号,不規則サンプル時系列などの多種多様なデータ型を含む構造化ERHデータに適した新しいトークン化戦略を提案する。
GPT型デコーダのみのトランスモデルを用いて,高品質な合成EHRの生成を実証する。
提案手法はMIMIC-IIIデータセットを用いて評価され, 生成したデータの忠実度, 実用性, プライバシを, 最先端モデルと比較して評価する。
関連論文リスト
- Little Giants: Synthesizing High-Quality Embedding Data at Scale [71.352883755806]
SPEEDは,オープンソースの小型モデルと協調して大規模な埋め込みデータを効率的に生成するフレームワークである。
SPEEDはGPT API呼び出しの1/10未満しか使用せず、両者が合成データのみに基づいてトレーニングされている場合、最先端の埋め込みモデルE5_mistralよりも優れている。
論文 参考訳(メタデータ) (2024-10-24T10:47:30Z) - Mitigating the Privacy Issues in Retrieval-Augmented Generation (RAG) via Pure Synthetic Data [51.41288763521186]
Retrieval-augmented Generation (RAG)は、外部知識ソースから取得した関連情報を統合することにより、言語モデルの出力を強化する。
RAGシステムは、プライベートデータを取得する際に深刻なプライバシーリスクに直面する可能性がある。
検索データに対するプライバシー保護の代替として,合成データを用いる方法を提案する。
論文 参考訳(メタデータ) (2024-06-20T22:53:09Z) - Synthesizing Multimodal Electronic Health Records via Predictive Diffusion Models [69.06149482021071]
EHRPDと呼ばれる新しいEHRデータ生成モデルを提案する。
時間間隔推定を組み込んだ拡散モデルである。
我々は2つの公開データセットで実験を行い、忠実さ、プライバシー、実用性の観点からEPHPDを評価する。
論文 参考訳(メタデータ) (2024-06-20T02:20:23Z) - CEHR-GPT: Generating Electronic Health Records with Chronological Patient Timelines [14.386260536090628]
我々は合成データ生成に焦点をあて、特定の患者表現を用いてGPTモデルを訓練する能力を実証する。
これにより、観察医療成果パートナーシップ(OMOP)データフォーマットにシームレスに変換できる患者シーケンスを生成することができる。
論文 参考訳(メタデータ) (2024-02-06T20:58:36Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Synthesizing Mixed-type Electronic Health Records using Diffusion Models [10.973115905786129]
合成データ生成は、機密性の高い患者情報を共有する際のプライバシー上の懸念を軽減するための有望なソリューションである。
近年の研究では、拡散モデルは、より現実的な合成データの生成や、画像、テキスト、音声などのデータモダリティの生成における安定したトレーニングなど、GANに対していくつかの利点があることが示された。
実験の結果,TabDDPMは,プライバシーとユーティリティのトレードオフを確認するプライバシー以外のすべての評価指標において,最先端モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-28T15:42:30Z) - DPD-fVAE: Synthetic Data Generation Using Federated Variational
Autoencoders With Differentially-Private Decoder [0.76146285961466]
そこで我々は,新たなラベル付きデータセットを合成するためのPD-fVAEを提案する。
FLとデコーダコンポーネントのみを同期させることで、エポック毎のプライバシーコストを削減できます。
MNIST, Fashion-MNIST, CelebAの評価では, DPD-fVAEの利点を示し, 競争性能を報告する。
論文 参考訳(メタデータ) (2022-11-21T15:45:15Z) - TTS-CGAN: A Transformer Time-Series Conditional GAN for Biosignal Data
Augmentation [5.607676459156789]
我々は,既存のマルチクラスデータセットに基づいて学習し,クラス固有の合成時系列列を生成する条件付きGANモデルであるTS-CGANを提案する。
我々のモデルによって生成された合成シーケンスは、実データとは区別できないため、同じタイプの実信号の補完や置換に使うことができる。
論文 参考訳(メタデータ) (2022-06-28T01:01:34Z) - Differentially Private Synthetic Medical Data Generation using
Convolutional GANs [7.2372051099165065]
R'enyiの差分プライバシーを用いた合成データ生成のための差分プライベートフレームワークを開発する。
提案手法は, 畳み込み自己エンコーダと畳み込み生成対向ネットワークを利用して, 生成した合成データの重要な特性をある程度保存する。
私たちのモデルは、同じプライバシー予算の下で既存の最新モデルを上回ることを実証します。
論文 参考訳(メタデータ) (2020-12-22T01:03:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。