論文の概要: Generation of Differentially Private Heterogeneous Electronic Health
Records
- arxiv url: http://arxiv.org/abs/2006.03423v1
- Date: Fri, 5 Jun 2020 13:21:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 03:01:20.065339
- Title: Generation of Differentially Private Heterogeneous Electronic Health
Records
- Title(参考訳): 差動的不均質電子健康記録の生成
- Authors: Kieran Chin-Cheong, Thomas Sutter and Julia E. Vogt
- Abstract要約: 本稿では, 合成異種EHRの生成にジェネレーティブ・アドバーサリアル・ネットワークを用いて検討する。
本稿では,DP 合成 EHR データセットを作成するために,差分プライバシ(DP)保存最適化の適用について検討する。
- 参考スコア(独自算出の注目度): 9.926231893220061
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Electronic Health Records (EHRs) are commonly used by the machine learning
community for research on problems specifically related to health care and
medicine. EHRs have the advantages that they can be easily distributed and
contain many features useful for e.g. classification problems. What makes EHR
data sets different from typical machine learning data sets is that they are
often very sparse, due to their high dimensionality, and often contain
heterogeneous (mixed) data types. Furthermore, the data sets deal with
sensitive information, which limits the distribution of any models learned
using them, due to privacy concerns. For these reasons, using EHR data in
practice presents a real challenge. In this work, we explore using Generative
Adversarial Networks to generate synthetic, heterogeneous EHRs with the goal of
using these synthetic records in place of existing data sets for downstream
classification tasks. We will further explore applying differential privacy
(DP) preserving optimization in order to produce DP synthetic EHR data sets,
which provide rigorous privacy guarantees, and are therefore shareable and
usable in the real world. The performance (measured by AUROC, AUPRC and
accuracy) of our model's synthetic, heterogeneous data is very close to the
original data set (within 3 - 5% of the baseline) for the non-DP model when
tested in a binary classification task. Using strong $(1, 10^{-5})$ DP, our
model still produces data useful for machine learning tasks, albeit incurring a
roughly 17% performance penalty in our tested classification task. We
additionally perform a sub-population analysis and find that our model does not
introduce any bias into the synthetic EHR data compared to the baseline in
either male/female populations, or the 0-18, 19-50 and 51+ age groups in terms
of classification performance for either the non-DP or DP variant.
- Abstract(参考訳): 電子健康記録(ehrs)は、医療や医療に関する問題の研究のために機械学習コミュニティによって一般的に使用されている。
EHRには、簡単に配布でき、例えば分類問題に有用な多くの特徴を含むという利点がある。
EHRデータセットが一般的な機械学習データセットと異なるのは、高次元性のためしばしば非常に疎外であり、しばしば異質な(混合された)データ型を含んでいることである。
さらに、データセットは機密情報を扱うため、プライバシー上の懸念から学習したモデルの分布を制限する。
これらの理由から、実際にEHRデータを使用することは、真の課題である。
本研究では,これらの合成レコードを下流分類タスクの既存のデータセットの代わりに活用することを目的として,ジェネレーティブ・アドバーサリアル・ネットワークを用いて合成異種EHRを生成することを検討する。
我々はさらに、厳密なプライバシー保証を提供するDP合成EHRデータセットを作成するために、差分プライバシー(DP)保存最適化の適用について検討する。
AUROC, AUPRC, 精度によって測定された同種データの性能は, バイナリ分類タスクでテストした場合の非DPモデルに対する元のデータセット(ベースラインの3~5%)に非常に近い。
強力な$(1, 10^{-5})$ dpを使用すると、テスト対象の分類タスクで約17%のパフォーマンスペナルティが発生しながら、機械学習タスクに有用なデータを生成します。
また, 本モデルでは, 男性・女性両集団のベースライン, 0-18, 19-50, 51+以上の年齢群と比較して, 非DP, DPのいずれかの分類性能において, 合成ERHデータに偏りは生じないことがわかった。
関連論文リスト
- Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Synthesizing Multimodal Electronic Health Records via Predictive Diffusion Models [69.06149482021071]
EHRPDと呼ばれる新しいEHRデータ生成モデルを提案する。
時間間隔推定を組み込んだ拡散モデルである。
我々は2つの公開データセットで実験を行い、忠実さ、プライバシー、実用性の観点からEPHPDを評価する。
論文 参考訳(メタデータ) (2024-06-20T02:20:23Z) - An improved tabular data generator with VAE-GMM integration [9.4491536689161]
本稿では,現在のアプローチの限界に対処する新しい変分オートエンコーダ(VAE)モデルを提案する。
本手法は,TVAEモデルにインスパイアされたベイジアン・ガウス混合モデル(BGM)をVAEアーキテクチャに組み込む。
我々は,2つの医療関連データセットを含む混合データ型を持つ実世界の3つのデータセットに対して,我々のモデルを徹底的に検証する。
論文 参考訳(メタデータ) (2024-04-12T12:31:06Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Synthesizing Mixed-type Electronic Health Records using Diffusion Models [10.973115905786129]
合成データ生成は、機密性の高い患者情報を共有する際のプライバシー上の懸念を軽減するための有望なソリューションである。
近年の研究では、拡散モデルは、より現実的な合成データの生成や、画像、テキスト、音声などのデータモダリティの生成における安定したトレーニングなど、GANに対していくつかの利点があることが示された。
実験の結果,TabDDPMは,プライバシーとユーティリティのトレードオフを確認するプライバシー以外のすべての評価指標において,最先端モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-28T15:42:30Z) - Rethinking Data Heterogeneity in Federated Learning: Introducing a New
Notion and Standard Benchmarks [65.34113135080105]
我々は、現在のセットアップにおけるデータ不均一性の問題が必ずしも問題であるだけでなく、FL参加者にとって有益であることを示す。
私たちの観察は直感的である。
私たちのコードはhttps://github.com/MMorafah/FL-SC-NIIDで利用可能です。
論文 参考訳(メタデータ) (2022-09-30T17:15:19Z) - Categorical EHR Imputation with Generative Adversarial Nets [11.171712535005357]
本稿では,データ計算のためのGANに関する従来の研究を基にした,シンプルで効果的な手法を提案する。
従来のデータ計算手法に比べて予測精度が大幅に向上していることを示す。
論文 参考訳(メタデータ) (2021-08-03T18:50:26Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Generating Electronic Health Records with Multiple Data Types and
Constraints [17.32526100692928]
電子健康記録(EHR)を大規模に共有することは、プライバシー侵害につながる可能性がある。
近年の研究では、GAN(Generative Adversarial Network)フレームワークを通じてEHRをシミュレートすることでリスクを軽減できることが示されている。
本稿では,1)GANモデルの精細化,2)特徴制約の説明,3)そのような生成タスクに対する重要なユーティリティ対策の導入により,複数のデータタイプからなるEHRをシミュレートする手法を提案する。
論文 参考訳(メタデータ) (2020-03-17T19:25:16Z) - DeepEnroll: Patient-Trial Matching with Deep Embedding and Entailment
Prediction [67.91606509226132]
臨床試験は医薬品開発に不可欠であるが、高価で不正確で不十分な患者募集に苦しむことが多い。
DeepEnrollは、入力基準(タブラリデータ)を一致する推論のための共有潜在空間に共同でエンコードする、クロスモーダル推論学習モデルである。
論文 参考訳(メタデータ) (2020-01-22T17:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。