論文の概要: A Multifaceted Benchmarking of Synthetic Electronic Health Record
Generation Models
- arxiv url: http://arxiv.org/abs/2208.01230v1
- Date: Tue, 2 Aug 2022 03:44:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-03 13:04:13.943407
- Title: A Multifaceted Benchmarking of Synthetic Electronic Health Record
Generation Models
- Title(参考訳): 合成電子健康記録生成モデルの多面的ベンチマーク
- Authors: Chao Yan, Yao Yan, Zhiyu Wan, Ziqi Zhang, Larsson Omberg, Justin
Guinney, Sean D. Mooney, Bradley A. Malin
- Abstract要約: 人工健康データの重要な特徴を評価するために,一般化可能なベンチマークフレームワークを導入する。
その結果, 合成EHRデータの共有にはユーティリティ・プライバシ・トレードオフが存在することがわかった。
- 参考スコア(独自算出の注目度): 15.165156674288623
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthetic health data have the potential to mitigate privacy concerns when
sharing data to support biomedical research and the development of innovative
healthcare applications. Modern approaches for data generation based on machine
learning, generative adversarial networks (GAN) methods in particular, continue
to evolve and demonstrate remarkable potential. Yet there is a lack of a
systematic assessment framework to benchmark methods as they emerge and
determine which methods are most appropriate for which use cases. In this work,
we introduce a generalizable benchmarking framework to appraise key
characteristics of synthetic health data with respect to utility and privacy
metrics. We apply the framework to evaluate synthetic data generation methods
for electronic health records (EHRs) data from two large academic medical
centers with respect to several use cases. The results illustrate that there is
a utility-privacy tradeoff for sharing synthetic EHR data. The results further
indicate that no method is unequivocally the best on all criteria in each use
case, which makes it evident why synthetic data generation methods need to be
assessed in context.
- Abstract(参考訳): 合成健康データは、バイオメディカル研究と革新的な医療アプリケーションの開発を支援するためにデータを共有する際のプライバシー上の懸念を軽減する可能性がある。
機械学習に基づくデータ生成の現代的アプローチ、特にGAN(Generative Adversarial Network)手法は進化を続け、顕著な可能性を示している。
しかし、メソッドが出現し、どのユースケースに最も適しているかを判断するときに、メソッドをベンチマークする体系的なアセスメントフレームワークが欠如しています。
本研究では、実用性およびプライバシの指標に関して、合成健康データの重要な特性を評価するための一般化可能なベンチマークフレームワークを提案する。
本研究では,電子健康記録(EHR)データの合成データ生成手法を2つの大学術機関から評価するための枠組みを適用した。
その結果、合成ERHデータを共有するためのユーティリティプライバシトレードオフが存在することが明らかになった。
さらに,各ユースケースのすべての基準において,どの手法が最良であるかは明らかであり,なぜ合成データ生成手法を文脈で評価する必要があるのかを明らかにした。
関連論文リスト
- NFDI4Health workflow and service for synthetic data generation, assessment and risk management [0.0]
この課題に対する有望な解決策は、合成データ生成である。
この手法は、実際のデータの統計特性を模倣する全く新しいデータセットを作成する。
本稿では,ドイツのNFDI4Healthプロジェクト(NFDI4Health)の文脈で開発されたワークフローとサービスについて述べる。
論文 参考訳(メタデータ) (2024-08-08T14:08:39Z) - Synthesizing Multimodal Electronic Health Records via Predictive Diffusion Models [69.06149482021071]
EHRPDと呼ばれる新しいEHRデータ生成モデルを提案する。
時間間隔推定を組み込んだ拡散モデルである。
我々は2つの公開データセットで実験を行い、忠実さ、プライバシー、実用性の観点からEPHPDを評価する。
論文 参考訳(メタデータ) (2024-06-20T02:20:23Z) - A Multi-Faceted Evaluation Framework for Assessing Synthetic Data Generated by Large Language Models [3.672850225066168]
生成AIと大規模言語モデル(LLM)は、合成データを生成するための新たな道を開いた。
潜在的なメリットにもかかわらず、プライバシー漏洩に関する懸念が浮上している。
我々は,合成表データの忠実さ,有用性,およびプライバシー保護を評価するために設計されたオープンソースの評価フレームワークであるSynEvalを紹介する。
論文 参考訳(メタデータ) (2024-04-20T08:08:28Z) - Towards Biologically Plausible and Private Gene Expression Data
Generation [47.72947816788821]
差分プライバシー(DP)で訓練された生成モデルは、下流アプリケーションのための合成データの作成において、ますます顕著になりつつある。
しかし、既存の文献は主に基本的なベンチマークデータセットに焦点を当てており、基本的なメトリクスと比較的単純なデータ分布にのみ有望な結果を報告する傾向にある。
本研究では,DP生成モデルが自然応用シナリオにおいてどのように機能するかを系統的に分析し,実世界の遺伝子発現データに焦点をあてる。
論文 参考訳(メタデータ) (2024-02-07T14:39:11Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Methods for generating and evaluating synthetic longitudinal patient
data: a systematic review [0.0]
本稿では, 合成長手患者データの生成と評価方法について, 体系的に検討する。
レビューはPRISMAガイドラインに準拠し、2022年末まで5つのデータベースからの文献をカバーしている。
本稿では,従来のシミュレーション手法から最新のディープラーニング手法まで,17の手法について述べる。
論文 参考訳(メタデータ) (2023-09-21T12:44:31Z) - SoK: Privacy-Preserving Data Synthesis [72.92263073534899]
本稿では,プライバシ保護データ合成(PPDS)に注目し,その分野の総合的な概要,分析,議論を行う。
PPDSでは,統計的手法と深層学習(DL)に基づく手法の2つの顕著な研究を統一するマスターレシピを作成した。
論文 参考訳(メタデータ) (2023-07-05T08:29:31Z) - Synthetic data generation for a longitudinal cohort study -- Evaluation,
method extension and reproduction of published data analysis results [0.32593385688760446]
医療分野では、プライバシー上の懸念から個人レベルのデータへのアクセスは困難であることが多い。
有望な代替手段は、完全な合成データの生成である。
本研究では,最先端の合成データ生成手法を用いる。
論文 参考訳(メタデータ) (2023-05-12T13:13:55Z) - Evaluation of the Synthetic Electronic Health Records [3.255030588361125]
本研究は、合成データセットのサンプルワイズ評価のための類似性と特異性という2つの指標を概説する。
本研究は,Cystic Fibrosis (CF) 患者の電子的健康記録を合成するために,いくつかの最先端の遺伝子モデルを用いて提案された概念を実証する。
論文 参考訳(メタデータ) (2022-10-16T22:46:08Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Privacy-preserving medical image analysis [53.4844489668116]
医用画像におけるプライバシ保護機械学習(PPML)のためのソフトウェアフレームワークであるPriMIAを提案する。
集合型学習モデルの分類性能は,未発見データセットの人間専門家と比較して有意に良好である。
グラデーションベースのモデル反転攻撃に対するフレームワークのセキュリティを実証的に評価する。
論文 参考訳(メタデータ) (2020-12-10T13:56:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。