論文の概要: Protect and Extend -- Using GANs for Synthetic Data Generation of
Time-Series Medical Records
- arxiv url: http://arxiv.org/abs/2402.14042v2
- Date: Fri, 1 Mar 2024 11:46:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-04 13:41:17.301048
- Title: Protect and Extend -- Using GANs for Synthetic Data Generation of
Time-Series Medical Records
- Title(参考訳): 保護と拡張 -- GANを用いた時系列医療記録の合成データ生成
- Authors: Navid Ashrafi, Vera Schmitt, Robert P. Spang, Sebastian M\"oller,
Jan-Niklas Voigt-Antons
- Abstract要約: 本研究は、認知症患者の時系列合成医療記録を生成するために、現在最先端のGANベースの合成データ生成モデルと比較する。
本実験は,プライバシ保護に関する他のモデルよりも,プライバシ保護GAN(PPGAN)モデルの方が優れていることを示す。
- 参考スコア(独自算出の注目度): 1.9749268648715583
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Preservation of private user data is of paramount importance for high Quality
of Experience (QoE) and acceptability, particularly with services treating
sensitive data, such as IT-based health services. Whereas anonymization
techniques were shown to be prone to data re-identification, synthetic data
generation has gradually replaced anonymization since it is relatively less
time and resource-consuming and more robust to data leakage. Generative
Adversarial Networks (GANs) have been used for generating synthetic datasets,
especially GAN frameworks adhering to the differential privacy phenomena. This
research compares state-of-the-art GAN-based models for synthetic data
generation to generate time-series synthetic medical records of dementia
patients which can be distributed without privacy concerns. Predictive
modeling, autocorrelation, and distribution analysis are used to assess the
Quality of Generating (QoG) of the generated data. The privacy preservation of
the respective models is assessed by applying membership inference attacks to
determine potential data leakage risks. Our experiments indicate the
superiority of the privacy-preserving GAN (PPGAN) model over other models
regarding privacy preservation while maintaining an acceptable level of QoG.
The presented results can support better data protection for medical use cases
in the future.
- Abstract(参考訳): プライベートユーザデータの保存は、QoE(High Quality of Experience)やアクセシビリティ、特にITベースのヘルスサービスのような機密データを扱うサービスにとって、最重要事項である。
匿名化技術は、データ再識別の傾向が見られたが、データ漏洩に対する時間とリソースの消費が比較的少なく、堅牢であるため、合成データ生成は、匿名化を徐々に置き換えている。
GAN(Generative Adversarial Networks)は、合成データセットの生成、特に差分プライバシー現象に固執するGANフレームワークに使用されている。
本研究では,合成データ生成のための最先端のganモデルを比較し,プライバシの心配なく配布可能な認知症患者の時系列合成医療記録を生成する。
予測モデリング、自己相関、分布解析を用いて、生成されたデータの生成品質(QoG)を評価する。
各モデルのプライバシー保護は、潜在的データ漏洩リスクを決定するためにメンバーシップ推論攻撃を適用することで評価される。
本実験は,QoGの許容レベルを維持しつつ,プライバシ保護に関する他のモデルよりも,プライバシ保護GAN(PPGAN)モデルの方が優れていることを示す。
以上の結果から今後,医療現場におけるデータ保護の改善が期待できる。
関連論文リスト
- Evaluating Differentially Private Synthetic Data Generation in High-Stakes Domains [9.123834467375532]
実データの代わりに、微分プライベート言語モデルから生成された合成データを用いて、高速領域におけるNLPの開発を容易にする可能性について検討する。
以上の結果から,従来の簡易評価では,合成データの有用性,プライバシ,公平性を強調できなかったことが示唆された。
論文 参考訳(メタデータ) (2024-10-10T19:31:02Z) - KIPPS: Knowledge infusion in Privacy Preserving Synthetic Data
Generation [0.0]
生成的ディープラーニングモデルは、ドメイン制約のある離散的および非ガウス的特徴をモデル化するのに苦労する。
生成モデルは、プライバシーリスクであるセンシティブな機能を繰り返す合成データを生成する。
本稿では,知識グラフから知識グラフにドメインと規則的知識を注入する新しいモデルKIPPSを提案する。
論文 参考訳(メタデータ) (2024-09-25T19:50:03Z) - Mitigating the Privacy Issues in Retrieval-Augmented Generation (RAG) via Pure Synthetic Data [51.41288763521186]
Retrieval-augmented Generation (RAG)は、外部知識ソースから取得した関連情報を統合することにより、言語モデルの出力を強化する。
RAGシステムは、プライベートデータを取得する際に深刻なプライバシーリスクに直面する可能性がある。
検索データに対するプライバシー保護の代替として,合成データを用いる方法を提案する。
論文 参考訳(メタデータ) (2024-06-20T22:53:09Z) - Synthesizing Multimodal Electronic Health Records via Predictive Diffusion Models [69.06149482021071]
EHRPDと呼ばれる新しいEHRデータ生成モデルを提案する。
時間間隔推定を組み込んだ拡散モデルである。
我々は2つの公開データセットで実験を行い、忠実さ、プライバシー、実用性の観点からEPHPDを評価する。
論文 参考訳(メタデータ) (2024-06-20T02:20:23Z) - Quantifying and Mitigating Privacy Risks for Tabular Generative Models [13.153278585144355]
生成モデルからの合成データは、プライバシを保存するデータ共有ソリューションとして現れる。
本稿では,DP-TLDM,差分プライベートタブララプレント拡散モデルを提案する。
DP-TLDMは, 平均データ類似度35%, 下流タスク用ユーティリティ15%, データの識別性50%で, 合成品質の向上を図っている。
論文 参考訳(メタデータ) (2024-03-12T17:27:49Z) - MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data
Augmentation [58.93221876843639]
本稿では,MedDiffusion という,エンドツーエンドの拡散に基づくリスク予測モデルを提案する。
トレーニング中に合成患者データを作成し、サンプルスペースを拡大することで、リスク予測性能を向上させる。
ステップワイズ・アテンション・メカニズムを用いて患者の来訪者間の隠れた関係を識別し、高品質なデータを生成する上で最も重要な情報をモデルが自動的に保持することを可能にする。
論文 参考訳(メタデータ) (2023-10-04T01:36:30Z) - Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic
Data [91.52783572568214]
合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。
合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
論文 参考訳(メタデータ) (2023-04-07T16:38:40Z) - Differentially Private Synthetic Medical Data Generation using
Convolutional GANs [7.2372051099165065]
R'enyiの差分プライバシーを用いた合成データ生成のための差分プライベートフレームワークを開発する。
提案手法は, 畳み込み自己エンコーダと畳み込み生成対向ネットワークを利用して, 生成した合成データの重要な特性をある程度保存する。
私たちのモデルは、同じプライバシー予算の下で既存の最新モデルを上回ることを実証します。
論文 参考訳(メタデータ) (2020-12-22T01:03:49Z) - Privacy-preserving medical image analysis [53.4844489668116]
医用画像におけるプライバシ保護機械学習(PPML)のためのソフトウェアフレームワークであるPriMIAを提案する。
集合型学習モデルの分類性能は,未発見データセットの人間専門家と比較して有意に良好である。
グラデーションベースのモデル反転攻撃に対するフレームワークのセキュリティを実証的に評価する。
論文 参考訳(メタデータ) (2020-12-10T13:56:00Z) - Hide-and-Seek Privacy Challenge [88.49671206936259]
NeurIPS 2020 Hide-and-Seek Privacy Challengeは、両方の問題を解決するための新しい2トラックの競争だ。
我々の頭から頭までのフォーマットでは、新しい高品質な集中ケア時系列データセットを用いて、合成データ生成トラック(「ヒッシャー」)と患者再識別トラック(「シーカー」)の参加者が直接対決する。
論文 参考訳(メタデータ) (2020-07-23T15:50:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。