論文の概要: Protect and Extend -- Using GANs for Synthetic Data Generation of
Time-Series Medical Records
- arxiv url: http://arxiv.org/abs/2402.14042v2
- Date: Fri, 1 Mar 2024 11:46:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-04 13:41:17.301048
- Title: Protect and Extend -- Using GANs for Synthetic Data Generation of
Time-Series Medical Records
- Title(参考訳): 保護と拡張 -- GANを用いた時系列医療記録の合成データ生成
- Authors: Navid Ashrafi, Vera Schmitt, Robert P. Spang, Sebastian M\"oller,
Jan-Niklas Voigt-Antons
- Abstract要約: 本研究は、認知症患者の時系列合成医療記録を生成するために、現在最先端のGANベースの合成データ生成モデルと比較する。
本実験は,プライバシ保護に関する他のモデルよりも,プライバシ保護GAN(PPGAN)モデルの方が優れていることを示す。
- 参考スコア(独自算出の注目度): 1.9749268648715583
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Preservation of private user data is of paramount importance for high Quality
of Experience (QoE) and acceptability, particularly with services treating
sensitive data, such as IT-based health services. Whereas anonymization
techniques were shown to be prone to data re-identification, synthetic data
generation has gradually replaced anonymization since it is relatively less
time and resource-consuming and more robust to data leakage. Generative
Adversarial Networks (GANs) have been used for generating synthetic datasets,
especially GAN frameworks adhering to the differential privacy phenomena. This
research compares state-of-the-art GAN-based models for synthetic data
generation to generate time-series synthetic medical records of dementia
patients which can be distributed without privacy concerns. Predictive
modeling, autocorrelation, and distribution analysis are used to assess the
Quality of Generating (QoG) of the generated data. The privacy preservation of
the respective models is assessed by applying membership inference attacks to
determine potential data leakage risks. Our experiments indicate the
superiority of the privacy-preserving GAN (PPGAN) model over other models
regarding privacy preservation while maintaining an acceptable level of QoG.
The presented results can support better data protection for medical use cases
in the future.
- Abstract(参考訳): プライベートユーザデータの保存は、QoE(High Quality of Experience)やアクセシビリティ、特にITベースのヘルスサービスのような機密データを扱うサービスにとって、最重要事項である。
匿名化技術は、データ再識別の傾向が見られたが、データ漏洩に対する時間とリソースの消費が比較的少なく、堅牢であるため、合成データ生成は、匿名化を徐々に置き換えている。
GAN(Generative Adversarial Networks)は、合成データセットの生成、特に差分プライバシー現象に固執するGANフレームワークに使用されている。
本研究では,合成データ生成のための最先端のganモデルを比較し,プライバシの心配なく配布可能な認知症患者の時系列合成医療記録を生成する。
予測モデリング、自己相関、分布解析を用いて、生成されたデータの生成品質(QoG)を評価する。
各モデルのプライバシー保護は、潜在的データ漏洩リスクを決定するためにメンバーシップ推論攻撃を適用することで評価される。
本実験は,QoGの許容レベルを維持しつつ,プライバシ保護に関する他のモデルよりも,プライバシ保護GAN(PPGAN)モデルの方が優れていることを示す。
以上の結果から今後,医療現場におけるデータ保護の改善が期待できる。
関連論文リスト
- Quantifying and Mitigating Privacy Risks for Tabular Generative Models [13.153278585144355]
生成モデルからの合成データは、プライバシを保存するデータ共有ソリューションとして現れる。
本稿では,DP-TLDM,差分プライベートタブララプレント拡散モデルを提案する。
DP-TLDMは, 平均データ類似度35%, 下流タスク用ユーティリティ15%, データの識別性50%で, 合成品質の向上を図っている。
論文 参考訳(メタデータ) (2024-03-12T17:27:49Z) - Generating Synthetic Health Sensor Data for Privacy-Preserving Wearable
Stress Detection [1.529040771430363]
ストレスの瞬間に関連するマルチセンサ型スマートウォッチのヘルスリーダーのプライバシ・アウェア・シンセサイザー化について紹介する。
我々の手法はGAN(Generative Adversarial Networks)による合成シーケンスデータの生成を伴う。
非プライベート (0.45% F1) とプライベート (11.90-15.48% F1) のトレーニングシナリオの両方において、モデル性能の改善を観察する。
論文 参考訳(メタデータ) (2024-01-24T09:44:57Z) - MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data
Augmentation [58.93221876843639]
本稿では,MedDiffusion という,エンドツーエンドの拡散に基づくリスク予測モデルを提案する。
トレーニング中に合成患者データを作成し、サンプルスペースを拡大することで、リスク予測性能を向上させる。
ステップワイズ・アテンション・メカニズムを用いて患者の来訪者間の隠れた関係を識別し、高品質なデータを生成する上で最も重要な情報をモデルが自動的に保持することを可能にする。
論文 参考訳(メタデータ) (2023-10-04T01:36:30Z) - Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic
Data [91.52783572568214]
合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。
合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
論文 参考訳(メタデータ) (2023-04-07T16:38:40Z) - Private Set Generation with Discriminative Information [63.851085173614]
異なるプライベートなデータ生成は、データプライバシの課題に対する有望な解決策である。
既存のプライベートな生成モデルは、合成サンプルの有用性に苦慮している。
我々は,最先端アプローチのサンプルユーティリティを大幅に改善する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-11-07T10:02:55Z) - Measuring Utility and Privacy of Synthetic Genomic Data [3.635321290763711]
人工ゲノムデータを生成するための5つの最先端モデルの実用性とプライバシ保護を最初に評価する。
全体として、ボード全体でうまく機能する合成ゲノムデータを生成するための単一のアプローチは存在しない。
論文 参考訳(メタデータ) (2021-02-05T17:41:01Z) - Differentially Private Synthetic Medical Data Generation using
Convolutional GANs [7.2372051099165065]
R'enyiの差分プライバシーを用いた合成データ生成のための差分プライベートフレームワークを開発する。
提案手法は, 畳み込み自己エンコーダと畳み込み生成対向ネットワークを利用して, 生成した合成データの重要な特性をある程度保存する。
私たちのモデルは、同じプライバシー予算の下で既存の最新モデルを上回ることを実証します。
論文 参考訳(メタデータ) (2020-12-22T01:03:49Z) - Privacy-preserving medical image analysis [53.4844489668116]
医用画像におけるプライバシ保護機械学習(PPML)のためのソフトウェアフレームワークであるPriMIAを提案する。
集合型学習モデルの分類性能は,未発見データセットの人間専門家と比較して有意に良好である。
グラデーションベースのモデル反転攻撃に対するフレームワークのセキュリティを実証的に評価する。
論文 参考訳(メタデータ) (2020-12-10T13:56:00Z) - Hide-and-Seek Privacy Challenge [88.49671206936259]
NeurIPS 2020 Hide-and-Seek Privacy Challengeは、両方の問題を解決するための新しい2トラックの競争だ。
我々の頭から頭までのフォーマットでは、新しい高品質な集中ケア時系列データセットを用いて、合成データ生成トラック(「ヒッシャー」)と患者再識別トラック(「シーカー」)の参加者が直接対決する。
論文 参考訳(メタデータ) (2020-07-23T15:50:59Z) - GS-WGAN: A Gradient-Sanitized Approach for Learning Differentially
Private Generators [74.16405337436213]
我々は、GS-WGAN(Gradient-sanitized Wasserstein Generative Adrial Networks)を提案する。
GS-WGANは、厳格なプライバシー保証を備えた機密データの衛生的な形式での公開を可能にする。
このアプローチは、複数のメトリクスにわたる最先端のアプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2020-06-15T10:01:01Z) - PrivGen: Preserving Privacy of Sequences Through Data Generation [14.579475552088688]
シークエンシャルデータは、研究の基盤として機能し、プロセスの改善につながる可能性がある。
このようなデータへのアクセスと利用は、通常、ユーザーのプライバシーを侵害する懸念のために制限されるか、まったく許可されない。
そこで我々はPrivGenを提案する。PrivGenは、ソースデータのパターンと特徴を保守するデータを生成する革新的な方法である。
論文 参考訳(メタデータ) (2020-02-23T05:43:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。