論文の概要: Differentially Private Normalizing Flows for Density Estimation, Data
Synthesis, and Variational Inference with Application to Electronic Health
Records
- arxiv url: http://arxiv.org/abs/2302.05787v1
- Date: Sat, 11 Feb 2023 21:27:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 18:33:30.468241
- Title: Differentially Private Normalizing Flows for Density Estimation, Data
Synthesis, and Variational Inference with Application to Electronic Health
Records
- Title(参考訳): 密度推定・データ合成・変分推定のための微分プライベート正規化フローと電子健康記録への応用
- Authors: Bingyue Su, Yu Wang, Daniele E. Schiavazzi and Fang Liu
- Abstract要約: 我々は、深層生成モデルのファミリーである正規化フロー(NF)を用いて、差分プライバシー保証付きデータセットの確率密度を推定する。
本手法を肺高血圧症患者を対象としたERHデータセットに適用した。
以上の結果から,NFを用いた差分プライベート密度推定により生成した合成データは,適切なプライバシコストで良好な効用が得られる可能性が示唆された。
- 参考スコア(独自算出の注目度): 5.367467795515949
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Electronic health records (EHR) often contain sensitive medical information
about individual patients, posing significant limitations to sharing or
releasing EHR data for downstream learning and inferential tasks. We use
normalizing flows (NF), a family of deep generative models, to estimate the
probability density of a dataset with differential privacy (DP) guarantees,
from which privacy-preserving synthetic data are generated. We apply the
technique to an EHR dataset containing patients with pulmonary hypertension. We
assess the learning and inferential utility of the synthetic data by comparing
the accuracy in the prediction of the hypertension status and variational
posterior distribution of the parameters of a physics-based model. In addition,
we use a simulated dataset from a nonlinear model to compare the results from
variational inference (VI) based on privacy-preserving synthetic data, and
privacy-preserving VI obtained from directly privatizing NFs for VI with DP
guarantees given the original non-private dataset. The results suggest that
synthetic data generated through differentially private density estimation with
NF can yield good utility at a reasonable privacy cost. We also show that VI
obtained from differentially private NF based on the free energy bound loss may
produce variational approximations with significantly altered correlation
structure, and loss formulations based on alternative dissimilarity metrics
between two distributions might provide improved results.
- Abstract(参考訳): 電子健康記録(EHR)は、個々の患者に関する機密医療情報を含んでおり、下流の学習や推論タスクのためのEHRデータの共有や公開に重大な制限を課している。
我々は, 差分プライバシ(DP)保証付きデータセットの確率密度を推定するために, 深部生成モデルのファミリーである正規化フロー(NF)を用いて, プライバシ保存合成データを生成する。
本手法を肺高血圧症患者を含むehrデータセットに適用する。
物理モデルを用いて,高血圧状態の予測とパラメータの変動後分布の精度を比較することで,合成データの学習と推論の有用性を評価する。
さらに、非線形モデルからのシミュレーションデータセットを用いて、プライバシ保存合成データに基づく変動推論(VI)の結果と、元の非プライベートデータセットが与えられた場合のDP保証により、VIのNFを直接民営化するプライバシー保護VIとを比較した。
その結果,nfを用いた差動プライベート密度推定によって生成された合成データは,適切なプライバシコストで有用性が得られることが示唆された。
また,自由エネルギー境界損失に基づく微分プライベートnfから得られたviは相関構造が著しく変化した変分近似を生じさせる可能性を示し,二つの分布間の相異性指標に基づく損失定式化が改善することを示した。
関連論文リスト
- Synthesizing Multimodal Electronic Health Records via Predictive Diffusion Models [69.06149482021071]
EHRPDと呼ばれる新しいEHRデータ生成モデルを提案する。
時間間隔推定を組み込んだ拡散モデルである。
我々は2つの公開データセットで実験を行い、忠実さ、プライバシー、実用性の観点からEPHPDを評価する。
論文 参考訳(メタデータ) (2024-06-20T02:20:23Z) - Inference With Combining Rules From Multiple Differentially Private Synthetic Datasets [0.0]
DIPSデータセットの分析にルールを組み合わせることによって,プロシージャの適用性を検討する。
我々の経験的実験により、提案された組み合わせルールは、特定の状況において正確な推論を提供するが、すべての場合において正確な推論はできないことが示された。
論文 参考訳(メタデータ) (2024-05-08T02:33:35Z) - Protect and Extend -- Using GANs for Synthetic Data Generation of
Time-Series Medical Records [1.9749268648715583]
本研究は、認知症患者の時系列合成医療記録を生成するために、現在最先端のGANベースの合成データ生成モデルと比較する。
本実験は,プライバシ保護に関する他のモデルよりも,プライバシ保護GAN(PPGAN)モデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-21T10:24:34Z) - Initialization Matters: Privacy-Utility Analysis of Overparameterized
Neural Networks [72.51255282371805]
我々は、最悪の近傍データセット上でのモデル分布間のKLばらつきのプライバシー境界を証明した。
このKLプライバシー境界は、トレーニング中にモデルパラメータに対して期待される2乗勾配ノルムによって決定される。
論文 参考訳(メタデータ) (2023-10-31T16:13:22Z) - On the Inherent Privacy Properties of Discrete Denoising Diffusion Models [17.773335593043004]
本稿では、離散拡散モデルに固有のプライバシー保護の先駆的な理論的探索について述べる。
我々のフレームワークは、トレーニングデータセット内の各データポイントの潜在的なプライバシー漏洩を解明する。
当社のバウンダリは、$$$サイズのデータポイントによるトレーニングが、プライバシー漏洩の急増につながっていることも示しています。
論文 参考訳(メタデータ) (2023-10-24T05:07:31Z) - MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data
Augmentation [58.93221876843639]
本稿では,MedDiffusion という,エンドツーエンドの拡散に基づくリスク予測モデルを提案する。
トレーニング中に合成患者データを作成し、サンプルスペースを拡大することで、リスク予測性能を向上させる。
ステップワイズ・アテンション・メカニズムを用いて患者の来訪者間の隠れた関係を識別し、高品質なデータを生成する上で最も重要な情報をモデルが自動的に保持することを可能にする。
論文 参考訳(メタデータ) (2023-10-04T01:36:30Z) - CEDAR: Communication Efficient Distributed Analysis for Regressions [9.50726756006467]
患者レベルのデータを共有することなく、複数のEHRデータベース上での分散学習への関心が高まっている。
本稿では,局所的な最適推定値を集約する通信効率のよい新しい手法を提案する。
本稿では,統計的推測法と差分プライバシーに関する理論的検討を行い,シミュレーションおよび実データ解析におけるその性能評価を行う。
論文 参考訳(メタデータ) (2022-07-01T09:53:44Z) - Improving Correlation Capture in Generating Imbalanced Data using
Differentially Private Conditional GANs [2.2265840715792735]
DP-CGANSは,データ変換,サンプリング,コンディショニング,ネットワークトレーニングにより,現実的かつプライバシ保護データを生成する,微分プライベートな条件付きGANフレームワークである。
統計的類似性,機械学習性能,プライバシ測定の点から,3つの公開データセットと2つの実世界の個人健康データセットの最先端生成モデルを用いて,我々のモデルを広範囲に評価した。
論文 参考訳(メタデータ) (2022-06-28T06:47:27Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - RDP-GAN: A R\'enyi-Differential Privacy based Generative Adversarial
Network [75.81653258081435]
GAN(Generative Adversarial Network)は,プライバシ保護の高い現実的なサンプルを生成する能力によって,近年注目を集めている。
しかし、医療記録や財務記録などの機密・私的な訓練例にGANを適用すると、個人の機密・私的な情報を漏らしかねない。
本稿では、学習中の損失関数の値にランダムノイズを慎重に付加することにより、GAN内の差分プライバシー(DP)を実現するR'enyi-differentially private-GAN(RDP-GAN)を提案する。
論文 参考訳(メタデータ) (2020-07-04T09:51:02Z) - Differentially Private Federated Learning with Laplacian Smoothing [72.85272874099644]
フェデレートラーニングは、ユーザ間でプライベートデータを共有せずに、協調的にモデルを学習することで、データのプライバシを保護することを目的としている。
敵は、リリースしたモデルを攻撃することによって、プライベートトレーニングデータを推測することができる。
差別化プライバシは、トレーニングされたモデルの正確性や実用性を著しく低下させる価格で、このような攻撃に対する統計的保護を提供する。
論文 参考訳(メタデータ) (2020-05-01T04:28:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。