論文の概要: Does Differentially Private Synthetic Data Lead to Synthetic Discoveries?
- arxiv url: http://arxiv.org/abs/2403.13612v1
- Date: Wed, 20 Mar 2024 14:03:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 16:38:11.066187
- Title: Does Differentially Private Synthetic Data Lead to Synthetic Discoveries?
- Title(参考訳): 微分プライベートな合成データは合成発見につながるか?
- Authors: Ileana Montoya Perez, Parisa Movahedi, Valtteri Nieminen, Antti Airola, Tapio Pahikkala,
- Abstract要約: 微分プライバシー(DP)は現在、このトレードオフのバランスをとるための金の標準的アプローチと考えられている。
本研究は,DP合成バイオメディカルデータに対するMann-Whitney U試験を,I型およびII型エラーの観点から評価することを目的とする。
- 参考スコア(独自算出の注目度): 1.9573380763700712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Background: Synthetic data has been proposed as a solution for sharing anonymized versions of sensitive biomedical datasets. Ideally, synthetic data should preserve the structure and statistical properties of the original data, while protecting the privacy of the individual subjects. Differential privacy (DP) is currently considered the gold standard approach for balancing this trade-off. Objectives: The aim of this study is to evaluate the Mann-Whitney U test on DP-synthetic biomedical data in terms of Type I and Type II errors, in order to establish whether statistical hypothesis testing performed on privacy preserving synthetic data is likely to lead to loss of test's validity or decreased power. Methods: We evaluate the Mann-Whitney U test on DP-synthetic data generated from real-world data, including a prostate cancer dataset (n=500) and a cardiovascular dataset (n=70 000), as well as on data drawn from two Gaussian distributions. Five different DP-synthetic data generation methods are evaluated, including two basic DP histogram release methods and MWEM, Private-PGM, and DP GAN algorithms. Conclusion: Most of the tested DP-synthetic data generation methods showed inflated Type I error, especially at privacy budget levels of $\epsilon\leq 1$. This result calls for caution when releasing and analyzing DP-synthetic data: low p-values may be obtained in statistical tests simply as a byproduct of the noise added to protect privacy. A DP smoothed histogram-based synthetic data generation method was shown to produce valid Type I error for all privacy levels tested but required a large original dataset size and a modest privacy budget ($\epsilon\geq 5$) in order to have reasonable Type II error levels.
- Abstract(参考訳): 背景: バイオメディカルデータセットの匿名バージョンを共有するソリューションとして、合成データが提案されている。
理想的には、合成データは、個々の被験者のプライバシーを保護しながら、元のデータの構造と統計特性を保存するべきである。
微分プライバシー(DP)は現在、このトレードオフのバランスをとるための金の標準的アプローチと考えられている。
目的: 本研究の目的は, DP合成バイオメディカルデータに対するマン・ホイットニーU試験をI型およびII型エラーの観点から評価することであり, 合成データを保存するプライバシー上の統計的仮説テストが, 検査の有効性の喪失につながるか, あるいは低下する可能性があるかを明らかにすることである。
方法: 前立腺癌データセット(n=500)と心臓血管データセット(n=70000)を含む実世界のデータから生成されたDP合成データと2つのガウス分布から得られたデータについてMann-Whitney Uテストを評価する。
2つの基本DPヒストグラム解放法とMWEM,Private-PGM,DP GANアルゴリズムを含む5種類のDP合成データ生成手法の評価を行った。
結論: テストされたDP合成データ生成手法のほとんどは、特にプライバシー予算が$\epsilon\leq 1$である場合に、Type Iエラーが膨らんだことを示している。
この結果は、DP合成データを公開して分析する際に注意が必要である: プライバシーを保護するために追加されたノイズの副産物として、統計的テストで低いp値を得ることができる。
DPスムーズなヒストグラムベースの合成データ生成手法は、テスト対象のすべてのプライバシレベルに対して有効なType Iエラーを生成することを示したが、適切なType IIエラーレベルを得るためには、大きなデータセットサイズと控えめなプライバシ予算($\epsilon\geq 5$)が必要だった。
関連論文リスト
- Federated Causal Discovery from Heterogeneous Data [70.31070224690399]
任意の因果モデルと異種データに対応する新しいFCD法を提案する。
これらのアプローチには、データのプライバシを保護するために、生データのプロキシとして要約統計を構築することが含まれる。
提案手法の有効性を示すために, 合成および実データを用いた広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-02-20T18:53:53Z) - Benchmarking Private Population Data Release Mechanisms: Synthetic Data vs. TopDown [50.40020716418472]
本研究では、TopDownアルゴリズムとプライベート合成データ生成を比較し、クエリの複雑さによる精度への影響を判定する。
この結果から,TopDownアルゴリズムは,分散クエリに対して,評価したどの合成データ手法よりもはるかに優れたプライバシー-忠実トレードオフを実現することがわかった。
論文 参考訳(メタデータ) (2024-01-31T17:38:34Z) - DP-PQD: Privately Detecting Per-Query Gaps In Synthetic Data Generated By Black-Box Mechanisms [17.562365686511818]
本稿では,DP-PQDという新しいフレームワークを提案する。このフレームワークは,プライベートデータセットと合成データセットの問合せ回答が,ユーザの指定しきい値内にあるかどうかを検出する。
提案手法は,クエリごとのクエリ数,総和,中央値のクエリに対してプライベートアルゴリズム群を提供し,その特性を分析し,実験的に評価する。
論文 参考訳(メタデータ) (2023-09-15T17:38:59Z) - Mean Estimation with User-level Privacy under Data Heterogeneity [54.07947274508013]
異なるユーザーは、非常に多くの異なるデータポイントを持っているかもしれない。
すべてのユーザが同じディストリビューションからサンプルを採取していると仮定することはできない。
本研究では,データの分布と量の両方でユーザデータが異なる異質なユーザデータの単純なモデルを提案する。
論文 参考訳(メタデータ) (2023-07-28T23:02:39Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z) - Utility Assessment of Synthetic Data Generation Methods [0.0]
完全合成データを生成する方法が,その実用性に相違があるかどうかを考察する。
ボード上の他の方法よりもパフォーマンスがよい方法がいくつかあります。
機械学習モデルのトレーニングに合成データを使用する場合、分類タスクに対して有望な結果が得られる。
論文 参考訳(メタデータ) (2022-11-23T11:09:52Z) - Noise-Aware Statistical Inference with Differentially Private Synthetic
Data [0.0]
DP合成データをまるで本物であるかのように単純に分析することは、人口レベルの推定に有効でないことを示す。
本稿では,多重計算分野の合成データ解析技術と合成データ生成技術を組み合わせることで,この問題に対処する。
我々は,最大エントロピーの原理を用いたノイズ対応合成データ生成アルゴリズム NAPSU-MQ を開発した。
論文 参考訳(メタデータ) (2022-05-28T16:59:46Z) - DTGAN: Differential Private Training for Tabular GANs [6.174448419090292]
本稿では,DTGAN_GとDTGAN_Dの2つの変種からなる条件付きワッサースタインGANであるDTGANを提案する。
我々は,DPの理論的プライバシー保証を,メンバーシップや属性推論攻撃に対して実証的に評価する。
その結果,DP-SGD フレームワークは PATE よりも優れており,DP 判別器の方が訓練収束に最適であることが示唆された。
論文 参考訳(メタデータ) (2021-07-06T10:28:05Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Generation of Differentially Private Heterogeneous Electronic Health
Records [9.926231893220061]
本稿では, 合成異種EHRの生成にジェネレーティブ・アドバーサリアル・ネットワークを用いて検討する。
本稿では,DP 合成 EHR データセットを作成するために,差分プライバシ(DP)保存最適化の適用について検討する。
論文 参考訳(メタデータ) (2020-06-05T13:21:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。