論文の概要: Does Differentially Private Synthetic Data Lead to Synthetic Discoveries?
- arxiv url: http://arxiv.org/abs/2403.13612v1
- Date: Wed, 20 Mar 2024 14:03:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 16:38:11.066187
- Title: Does Differentially Private Synthetic Data Lead to Synthetic Discoveries?
- Title(参考訳): 微分プライベートな合成データは合成発見につながるか?
- Authors: Ileana Montoya Perez, Parisa Movahedi, Valtteri Nieminen, Antti Airola, Tapio Pahikkala,
- Abstract要約: 微分プライバシー(DP)は現在、このトレードオフのバランスをとるための金の標準的アプローチと考えられている。
本研究は,DP合成バイオメディカルデータに対するMann-Whitney U試験を,I型およびII型エラーの観点から評価することを目的とする。
- 参考スコア(独自算出の注目度): 1.9573380763700712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Background: Synthetic data has been proposed as a solution for sharing anonymized versions of sensitive biomedical datasets. Ideally, synthetic data should preserve the structure and statistical properties of the original data, while protecting the privacy of the individual subjects. Differential privacy (DP) is currently considered the gold standard approach for balancing this trade-off. Objectives: The aim of this study is to evaluate the Mann-Whitney U test on DP-synthetic biomedical data in terms of Type I and Type II errors, in order to establish whether statistical hypothesis testing performed on privacy preserving synthetic data is likely to lead to loss of test's validity or decreased power. Methods: We evaluate the Mann-Whitney U test on DP-synthetic data generated from real-world data, including a prostate cancer dataset (n=500) and a cardiovascular dataset (n=70 000), as well as on data drawn from two Gaussian distributions. Five different DP-synthetic data generation methods are evaluated, including two basic DP histogram release methods and MWEM, Private-PGM, and DP GAN algorithms. Conclusion: Most of the tested DP-synthetic data generation methods showed inflated Type I error, especially at privacy budget levels of $\epsilon\leq 1$. This result calls for caution when releasing and analyzing DP-synthetic data: low p-values may be obtained in statistical tests simply as a byproduct of the noise added to protect privacy. A DP smoothed histogram-based synthetic data generation method was shown to produce valid Type I error for all privacy levels tested but required a large original dataset size and a modest privacy budget ($\epsilon\geq 5$) in order to have reasonable Type II error levels.
- Abstract(参考訳): 背景: バイオメディカルデータセットの匿名バージョンを共有するソリューションとして、合成データが提案されている。
理想的には、合成データは、個々の被験者のプライバシーを保護しながら、元のデータの構造と統計特性を保存するべきである。
微分プライバシー(DP)は現在、このトレードオフのバランスをとるための金の標準的アプローチと考えられている。
目的: 本研究の目的は, DP合成バイオメディカルデータに対するマン・ホイットニーU試験をI型およびII型エラーの観点から評価することであり, 合成データを保存するプライバシー上の統計的仮説テストが, 検査の有効性の喪失につながるか, あるいは低下する可能性があるかを明らかにすることである。
方法: 前立腺癌データセット(n=500)と心臓血管データセット(n=70000)を含む実世界のデータから生成されたDP合成データと2つのガウス分布から得られたデータについてMann-Whitney Uテストを評価する。
2つの基本DPヒストグラム解放法とMWEM,Private-PGM,DP GANアルゴリズムを含む5種類のDP合成データ生成手法の評価を行った。
結論: テストされたDP合成データ生成手法のほとんどは、特にプライバシー予算が$\epsilon\leq 1$である場合に、Type Iエラーが膨らんだことを示している。
この結果は、DP合成データを公開して分析する際に注意が必要である: プライバシーを保護するために追加されたノイズの副産物として、統計的テストで低いp値を得ることができる。
DPスムーズなヒストグラムベースの合成データ生成手法は、テスト対象のすべてのプライバシレベルに対して有効なType Iエラーを生成することを示したが、適切なType IIエラーレベルを得るためには、大きなデータセットサイズと控えめなプライバシ予算($\epsilon\geq 5$)が必要だった。
関連論文リスト
- Benchmarking Private Population Data Release Mechanisms: Synthetic Data vs. TopDown [50.40020716418472]
本研究では、TopDownアルゴリズムとプライベート合成データ生成を比較し、クエリの複雑さによる精度への影響を判定する。
この結果から,TopDownアルゴリズムは,分散クエリに対して,評価したどの合成データ手法よりもはるかに優れたプライバシー-忠実トレードオフを実現することがわかった。
論文 参考訳(メタデータ) (2024-01-31T17:38:34Z) - Differentially Private Data Generation with Missing Data [25.242190235853595]
我々は、差分プライバシー(DP)合成データの問題点を、欠落した値で定式化する。
本稿では,合成データの有効性を大幅に向上させる3つの効果的な適応戦略を提案する。
全体として、この研究は、プライベートな合成データ生成アルゴリズムを使用する際の課題と機会をより深く理解することに貢献している。
論文 参考訳(メタデータ) (2023-10-17T19:41:54Z) - DP-PQD: Privately Detecting Per-Query Gaps In Synthetic Data Generated By Black-Box Mechanisms [17.562365686511818]
本稿では,DP-PQDという新しいフレームワークを提案する。このフレームワークは,プライベートデータセットと合成データセットの問合せ回答が,ユーザの指定しきい値内にあるかどうかを検出する。
提案手法は,クエリごとのクエリ数,総和,中央値のクエリに対してプライベートアルゴリズム群を提供し,その特性を分析し,実験的に評価する。
論文 参考訳(メタデータ) (2023-09-15T17:38:59Z) - Mean Estimation with User-level Privacy under Data Heterogeneity [54.07947274508013]
異なるユーザーは、非常に多くの異なるデータポイントを持っているかもしれない。
すべてのユーザが同じディストリビューションからサンプルを採取していると仮定することはできない。
本研究では,データの分布と量の両方でユーザデータが異なる異質なユーザデータの単純なモデルを提案する。
論文 参考訳(メタデータ) (2023-07-28T23:02:39Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z) - PreFair: Privately Generating Justifiably Fair Synthetic Data [17.037575948075215]
PreFairは、差分プライバシー(DP)公正な合成データ生成を可能にするシステムである。
我々は、合成データ生成シナリオに適合する正当性の概念に適応する。
論文 参考訳(メタデータ) (2022-12-20T15:01:54Z) - DP2-Pub: Differentially Private High-Dimensional Data Publication with
Invariant Post Randomization [58.155151571362914]
本稿では,2つのフェーズで動作する差分プライベートな高次元データパブリッシング機構(DP2-Pub)を提案する。
属性をクラスタ内凝集度の高い低次元クラスタに分割し、クラスタ間の結合度を低くすることで、適切なプライバシ予算を得ることができる。
また、DP2-Pubメカニズムを、ローカルの差分プライバシーを満たす半正直なサーバでシナリオに拡張します。
論文 参考訳(メタデータ) (2022-08-24T17:52:43Z) - Noise-Aware Statistical Inference with Differentially Private Synthetic
Data [0.0]
DP合成データをまるで本物であるかのように単純に分析することは、人口レベルの推定に有効でないことを示す。
本稿では,多重計算分野の合成データ解析技術と合成データ生成技術を組み合わせることで,この問題に対処する。
我々は,最大エントロピーの原理を用いたノイズ対応合成データ生成アルゴリズム NAPSU-MQ を開発した。
論文 参考訳(メタデータ) (2022-05-28T16:59:46Z) - DTGAN: Differential Private Training for Tabular GANs [6.174448419090292]
本稿では,DTGAN_GとDTGAN_Dの2つの変種からなる条件付きワッサースタインGANであるDTGANを提案する。
我々は,DPの理論的プライバシー保証を,メンバーシップや属性推論攻撃に対して実証的に評価する。
その結果,DP-SGD フレームワークは PATE よりも優れており,DP 判別器の方が訓練収束に最適であることが示唆された。
論文 参考訳(メタデータ) (2021-07-06T10:28:05Z) - Differentially Private Federated Learning with Laplacian Smoothing [72.85272874099644]
フェデレートラーニングは、ユーザ間でプライベートデータを共有せずに、協調的にモデルを学習することで、データのプライバシを保護することを目的としている。
敵は、リリースしたモデルを攻撃することによって、プライベートトレーニングデータを推測することができる。
差別化プライバシは、トレーニングされたモデルの正確性や実用性を著しく低下させる価格で、このような攻撃に対する統計的保護を提供する。
論文 参考訳(メタデータ) (2020-05-01T04:28:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。