論文の概要: Noise-Aware Statistical Inference with Differentially Private Synthetic
Data
- arxiv url: http://arxiv.org/abs/2205.14485v1
- Date: Sat, 28 May 2022 16:59:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-04 19:11:25.784316
- Title: Noise-Aware Statistical Inference with Differentially Private Synthetic
Data
- Title(参考訳): 遺伝的にプライベートな合成データを用いたノイズアウェア統計推論
- Authors: Ossi R\"ais\"a (1), Joonas J\"alk\"o (2), Samuel Kaski (2 and 3),
Antti Honkela (1) ((1) University of Helsinki, (2) Aalto University, (3)
University of Manchester)
- Abstract要約: DP合成データをまるで本物であるかのように単純に分析することは、人口レベルの推定に有効でないことを示す。
本稿では,多重計算分野の合成データ解析技術と合成データ生成技術を組み合わせることで,この問題に対処する。
我々は,最大エントロピーの原理を用いたノイズ対応合成データ生成アルゴリズム NAPSU-MQ を開発した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While generation of synthetic data under differential privacy (DP) has
received a lot of attention in the data privacy community, analysis of
synthetic data has received much less. Existing work has shown that simply
analysing DP synthetic data as if it were real does not produce valid
inferences of population-level quantities. For example, confidence intervals
become too narrow, which we demonstrate with a simple experiment. We tackle
this problem by combining synthetic data analysis techniques from the field of
multiple imputation, and synthetic data generation using noise-aware Bayesian
modeling into a pipeline NA+MI that allows computing accurate uncertainty
estimates for population-level quantities from DP synthetic data. To implement
NA+MI for discrete data generation from marginal queries, we develop a novel
noise-aware synthetic data generation algorithm NAPSU-MQ using the principle of
maximum entropy. Our experiments demonstrate that the pipeline is able to
produce accurate confidence intervals from DP synthetic data. The intervals
become wider with tighter privacy to accurately capture the additional
uncertainty stemming from DP noise.
- Abstract(参考訳): 差分プライバシー(DP)下での合成データの生成は、データプライバシコミュニティで多くの注目を集めているが、合成データの分析は、はるかに少ない。
既存の研究では、DP合成データをまるで本物であるかのように分析するだけでは、人口レベルの有効な推測が得られないことが示されている。
例えば、信頼区間は狭すぎるので、簡単な実験で示します。
本研究では,多重計算の分野からの合成データ解析技術とノイズ認識ベイズモデルを用いた合成データ生成をパイプラインNA+MIに組み込むことにより,DP合成データから人口レベルの推定精度の正確な推定を可能にする。
限界クエリからの離散データ生成のためのna+miを実装するために,最大エントロピーの原理を用いて,ノイズ対応型合成データ生成アルゴリズムnasu-mqを開発した。
本実験は,DP合成データから正確な信頼区間を生成可能であることを示す。
この間隔は、DPノイズによる追加の不確実性を正確に捉えるために、より厳密なプライバシーによってより広くなる。
関連論文リスト
- On the Inherent Privacy Properties of Discrete Denoising Diffusion
Models [18.664592314630887]
本稿では、離散拡散モデルに固有のプライバシー保護の先駆的な理論的探索について述べる。
我々のフレームワークは、トレーニングデータセット内の各データポイントの潜在的なプライバシー漏洩を解明する。
当社のバウンダリは、$$$サイズのデータポイントによるトレーニングが、プライバシー漏洩の急増につながっていることも示しています。
論文 参考訳(メタデータ) (2023-10-24T05:07:31Z) - Differentially Private Synthetic Data Using KD-Trees [11.96971298978997]
ノイズ摂動とともに空間分割技術を活用し,直観的かつ透過的なアルゴリズムを実現する。
我々は、$epsilon$-differentially private synthesis data generationのためのデータ独立アルゴリズムとデータ依存アルゴリズムの両方を提案する。
先行研究に対して実証的な実用性向上を示すとともに,実データセット上の下流分類タスクにおけるアルゴリズムの性能について考察する。
論文 参考訳(メタデータ) (2023-06-19T17:08:32Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Statistical Theory of Differentially Private Marginal-based Data
Synthesis Algorithms [30.330715718619874]
国立標準技術研究所主催の総合データコンペティションにおける有望なパフォーマンスを実現するマージナルベース手法
実際には有望な性能にもかかわらず、境界に基づく手法の統計的性質は文献ではほとんど研究されていない。
論文 参考訳(メタデータ) (2023-01-21T01:32:58Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Data Sampling Affects the Complexity of Online SGD over Dependent Data [54.92366535993012]
本研究では,データサンプリング方式の違いが,高依存データに対するオンライン勾配勾配勾配の複雑さにどのように影響するかを示す。
データサンプルのサブサンプリングさえも、高度に依存したデータに対するオンラインSGDの収束を加速することができる。
論文 参考訳(メタデータ) (2022-03-31T07:48:30Z) - Learning Summary Statistics for Bayesian Inference with Autoencoders [58.720142291102135]
我々は,ディープニューラルネットワークに基づくオートエンコーダの内部次元を要約統計として利用する。
パラメータ関連情報を全て符号化するエンコーダのインセンティブを作成するため,トレーニングデータの生成に使用した暗黙的情報にデコーダがアクセスできるようにする。
論文 参考訳(メタデータ) (2022-01-28T12:00:31Z) - Copula Flows for Synthetic Data Generation [0.5801044612920815]
確率モデルを合成データ生成器として用いることを提案する。
密度推定の手法として,シミュレーションと実データの両方をベンチマークした。
論文 参考訳(メタデータ) (2021-01-03T10:06:23Z) - XOR Mixup: Privacy-Preserving Data Augmentation for One-Shot Federated
Learning [49.130350799077114]
我々は、XorMixupという、プライバシー保護のためのXORベースのミックスアップデータ拡張技術を開発した。
中心となる考え方は、各デバイスのデータサンプルのみを使用してデコードされた、他のデバイスのエンコードされたデータサンプルを収集することである。
XorMixFLは、非IID MNISTデータセットの下で、Vanilla FLよりも最大17.6%高い精度を達成する。
論文 参考訳(メタデータ) (2020-06-09T09:43:41Z) - Differentially Private Federated Learning with Laplacian Smoothing [72.85272874099644]
フェデレートラーニングは、ユーザ間でプライベートデータを共有せずに、協調的にモデルを学習することで、データのプライバシを保護することを目的としている。
敵は、リリースしたモデルを攻撃することによって、プライベートトレーニングデータを推測することができる。
差別化プライバシは、トレーニングされたモデルの正確性や実用性を著しく低下させる価格で、このような攻撃に対する統計的保護を提供する。
論文 参考訳(メタデータ) (2020-05-01T04:28:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。