論文の概要: Noise-Aware Statistical Inference with Differentially Private Synthetic
Data
- arxiv url: http://arxiv.org/abs/2205.14485v1
- Date: Sat, 28 May 2022 16:59:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-04 19:11:25.784316
- Title: Noise-Aware Statistical Inference with Differentially Private Synthetic
Data
- Title(参考訳): 遺伝的にプライベートな合成データを用いたノイズアウェア統計推論
- Authors: Ossi R\"ais\"a (1), Joonas J\"alk\"o (2), Samuel Kaski (2 and 3),
Antti Honkela (1) ((1) University of Helsinki, (2) Aalto University, (3)
University of Manchester)
- Abstract要約: DP合成データをまるで本物であるかのように単純に分析することは、人口レベルの推定に有効でないことを示す。
本稿では,多重計算分野の合成データ解析技術と合成データ生成技術を組み合わせることで,この問題に対処する。
我々は,最大エントロピーの原理を用いたノイズ対応合成データ生成アルゴリズム NAPSU-MQ を開発した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While generation of synthetic data under differential privacy (DP) has
received a lot of attention in the data privacy community, analysis of
synthetic data has received much less. Existing work has shown that simply
analysing DP synthetic data as if it were real does not produce valid
inferences of population-level quantities. For example, confidence intervals
become too narrow, which we demonstrate with a simple experiment. We tackle
this problem by combining synthetic data analysis techniques from the field of
multiple imputation, and synthetic data generation using noise-aware Bayesian
modeling into a pipeline NA+MI that allows computing accurate uncertainty
estimates for population-level quantities from DP synthetic data. To implement
NA+MI for discrete data generation from marginal queries, we develop a novel
noise-aware synthetic data generation algorithm NAPSU-MQ using the principle of
maximum entropy. Our experiments demonstrate that the pipeline is able to
produce accurate confidence intervals from DP synthetic data. The intervals
become wider with tighter privacy to accurately capture the additional
uncertainty stemming from DP noise.
- Abstract(参考訳): 差分プライバシー(DP)下での合成データの生成は、データプライバシコミュニティで多くの注目を集めているが、合成データの分析は、はるかに少ない。
既存の研究では、DP合成データをまるで本物であるかのように分析するだけでは、人口レベルの有効な推測が得られないことが示されている。
例えば、信頼区間は狭すぎるので、簡単な実験で示します。
本研究では,多重計算の分野からの合成データ解析技術とノイズ認識ベイズモデルを用いた合成データ生成をパイプラインNA+MIに組み込むことにより,DP合成データから人口レベルの推定精度の正確な推定を可能にする。
限界クエリからの離散データ生成のためのna+miを実装するために,最大エントロピーの原理を用いて,ノイズ対応型合成データ生成アルゴリズムnasu-mqを開発した。
本実験は,DP合成データから正確な信頼区間を生成可能であることを示す。
この間隔は、DPノイズによる追加の不確実性を正確に捉えるために、より厳密なプライバシーによってより広くなる。
関連論文リスト
- Data-adaptive Differentially Private Prompt Synthesis for In-Context Learning [16.04405606517753]
大規模言語モデル(LLM)は、実例やデモに埋め込まれた文脈情報に依存して、文脈内学習(ICL)を行う。
我々は、AdaDPSynと呼ばれる新しいデータ適応微分プライベートアルゴリズムを導入し、プライベートデータセットから合成例を生成する。
AdaDPSynは、データ固有の統計特性に応じて、データ合成機構のノイズレベルを適応的に調整する。
論文 参考訳(メタデータ) (2024-10-15T22:06:30Z) - Improving Grammatical Error Correction via Contextual Data Augmentation [49.746484518527716]
本研究では,文脈拡張に基づく合成データ構築手法を提案する。
具体的には、ルールベースの置換とモデルベースの生成を組み合わせる。
また,合成データにおけるノイズラベルの効果を軽減するために,レザベリングに基づくデータクリーニング手法を提案する。
論文 参考訳(メタデータ) (2024-06-25T10:49:56Z) - Does Differentially Private Synthetic Data Lead to Synthetic Discoveries? [1.9573380763700712]
評価は、テストのタイプIとタイプIIのエラーの観点から行われる。
評価結果の大部分は,特にプライバシー予算が$epsilonleq 1$である場合に,I型エラーが劇的に膨らんだ。
論文 参考訳(メタデータ) (2024-03-20T14:03:57Z) - Benchmarking Private Population Data Release Mechanisms: Synthetic Data vs. TopDown [50.40020716418472]
本研究では、TopDownアルゴリズムとプライベート合成データ生成を比較し、クエリの複雑さによる精度への影響を判定する。
この結果から,TopDownアルゴリズムは,分散クエリに対して,評価したどの合成データ手法よりもはるかに優れたプライバシー-忠実トレードオフを実現することがわかった。
論文 参考訳(メタデータ) (2024-01-31T17:38:34Z) - DP-PQD: Privately Detecting Per-Query Gaps In Synthetic Data Generated By Black-Box Mechanisms [17.562365686511818]
本稿では,DP-PQDという新しいフレームワークを提案する。このフレームワークは,プライベートデータセットと合成データセットの問合せ回答が,ユーザの指定しきい値内にあるかどうかを検出する。
提案手法は,クエリごとのクエリ数,総和,中央値のクエリに対してプライベートアルゴリズム群を提供し,その特性を分析し,実験的に評価する。
論文 参考訳(メタデータ) (2023-09-15T17:38:59Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Statistical Theory of Differentially Private Marginal-based Data
Synthesis Algorithms [30.330715718619874]
国立標準技術研究所主催の総合データコンペティションにおける有望なパフォーマンスを実現するマージナルベース手法
実際には有望な性能にもかかわらず、境界に基づく手法の統計的性質は文献ではほとんど研究されていない。
論文 参考訳(メタデータ) (2023-01-21T01:32:58Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Learning Summary Statistics for Bayesian Inference with Autoencoders [58.720142291102135]
我々は,ディープニューラルネットワークに基づくオートエンコーダの内部次元を要約統計として利用する。
パラメータ関連情報を全て符号化するエンコーダのインセンティブを作成するため,トレーニングデータの生成に使用した暗黙的情報にデコーダがアクセスできるようにする。
論文 参考訳(メタデータ) (2022-01-28T12:00:31Z) - Differentially Private Federated Learning with Laplacian Smoothing [72.85272874099644]
フェデレートラーニングは、ユーザ間でプライベートデータを共有せずに、協調的にモデルを学習することで、データのプライバシを保護することを目的としている。
敵は、リリースしたモデルを攻撃することによって、プライベートトレーニングデータを推測することができる。
差別化プライバシは、トレーニングされたモデルの正確性や実用性を著しく低下させる価格で、このような攻撃に対する統計的保護を提供する。
論文 参考訳(メタデータ) (2020-05-01T04:28:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。