論文の概要: Statistical Inference for Privatized Data with Unknown Sample Size
- arxiv url: http://arxiv.org/abs/2406.06231v1
- Date: Mon, 10 Jun 2024 13:03:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 13:58:00.154956
- Title: Statistical Inference for Privatized Data with Unknown Sample Size
- Title(参考訳): 未知のサンプルサイズを持つプライバタイズデータの統計的推測
- Authors: Jordan Awan, Andres Felipe Barrientos, Nianqiao Ju,
- Abstract要約: 非有界差分プライバシー(DP)における民生データ分析のための理論とアルゴリズムの両方を開発する。
非有界DPと有界DPのサンプリング分布間の距離は、サンプルサイズ$n$が無限に近づくにつれてゼロになることを示す。
- 参考スコア(独自算出の注目度): 7.933465724913661
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We develop both theory and algorithms to analyze privatized data in the unbounded differential privacy(DP), where even the sample size is considered a sensitive quantity that requires privacy protection. We show that the distance between the sampling distributions under unbounded DP and bounded DP goes to zero as the sample size $n$ goes to infinity, provided that the noise used to privatize $n$ is at an appropriate rate; we also establish that ABC-type posterior distributions converge under similar assumptions. We further give asymptotic results in the regime where the privacy budget for $n$ goes to zero, establishing similarity of sampling distributions as well as showing that the MLE in the unbounded setting converges to the bounded-DP MLE. In order to facilitate valid, finite-sample Bayesian inference on privatized data in the unbounded DP setting, we propose a reversible jump MCMC algorithm which extends the data augmentation MCMC of Ju et al. (2022). We also propose a Monte Carlo EM algorithm to compute the MLE from privatized data in both bounded and unbounded DP. We apply our methodology to analyze a linear regression model as well as a 2019 American Time Use Survey Microdata File which we model using a Dirichlet distribution.
- Abstract(参考訳): 我々は,プライバシ保護を必要とする機密量であるサンプルサイズであっても,非有界差分プライバシー(DP)における民営化データを解析するための理論とアルゴリズムを開発した。
非有界DPと有界DPのサンプリング分布間の距離は、サンプルサイズ$n$が無限大となるにつれてゼロとなることを示し、$n$を民営化する雑音が適切な速度で発生すること、ABC型後続分布が同様の仮定で収束することを証明した。
我々はさらに、$n$のプライバシー予算がゼロになる体制において漸近的な結果を与え、サンプリング分布の類似性を確立し、非有界設定のMLEが有界-DP MLEに収束することを示す。
非有界DP設定における民営化データの有限サンプルベイズ推論を容易にするために,Ju et al (2022)のデータ拡張MCMCを拡張する可逆ジャンプMCMCアルゴリズムを提案する。
また,制限付きDPと非有界DPの両方において,民生データからMLEを計算するモンテカルロEMアルゴリズムを提案する。
我々は,線形回帰モデルと,ディリクレ分布を用いてモデル化した2019年のアメリカン・タイム・ユース・サーベイ・マイクロデータファイルを分析するために,本手法を適用した。
関連論文リスト
- Scalable DP-SGD: Shuffling vs. Poisson Subsampling [61.19794019914523]
バッチサンプリングをシャッフルしたマルチエポック適応線形クエリ(ABLQ)機構のプライバシ保証に対する新たな下位境界を提供する。
ポアソンのサブサンプリングと比較すると大きな差がみられ, 以前の分析は1つのエポックに限られていた。
本稿では,大規模な並列計算を用いて,Poissonサブサンプリングを大規模に実装する実践的手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T19:06:16Z) - Adaptively Private Next-Token Prediction of Large Language Models [13.297381972044558]
プライバシを損なう可能性のあるクエリをフィルタリングする,ノイズの多いスクリーニング機構を導入する。
AdaPMixEDは、元のPMixED上のユーティリティを保持しながら、プライバシ損失を16倍に削減できる。
論文 参考訳(メタデータ) (2024-10-02T20:34:24Z) - How Private are DP-SGD Implementations? [61.19794019914523]
2種類のバッチサンプリングを使用する場合、プライバシ分析の間に大きなギャップがあることが示される。
その結果,2種類のバッチサンプリングでは,プライバシ分析の間に大きなギャップがあることが判明した。
論文 参考訳(メタデータ) (2024-03-26T13:02:43Z) - LLM-based Privacy Data Augmentation Guided by Knowledge Distillation
with a Distribution Tutor for Medical Text Classification [67.92145284679623]
ノイズの多いプライベートディストリビューションをモデル化し,プライバシコストの低いサンプル生成を制御するDPベースのチュータを提案する。
理論的には、モデルのプライバシ保護を分析し、モデルを実証的に検証する。
論文 参考訳(メタデータ) (2024-02-26T11:52:55Z) - Tractable MCMC for Private Learning with Pure and Gaussian Differential Privacy [23.12198546384976]
後方サンプリングは$varepsilon$-pure差分プライバシー保証を提供する。
これは、$(varepsilon,delta)$-approximate DPによって引き起こされた潜在的に束縛されていないプライバシー侵害に悩まされない。
しかし実際には、マルコフ連鎖モンテカルロのような近似的なサンプリング手法を適用する必要がある。
論文 参考訳(メタデータ) (2023-10-23T07:54:39Z) - Probing the Transition to Dataset-Level Privacy in ML Models Using an
Output-Specific and Data-Resolved Privacy Profile [23.05994842923702]
差分プライバシーメカニズムを用いてデータセットでトレーニングされたモデルが、近隣のデータセットでトレーニングされた結果の分布によってカバーされる範囲を定量化するプライバシー指標について検討する。
プライバシプロファイルは、近隣のディストリビューションで発生する不明瞭性への観察された遷移を、$epsilon$の減少として調査するために使用できることを示す。
論文 参考訳(メタデータ) (2023-06-27T20:39:07Z) - A Bias-Accuracy-Privacy Trilemma for Statistical Estimation [16.365507345447803]
任意の分布に対して,バイアスが低く,エラーが低く,プライバシ損失が低いアルゴリズムは存在しない。
偏りのない平均推定は、より寛容な差分プライバシーの概念の下で可能であることを示す。
論文 参考訳(メタデータ) (2023-01-30T23:40:20Z) - The Poisson binomial mechanism for secure and private federated learning [19.399122892615573]
本稿では,分散平均推定(DME)のための離散的差分プライバシー機構を導入し,フェデレーション学習と分析に応用する。
我々は、プライバシー保証の厳密な分析を行い、連続的なガウス機構と同じプライバシーと精度のトレードオフを達成することを示す。
論文 参考訳(メタデータ) (2022-07-09T05:46:28Z) - Optimal Membership Inference Bounds for Adaptive Composition of Sampled
Gaussian Mechanisms [93.44378960676897]
トレーニングされたモデルとデータサンプルが与えられた場合、メンバシップ推論(MI)アタックは、サンプルがモデルのトレーニングセットにあるかどうかを予測する。
MI攻撃に対する一般的な対策は、モデルトレーニング中に差分プライバシー(DP)を利用して個々の事例の存在を隠蔽することである。
本稿では,MI攻撃を装着した相手のテキスト・アドバンテージのバウンダリを導出し,広く利用されているガウス機構の厳密性を示す。
論文 参考訳(メタデータ) (2022-04-12T22:36:56Z) - Nonparametric extensions of randomized response for private confidence sets [51.75485869914048]
本研究は,局所的差分プライバシー(LDP)の制約の下で,集団平均の非パラメトリック,非漸近的統計的推測を行う手法を導出する。
民営化データへのアクセスのみを与えられた場合、$mustar$に対して信頼区間(CI)と時間一様信頼シーケンス(CS)を提示する。
論文 参考訳(メタデータ) (2022-02-17T16:04:49Z) - Private Stochastic Non-Convex Optimization: Adaptive Algorithms and
Tighter Generalization Bounds [72.63031036770425]
有界非次元最適化のための差分プライベート(DP)アルゴリズムを提案する。
標準勾配法に対する経験的優位性について,2つの一般的なディープラーニング手法を実証する。
論文 参考訳(メタデータ) (2020-06-24T06:01:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。