論文の概要: Adaptive Online Bayesian Estimation of Frequency Distributions with Local Differential Privacy
- arxiv url: http://arxiv.org/abs/2405.07020v1
- Date: Sat, 11 May 2024 13:59:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 18:47:31.338537
- Title: Adaptive Online Bayesian Estimation of Frequency Distributions with Local Differential Privacy
- Title(参考訳): 局所微分プライバシーを用いた周波数分布の適応的オンラインベイズ推定
- Authors: Soner Aydin, Sinan Yildirim,
- Abstract要約: 本稿では, 局所微分プライバシー(LDP)フレームワークを用いて, 有限個のカテゴリの周波数分布を適応的かつオンラインに推定する手法を提案する。
提案アルゴリズムは, 後方サンプリングによるベイズパラメータ推定を行い, 得られた後方サンプルに基づいて, LDPのランダム化機構を適用する。
提案手法は, (i) アルゴリズムがターゲットとする後続分布が近似した後続サンプリングであっても真のパラメータに収束し, (ii) アルゴリズムが後続サンプリングを正確に行えば高い確率で最適サブセットを選択することを示す理論解析である。
- 参考スコア(独自算出の注目度): 0.4604003661048266
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel Bayesian approach for the adaptive and online estimation of the frequency distribution of a finite number of categories under the local differential privacy (LDP) framework. The proposed algorithm performs Bayesian parameter estimation via posterior sampling and adapts the randomization mechanism for LDP based on the obtained posterior samples. We propose a randomized mechanism for LDP which uses a subset of categories as an input and whose performance depends on the selected subset and the true frequency distribution. By using the posterior sample as an estimate of the frequency distribution, the algorithm performs a computationally tractable subset selection step to maximize the utility of the privatized response of the next user. We propose several utility functions related to well-known information metrics, such as (but not limited to) Fisher information matrix, total variation distance, and information entropy. We compare each of these utility metrics in terms of their computational complexity. We employ stochastic gradient Langevin dynamics for posterior sampling, a computationally efficient approximate Markov chain Monte Carlo method. We provide a theoretical analysis showing that (i) the posterior distribution targeted by the algorithm converges to the true parameter even for approximate posterior sampling, and (ii) the algorithm selects the optimal subset with high probability if posterior sampling is performed exactly. We also provide numerical results that empirically demonstrate the estimation accuracy of our algorithm where we compare it with nonadaptive and semi-adaptive approaches under experimental settings with various combinations of privacy parameters and population distribution parameters.
- Abstract(参考訳): 本研究では, 局所微分プライバシー(LDP)フレームワークの下で, 有限個のカテゴリの周波数分布を適応的かつオンラインに推定するための新しいベイズ的手法を提案する。
提案アルゴリズムは, 後方サンプリングによるベイズパラメータ推定を行い, 得られた後方サンプルに基づいて, LDPのランダム化機構を適用する。
本稿では,カテゴリのサブセットを入力として使用し,選択したサブセットと真の周波数分布に依存するLCPのランダム化機構を提案する。
後部サンプルを周波数分布の推定として使用することにより、アルゴリズムは、次のユーザの民営化応答の有用性を最大化するために、計算的に抽出可能なサブセット選択ステップを実行する。
本稿では,魚情報行列,全変動距離,情報エントロピーなど,よく知られた情報メトリクスに関連するいくつかのユーティリティ機能を提案する。
これらのユーティリティメトリクスのそれぞれを、計算の複雑さの観点から比較する。
計算効率の良いマルコフ連鎖モンテカルロ法である後方サンプリングに確率勾配ランゲヴィン力学を用いる。
我々はそれを理論的に分析する。
一 アルゴリズムが目的とする後続分布は、近似後続サンプリングであっても真のパラメータに収束し、
(II) 後続サンプリングが正確に実行される場合, アルゴリズムは高い確率で最適部分集合を選択する。
また,プライバシーパラメータと人口分布パラメータの組み合わせによる実験条件下での非適応的および半適応的アプローチと比較し,アルゴリズムの推定精度を実証的に示す数値結果も提供する。
関連論文リスト
- Scalable DP-SGD: Shuffling vs. Poisson Subsampling [61.19794019914523]
バッチサンプリングをシャッフルしたマルチエポック適応線形クエリ(ABLQ)機構のプライバシ保証に対する新たな下位境界を提供する。
ポアソンのサブサンプリングと比較すると大きな差がみられ, 以前の分析は1つのエポックに限られていた。
本稿では,大規模な並列計算を用いて,Poissonサブサンプリングを大規模に実装する実践的手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T19:06:16Z) - Bayesian Estimation and Tuning-Free Rank Detection for Probability Mass Function Tensors [17.640500920466984]
本稿では,関節のPMFを推定し,そのランクを観測データから自動的に推定する新しい枠組みを提案する。
我々は、様々なモデルパラメータの後方分布を近似するために、変分推論(VI)に基づく決定論的解を導出し、さらに、変分推論(SVI)を利用して、VVIベースのアプローチのスケーラブルバージョンを開発する。
合成データと実映画レコメンデーションデータの両方を含む実験は、推定精度、自動ランク検出、計算効率の点で、VVIおよびSVIベースの手法の利点を示している。
論文 参考訳(メタデータ) (2024-10-08T20:07:49Z) - Stratified Prediction-Powered Inference for Hybrid Language Model Evaluation [62.2436697657307]
予測駆動推論(英: Prediction-powered Inference, PPI)は、人間ラベル付き限られたデータに基づいて統計的推定を改善する手法である。
我々はStratPPI(Stratified Prediction-Powered Inference)という手法を提案する。
単純なデータ階層化戦略を用いることで,基礎的なPPI推定精度を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2024-06-06T17:37:39Z) - Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - Noise Variance Optimization in Differential Privacy: A Game-Theoretic Approach Through Per-Instance Differential Privacy [7.264378254137811]
差分プライバシー(DP)は、個人をターゲットデータセットに含めることによる分布の変化を観察することにより、プライバシー損失を測定することができる。
DPは、AppleやGoogleのような業界巨人の機械学習におけるデータセットの保護において際立っている。
本稿では,PDPを制約として提案し,各データインスタンスのプライバシ損失を測定し,個々のインスタンスに適したノイズを最適化する。
論文 参考訳(メタデータ) (2024-04-24T06:51:16Z) - Optimal Locally Private Nonparametric Classification with Public Data [2.631955426232593]
本研究では,非パラメトリック分類に着目して,公共データを利用した非対話型局所微分プライベート(LDP)学習の問題点について検討する。
後方ドリフト仮定の下では, LDP制約による最小収束率を導出する。
そこで本研究では,極小最大収束率を達成できる新しい手法である局所微分プライベート分類木を提案する。
論文 参考訳(メタデータ) (2023-11-19T16:35:01Z) - Personalized Federated Learning under Mixture of Distributions [98.25444470990107]
本稿では,ガウス混合モデル(GMM)を用いたPFL(Personalized Federated Learning)を提案する。
FedGMMはオーバーヘッドを最小限に抑え、新しいクライアントに適応する付加的なアドバンテージを持ち、不確実な定量化を可能にします。
PFL分類と新しいサンプル検出の両方において, 合成データセットとベンチマークデータセットの実証評価により, 提案手法の優れた性能を示した。
論文 参考訳(メタデータ) (2023-05-01T20:04:46Z) - Prediction-Oriented Bayesian Active Learning [51.426960808684655]
予測情報ゲイン(EPIG)は、パラメータではなく予測空間における情報ゲインを測定する。
EPIGは、さまざまなデータセットやモデルにわたるBALDと比較して、予測パフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-04-17T10:59:57Z) - Unlabelled Data Improves Bayesian Uncertainty Calibration under
Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。
前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-06-26T13:50:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。