論文の概要: Unleashing the Power of Randomization in Auditing Differentially Private
ML
- arxiv url: http://arxiv.org/abs/2305.18447v1
- Date: Mon, 29 May 2023 03:53:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 20:53:17.346821
- Title: Unleashing the Power of Randomization in Auditing Differentially Private
ML
- Title(参考訳): 個人差分MLにおけるランダム化のパワーの解放
- Authors: Krishna Pillutla, Galen Andrew, Peter Kairouz, H. Brendan McMahan,
Alina Oprea, Sewoong Oh
- Abstract要約: ランダム化されたデータセットを扱うために、差分プライバシーの定義を拡張したLifted Differential Privacy (LiDP)を導入する。
次に、データセットで$K$カナリアでトレーニングされたモデルと$K - 1$カナリアでトレーニングされたモデルを区別してLiDPを監査する。
第三に、実証的な高次相関に適応することにより、複数のテスト統計を利用する新しい信頼区間を導入する。
- 参考スコア(独自算出の注目度): 41.14701346437445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a rigorous methodology for auditing differentially private machine
learning algorithms by adding multiple carefully designed examples called
canaries. We take a first principles approach based on three key components.
First, we introduce Lifted Differential Privacy (LiDP) that expands the
definition of differential privacy to handle randomized datasets. This gives us
the freedom to design randomized canaries. Second, we audit LiDP by trying to
distinguish between the model trained with $K$ canaries versus $K - 1$ canaries
in the dataset, leaving one canary out. By drawing the canaries i.i.d., LiDP
can leverage the symmetry in the design and reuse each privately trained model
to run multiple statistical tests, one for each canary. Third, we introduce
novel confidence intervals that take advantage of the multiple test statistics
by adapting to the empirical higher-order correlations. Together, this new
recipe demonstrates significant improvements in sample complexity, both
theoretically and empirically, using synthetic and real data. Further, recent
advances in designing stronger canaries can be readily incorporated into the
new framework.
- Abstract(参考訳): 我々は、カナリアと呼ばれる慎重に設計された複数の例を追加することによって、微分プライベートな機械学習アルゴリズムを監査するための厳密な方法論を提案する。
私たちは3つの重要なコンポーネントに基づいた最初の原則アプローチを取ります。
まず、ランダム化されたデータセットを扱うために差分プライバシーの定義を拡張するLifted Differential Privacy (LiDP)を導入する。
これにより、ランダム化されたカナリアを設計する自由が得られます。
次に、データセット内の1ドルカナリアに対して$K$カナリアでトレーニングされたモデルと1ドルカナリアでトレーニングされたモデルを区別してLiDPを監査します。
カナリアを描画することで、LiDPは設計における対称性を活用でき、各プライベートトレーニングされたモデルを再利用して複数の統計テストを実行する。
第3に,経験的な高次相関に適応することで,複数のテスト統計を生かした新たな信頼区間を導入する。
この新しいレシピは、理論上も経験上も、合成データと実データを使って、サンプルの複雑さを大幅に改善することを示している。
さらに、より強力なカナリアを設計する最近の進歩は、容易に新しいフレームワークに組み込まれる。
関連論文リスト
- Enhancing Learning with Label Differential Privacy by Vector Approximation [12.212865127830872]
ラベル微分プライバシ(DP)は、データセットのトレーニングにおいてラベルのプライバシを保護するフレームワークである。
既存のアプローチは、ラベルをランダムに反転させることで、ラベルのプライバシを保護する。
本稿では,実装が容易で,計算オーバーヘッドがほとんどないベクトル近似手法を提案する。
論文 参考訳(メタデータ) (2024-05-24T02:08:45Z) - Optimal Unbiased Randomizers for Regression with Label Differential
Privacy [61.63619647307816]
ラベル差分プライバシ(DP)の制約の下で回帰モデルをトレーニングするためのラベルランダム化器の新たなファミリーを提案する。
これらのランダム化器は、いくつかのデータセット上で最先端のプライバシユーティリティトレードオフを実現することを実証する。
論文 参考訳(メタデータ) (2023-12-09T19:58:34Z) - Mitigating Shortcut Learning with Diffusion Counterfactuals and Diverse Ensembles [95.49699178874683]
拡散確率モデル(DPM)を利用したアンサンブル多様化フレームワークDiffDivを提案する。
DPMは、相関した入力特徴を示すサンプルを用いて訓練しても、新しい特徴の組み合わせで画像を生成することができることを示す。
そこで本研究では,DPM誘導の多様化は,教師付き信号の追加を必要とせず,ショートカットキューへの依存を取り除くのに十分であることを示す。
論文 参考訳(メタデータ) (2023-11-23T15:47:33Z) - Differentially Private Linear Regression with Linked Data [3.9325957466009203]
コンピュータ科学の数学的概念である差分プライバシーは、堅牢なプライバシー保証を提供する上昇するツールである。
最近の研究は、個々の統計および機械学習タスクの微分プライベートバージョンの開発に焦点を当てている。
相関データを用いた線形回帰のための2つの微分プライベートアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-01T21:00:19Z) - Differentially Private Statistical Inference through $\beta$-Divergence
One Posterior Sampling [2.8544822698499255]
本稿では,モデルとデータ生成プロセス間の$beta$-divergenceの最小化を目標とした,一般化後部からの後部サンプリング手法を提案する。
これにより、基礎となるモデルの変更を必要とせずに、一般的に適用可能なプライベートな推定が可能になる。
我々は、$beta$D-Bayesが同一のプライバシー保証に対してより正確な推測を行うことを示す。
論文 参考訳(メタデータ) (2023-07-11T12:00:15Z) - CARMS: Categorical-Antithetic-REINFORCE Multi-Sample Gradient Estimator [60.799183326613395]
本稿では, 相互に負に相関した複数のサンプルに基づく分類的確率変数の非バイアス推定器を提案する。
CARMSは、ReINFORCEとコプラベースのサンプリングを組み合わせることで、重複サンプルを回避し、その分散を低減し、重要サンプリングを使用して推定器を偏りなく維持する。
我々は、生成的モデリングタスクと構造化された出力予測タスクに基づいて、いくつかのベンチマークデータセット上でCARMSを評価し、強力な自己制御ベースラインを含む競合する手法より優れていることを示す。
論文 参考訳(メタデータ) (2021-10-26T20:14:30Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Parametric Bootstrap for Differentially Private Confidence Intervals [8.781431682774484]
本研究では,個人差分パラメトリック推定のための信頼区間を構築するための実用的,汎用的なアプローチを開発する。
パラメトリックブートストラップは単純で効果的な解であることがわかった。
論文 参考訳(メタデータ) (2020-06-14T00:08:19Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。