論文の概要: Optimal Differentially Private Model Training with Public Data
- arxiv url: http://arxiv.org/abs/2306.15056v3
- Date: Mon, 9 Sep 2024 22:02:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 23:57:26.384320
- Title: Optimal Differentially Private Model Training with Public Data
- Title(参考訳): 公開データを用いた個人差分モデル学習の最適方法
- Authors: Andrew Lowy, Zeman Li, Tianjian Huang, Meisam Razaviyayn,
- Abstract要約: 差分プライバシー(DP)は、機械学習モデルのトレーニングがプライベートデータをリークしないことを保証する。
実際には、プライバシーの懸念のない補助的な公開データにアクセスできます。
- 参考スコア(独自算出の注目度): 13.16576244790641
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Differential privacy (DP) ensures that training a machine learning model does not leak private data. In practice, we may have access to auxiliary public data that is free of privacy concerns. In this work, we assume access to a given amount of public data and settle the following fundamental open questions: 1. What is the optimal (worst-case) error of a DP model trained over a private data set while having access to side public data? 2. How can we harness public data to improve DP model training in practice? We consider these questions in both the local and central models of pure and approximate DP. To answer the first question, we prove tight (up to log factors) lower and upper bounds that characterize the optimal error rates of three fundamental problems: mean estimation, empirical risk minimization, and stochastic convex optimization. We show that the optimal error rates can be attained (up to log factors) by either discarding private data and training a public model, or treating public data like it is private and using an optimal DP algorithm. To address the second question, we develop novel algorithms that are "even more optimal" (i.e. better constants) than the asymptotically optimal approaches described above. For local DP mean estimation, our algorithm is optimal including constants. Empirically, our algorithms show benefits over the state-of-the-art.
- Abstract(参考訳): 差分プライバシー(DP)は、機械学習モデルのトレーニングがプライベートデータをリークしないことを保証する。
実際には、プライバシーの懸念のない補助的な公開データにアクセスできます。
この作業では、所定の量の公開データにアクセスし、以下の基本的なオープンな質問を解決します。
1. 外部公開データにアクセスしながらプライベートデータセット上でトレーニングされたDPモデルの最適(Worst-case)エラーは何か。
2. DPモデルトレーニングの実践に公共データをどのように活用するか。
これらの疑問は、純粋および近似DPの局所モデルと中心モデルの両方において考察する。
最初の質問に答えるために、平均推定、経験的リスク最小化、確率的凸最適化という3つの基本的な問題の最適誤差率を特徴付ける、(対数因子まで)下限と上限を厳密に証明する。
プライベートデータを捨てて公開モデルをトレーニングするか、プライベートデータのように公開データを扱い、最適なDPアルゴリズムを用いて、最適なエラー率(ログファクタまで)を達成可能であることを示す。
2つ目の問題に対処するために、上述した漸近的最適アプローチよりも「さらに最適な」新しいアルゴリズム(例えば、より良い定数)を開発する。
局所DP平均推定では,定数を含むアルゴリズムが最適である。
経験的に、我々のアルゴリズムは最先端技術に勝る利点を示している。
関連論文リスト
- Pseudo-Probability Unlearning: Towards Efficient and Privacy-Preserving Machine Unlearning [59.29849532966454]
本稿では,PseudoProbability Unlearning (PPU)を提案する。
提案手法は,最先端の手法に比べて20%以上の誤りを忘れる改善を実現している。
論文 参考訳(メタデータ) (2024-11-04T21:27:06Z) - Pre-training Differentially Private Models with Limited Public Data [54.943023722114134]
ディファレンシャルプライバシ(DP)は、モデルに提供されるセキュリティの度合いを測定するための重要な手法である。
DPはまだ、最初の事前訓練段階で使用されるデータのかなりの部分を保護することができない。
公共データの10%しか利用しない新しいDP継続事前学習戦略を開発した。
ImageNet-21kのDP精度は41.5%、非DP精度は55.7%、下流タスクのPlaces365とiNaturalist-2021では60.0%である。
論文 参考訳(メタデータ) (2024-02-28T23:26:27Z) - Optimal Locally Private Nonparametric Classification with Public Data [2.631955426232593]
本研究では,非パラメトリック分類に着目して,公共データを利用した非対話型局所微分プライベート(LDP)学習の問題点について検討する。
後方ドリフト仮定の下では, LDP制約による最小収束率を導出する。
そこで本研究では,極小最大収束率を達成できる新しい手法である局所微分プライベート分類木を提案する。
論文 参考訳(メタデータ) (2023-11-19T16:35:01Z) - DPGOMI: Differentially Private Data Publishing with Gaussian Optimized
Model Inversion [8.204115285718437]
本稿では,ガウス最適化モデルインバージョン(DPGOMI)を用いた微分プライベートデータパブリッシングを提案し,この問題に対処する。
提案手法では, パブリックジェネレータを用いてプライベートデータを潜時空間にマッピングし, コンバージェンス特性が向上した低次元DP-GANを用いる。
以上の結果から,DPGOMIは,インセプションスコア,Freche't Inception Distance,分類性能において,標準DP-GAN法よりも優れていた。
論文 参考訳(メタデータ) (2023-10-06T18:46:22Z) - Why Is Public Pretraining Necessary for Private Model Training? [50.054565310457306]
公開データに対する事前トレーニングは、非プライベートな設定よりも顕著な利益をもたらすことを示す。
トレードオフは、アルゴリズムが2つのフェーズを通過する必要のある、より深い損失モデルかもしれない、と私たちは主張する。
直観によって導かれた理論的な構成は、公的な事前訓練なしでの私的分離を確実に実証するものである。
論文 参考訳(メタデータ) (2023-02-19T05:32:20Z) - DP$^2$-VAE: Differentially Private Pre-trained Variational Autoencoders [26.658723213776632]
DP保証付き変分オートエンコーダ(VAE)のトレーニング機構であるDP$2$-VAEを提案する。
さまざまなプライバシ予算と評価指標の下で,ベースラインよりも優位性を示すために,画像データセットに関する広範な実験を行った。
論文 参考訳(メタデータ) (2022-08-05T23:57:34Z) - Individual Privacy Accounting for Differentially Private Stochastic Gradient Descent [69.14164921515949]
DP-SGDで訓練されたモデルをリリースする際の個々の事例に対するプライバシー保証を特徴付ける。
ほとんどの例では、最悪のケースよりも強力なプライバシー保証を享受しています。
これは、モデルユーティリティの観点からは守られないグループが同時に、より弱いプライバシー保証を経験することを意味する。
論文 参考訳(メタデータ) (2022-06-06T13:49:37Z) - Public Data-Assisted Mirror Descent for Private Model Training [23.717811604829148]
差分プライベート(DP)モデルトレーニングにおけるプライバシ/ユーティリティトレードオフを改善するために,公開データを使用することの問題点を再考する。
我々は,従来のDP-SGDやDP-FedAvgよりもDP-SGDやDP-FedAvgよりもDP-FedAvgの方が大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2021-12-01T00:21:40Z) - Private Stochastic Non-Convex Optimization: Adaptive Algorithms and
Tighter Generalization Bounds [72.63031036770425]
有界非次元最適化のための差分プライベート(DP)アルゴリズムを提案する。
標準勾配法に対する経験的優位性について,2つの一般的なディープラーニング手法を実証する。
論文 参考訳(メタデータ) (2020-06-24T06:01:24Z) - User-Level Privacy-Preserving Federated Learning: Analysis and
Performance Optimization [77.43075255745389]
フェデレートラーニング(FL)は、データを有用なモデルにトレーニングしながら、モバイル端末(MT)からプライベートデータを保存することができる。
情報理論の観点からは、MTがアップロードした共有モデルから、好奇心の強いサーバがプライベートな情報を推測することが可能である。
サーバにアップロードする前に、共有モデルに人工ノイズを加えることで、ユーザレベルの差分プライバシー(UDP)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-29T10:13:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。