論文の概要: Recycling Scraps: Improving Private Learning by Leveraging Intermediate Checkpoints
- arxiv url: http://arxiv.org/abs/2210.01864v2
- Date: Tue, 17 Sep 2024 05:19:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 23:00:28.833124
- Title: Recycling Scraps: Improving Private Learning by Leveraging Intermediate Checkpoints
- Title(参考訳): リサイクルストラップ:中間チェックポイントの活用による私的学習の改善
- Authors: Virat Shejwalkar, Arun Ganesh, Rajiv Mathews, Yarong Mu, Shuang Song, Om Thakkar, Abhradeep Thakurta, Xinyi Zheng,
- Abstract要約: 本研究では,DP ML 手法の精度を高めるために,中間チェックポイントの集約を用いた一般的なフレームワークを設計する。
我々は,StackOverflow,CIFAR10,CIFAR100データセットの既存の最先端データに対して,集約によるトレーニングによって予測精度が大幅に向上できることを実証した。
本手法は,プロプライエタリなpCVRタスクにおいて,実用性および分散性の観点から0.54%と62.6%の相対的な改善を実現する。
- 参考スコア(独自算出の注目度): 20.533039211835902
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this work, we focus on improving the accuracy-variance trade-off for state-of-the-art differentially private machine learning (DP ML) methods. First, we design a general framework that uses aggregates of intermediate checkpoints \emph{during training} to increase the accuracy of DP ML techniques. Specifically, we demonstrate that training over aggregates can provide significant gains in prediction accuracy over the existing state-of-the-art for StackOverflow, CIFAR10 and CIFAR100 datasets. For instance, we improve the state-of-the-art DP StackOverflow accuracies to 22.74\% (+2.06\% relative) for $\epsilon=8.2$, and 23.90\% (+2.09\%) for $\epsilon=18.9$. Furthermore, these gains magnify in settings with periodically varying training data distributions. We also demonstrate that our methods achieve relative improvements of 0.54\% and 62.6\% in terms of utility and variance, on a proprietary, production-grade pCVR task. Lastly, we initiate an exploration into estimating the uncertainty (variance) that DP noise adds in the predictions of DP ML models. We prove that, under standard assumptions on the loss function, the sample variance from last few checkpoints provides a good approximation of the variance of the final model of a DP run. Empirically, we show that the last few checkpoints can provide a reasonable lower bound for the variance of a converged DP model. Crucially, all the methods proposed in this paper operate on \emph{a single training run} of the DP ML technique, thus incurring no additional privacy cost.
- Abstract(参考訳): 本研究では,最先端の差分型プライベート機械学習(DP ML)手法における精度分散トレードオフの改善に焦点をあてる。
まず,DP ML手法の精度を高めるために,中間チェックポイント<emph{during training} の集約を利用する汎用フレームワークを設計する。
具体的には,StackOverflow,CIFAR10,CIFAR100データセットの既存の最先端データに対して,集約によるトレーニングによって予測精度が大幅に向上できることを実証する。
例えば、最先端のDP StackOverflowの精度を、$\epsilon=8.2$で22.74\%(+2.06\%)、$\epsilon=18.9$で23.90\%(+2.09\%)に改善します。
さらに、これらのゲインは、定期的に異なるトレーニングデータ分布を持つ設定で増大する。
また,本手法は,プロプライエタリで生産段階のpCVRタスクにおいて,実用性および分散性の観点から相対的に 0.54 % と 62.6 % の向上を実現することを実証した。
最後に,DP MLモデルの予測においてDPノイズが付加する不確実性(ばらつき)を推定する調査を開始する。
損失関数の標準的な仮定の下で、最後の数個のチェックポイントからのサンプル分散がDPランの最終モデルの分散を適切に近似することを示した。
経験的に、最後の数個のチェックポイントは、収束DPモデルの分散に対して合理的な下限を与えることができることを示す。
本論文では,DP ML手法のemph{a single training run}を運用しているため,追加のプライバシコストは発生しない。
関連論文リスト
- Pre-training Differentially Private Models with Limited Public Data [54.943023722114134]
ディファレンシャルプライバシ(DP)は、モデルに提供されるセキュリティの度合いを測定するための重要な手法である。
DPはまだ、最初の事前訓練段階で使用されるデータのかなりの部分を保護することができない。
公共データの10%しか利用しない新しいDP継続事前学習戦略を開発した。
ImageNet-21kのDP精度は41.5%、非DP精度は55.7%、下流タスクのPlaces365とiNaturalist-2021では60.0%である。
論文 参考訳(メタデータ) (2024-02-28T23:26:27Z) - Auto DP-SGD: Dual Improvements of Privacy and Accuracy via Automatic
Clipping Threshold and Noise Multiplier Estimation [1.7942265700058988]
DP-SGDは、ディープラーニングアプリケーションにおける個人識別情報を保護するための一般的な方法として登場した。
本稿では,各トレーニングサンプルの勾配を勾配情報を失うことなくスケールするAuto DP-SGDを提案する。
我々は,Auto DP-SGDが既存のSOTA DP-SGDメソッドよりも,様々なベンチマークデータセットのプライバシと精度で優れていることを示す。
論文 参考訳(メタデータ) (2023-12-05T00:09:57Z) - Local and adaptive mirror descents in extensive-form games [37.04094644847904]
我々は,ゼロサム不完全な情報ゲーム (IIG) において,軌道フィードバックを用いて$epsilon$-Optimal戦略を学習する方法を研究する。
我々は、プレイヤーが時間とともにポリシーを更新する固定サンプリングアプローチを検討するが、与えられた固定サンプリングポリシーによって観察される。
このアプローチは高い確率で$tildemathcalO(T-1/2)$の収束率を保証し、ゲームパラメータにほぼ最適に依存することを示す。
論文 参考訳(メタデータ) (2023-09-01T09:20:49Z) - Differentially Private Image Classification from Features [53.75086935617644]
転送学習を活用することは、差分プライバシーを持つ大規模モデルのトレーニングに有効な戦略であることが示されている。
最近の研究によると、訓練済みモデルの最後の層だけをプライベートにトレーニングすることは、DPで最高のユーティリティを提供する。
論文 参考訳(メタデータ) (2022-11-24T04:04:20Z) - Differentially Private Bootstrap: New Privacy Analysis and Inference Strategies [21.739165607822184]
差分的プライベート(DP)メカニズムは、統計的解析手順においてランダム性によって個人レベルの情報を保護する。
サンプリング分布を推定し、信頼区間(CI)を構築するために、複数のプライベートブートストラップ推定を解放するDPブートストラップ手順を検討する。
我々は、人口平均推定、ロジスティック回帰、量子回帰といったタスクのためのCIを導出し、2016年のカナダ国勢調査データにおけるシミュレーションと実世界の実験を用いて既存の手法と比較した。
論文 参考訳(メタデータ) (2022-10-12T12:48:25Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - On the Practicality of Differential Privacy in Federated Learning by
Tuning Iteration Times [51.61278695776151]
フェデレートラーニング(FL)は、分散クライアント間で機械学習モデルを協調的にトレーニングする際のプライバシ保護でよく知られている。
最近の研究では、naive flは勾配リーク攻撃の影響を受けやすいことが指摘されている。
ディファレンシャルプライバシ(dp)は、勾配漏洩攻撃を防御するための有望な対策として現れる。
論文 参考訳(メタデータ) (2021-01-11T19:43:12Z) - Private Stochastic Non-Convex Optimization: Adaptive Algorithms and
Tighter Generalization Bounds [72.63031036770425]
有界非次元最適化のための差分プライベート(DP)アルゴリズムを提案する。
標準勾配法に対する経験的優位性について,2つの一般的なディープラーニング手法を実証する。
論文 参考訳(メタデータ) (2020-06-24T06:01:24Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。