論文の概要: Recycling Scraps: Improving Private Learning by Leveraging Intermediate
Checkpoints
- arxiv url: http://arxiv.org/abs/2210.01864v1
- Date: Tue, 4 Oct 2022 19:21:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 15:04:13.385997
- Title: Recycling Scraps: Improving Private Learning by Leveraging Intermediate
Checkpoints
- Title(参考訳): リサイクルスクラップ:中間チェックポイントを活用した個人学習の改善
- Authors: Virat Shejwalkar, Arun Ganesh, Rajiv Mathews, Om Thakkar, Abhradeep
Thakurta
- Abstract要約: 本研究は,DPトレーニングの有用性を向上させるために,中間チェックポイントを集約する様々な手法について検討する。
CIFAR10およびStackOverflowデータセットの既存のSOTAよりも,チェックポイントアグリゲーションが予測精度を大幅に向上させることを示す。
最後に,最後の数個のチェックポイントからのサンプルのばらつきは,DPランの最終モデルのばらつきをよく近似できることを示す。
- 参考スコア(独自算出の注目度): 17.654346227497403
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: All state-of-the-art (SOTA) differentially private machine learning (DP ML)
methods are iterative in nature, and their privacy analyses allow publicly
releasing the intermediate training checkpoints. However, DP ML benchmarks, and
even practical deployments, typically use only the final training checkpoint to
make predictions. In this work, for the first time, we comprehensively explore
various methods that aggregate intermediate checkpoints to improve the utility
of DP training. Empirically, we demonstrate that checkpoint aggregations
provide significant gains in the prediction accuracy over the existing SOTA for
CIFAR10 and StackOverflow datasets, and that these gains get magnified in
settings with periodically varying training data distributions. For instance,
we improve SOTA StackOverflow accuracies to 22.7% (+0.43% absolute) for
$\epsilon=8.2$, and 23.84% (+0.43%) for $\epsilon=18.9$. Theoretically, we show
that uniform tail averaging of checkpoints improves the empirical risk
minimization bound compared to the last checkpoint of DP-SGD. Lastly, we
initiate an exploration into estimating the uncertainty that DP noise adds in
the predictions of DP ML models. We prove that, under standard assumptions on
the loss function, the sample variance from last few checkpoints provides a
good approximation of the variance of the final model of a DP run. Empirically,
we show that the last few checkpoints can provide a reasonable lower bound for
the variance of a converged DP model.
- Abstract(参考訳): 最先端(SOTA)のすべてのプライベート機械学習(DP ML)メソッドは本質的に反復的であり、そのプライバシ分析によって中間トレーニングチェックポイントを公開することができる。
しかし、DP MLベンチマークや実践的なデプロイメントでさえ、予測のために最終的なトレーニングチェックポイントのみを使用するのが一般的である。
本稿では,dpトレーニングの有用性を向上させるために,中間チェックポイントを集約する様々な手法を初めて総合的に検討する。
実証的に、チェックポイント集約は、cifar10とstackoverflowデータセットの既存のsataよりも、予測精度が大幅に向上することを示し、これらの向上は、定期的に異なるトレーニングデータ分布を持つ設定で拡大されることを示した。
例えば、SOTA StackOverflowの精度を$\epsilon=8.2$で22.7%(+0.43%絶対)、$\epsilon=18.9$で23.84%(+0.43%)に改善する。
理論的には、チェックポイントの均一なテール平均化は、DP-SGDの最終チェックポイントと比較して経験的リスク最小化を改善する。
最後に,DP MLモデルの予測においてDPノイズが付加する不確かさを推定する調査を開始する。
損失関数の標準仮定の下では、最後のいくつかのチェックポイントからのサンプル分散がdp実行の最終モデルの分散のよい近似となることが証明される。
実験により,最後の数個のチェックポイントが収束されたDPモデルの分散に対して妥当な下界を与えることを示す。
関連論文リスト
- Pre-training Differentially Private Models with Limited Public Data [54.943023722114134]
ディファレンシャルプライバシ(DP)は、モデルに提供されるセキュリティの度合いを測定するための重要な手法である。
DPはまだ、最初の事前訓練段階で使用されるデータのかなりの部分を保護することができない。
公共データの10%しか利用しない新しいDP継続事前学習戦略を開発した。
ImageNet-21kのDP精度は41.5%、非DP精度は55.7%、下流タスクのPlaces365とiNaturalist-2021では60.0%である。
論文 参考訳(メタデータ) (2024-02-28T23:26:27Z) - Auto DP-SGD: Dual Improvements of Privacy and Accuracy via Automatic
Clipping Threshold and Noise Multiplier Estimation [1.7942265700058988]
DP-SGDは、ディープラーニングアプリケーションにおける個人識別情報を保護するための一般的な方法として登場した。
本稿では,各トレーニングサンプルの勾配を勾配情報を失うことなくスケールするAuto DP-SGDを提案する。
我々は,Auto DP-SGDが既存のSOTA DP-SGDメソッドよりも,様々なベンチマークデータセットのプライバシと精度で優れていることを示す。
論文 参考訳(メタデータ) (2023-12-05T00:09:57Z) - Local and adaptive mirror descents in extensive-form games [37.04094644847904]
我々は,ゼロサム不完全な情報ゲーム (IIG) において,軌道フィードバックを用いて$epsilon$-Optimal戦略を学習する方法を研究する。
我々は、プレイヤーが時間とともにポリシーを更新する固定サンプリングアプローチを検討するが、与えられた固定サンプリングポリシーによって観察される。
このアプローチは高い確率で$tildemathcalO(T-1/2)$の収束率を保証し、ゲームパラメータにほぼ最適に依存することを示す。
論文 参考訳(メタデータ) (2023-09-01T09:20:49Z) - Differentially Private Image Classification from Features [53.75086935617644]
転送学習を活用することは、差分プライバシーを持つ大規模モデルのトレーニングに有効な戦略であることが示されている。
最近の研究によると、訓練済みモデルの最後の層だけをプライベートにトレーニングすることは、DPで最高のユーティリティを提供する。
論文 参考訳(メタデータ) (2022-11-24T04:04:20Z) - Differentially Private Bootstrap: New Privacy Analysis and Inference Strategies [21.739165607822184]
差分的プライベート(DP)メカニズムは、統計的解析手順においてランダム性によって個人レベルの情報を保護する。
サンプリング分布を推定し、信頼区間(CI)を構築するために、複数のプライベートブートストラップ推定を解放するDPブートストラップ手順を検討する。
我々は、人口平均推定、ロジスティック回帰、量子回帰といったタスクのためのCIを導出し、2016年のカナダ国勢調査データにおけるシミュレーションと実世界の実験を用いて既存の手法と比較した。
論文 参考訳(メタデータ) (2022-10-12T12:48:25Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - On the Practicality of Differential Privacy in Federated Learning by
Tuning Iteration Times [51.61278695776151]
フェデレートラーニング(FL)は、分散クライアント間で機械学習モデルを協調的にトレーニングする際のプライバシ保護でよく知られている。
最近の研究では、naive flは勾配リーク攻撃の影響を受けやすいことが指摘されている。
ディファレンシャルプライバシ(dp)は、勾配漏洩攻撃を防御するための有望な対策として現れる。
論文 参考訳(メタデータ) (2021-01-11T19:43:12Z) - Private Stochastic Non-Convex Optimization: Adaptive Algorithms and
Tighter Generalization Bounds [72.63031036770425]
有界非次元最適化のための差分プライベート(DP)アルゴリズムを提案する。
標準勾配法に対する経験的優位性について,2つの一般的なディープラーニング手法を実証する。
論文 参考訳(メタデータ) (2020-06-24T06:01:24Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。