論文の概要: Scaling up Differentially Private Deep Learning with Fast Per-Example
Gradient Clipping
- arxiv url: http://arxiv.org/abs/2009.03106v1
- Date: Mon, 7 Sep 2020 13:51:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 02:31:18.112152
- Title: Scaling up Differentially Private Deep Learning with Fast Per-Example
Gradient Clipping
- Title(参考訳): Per-Example Gradient Clippingによる差分プライベートディープラーニングのスケールアップ
- Authors: Jaewoo Lee and Daniel Kifer
- Abstract要約: 差分プライバシーに関する最近の研究は、ディープラーニングタスクに差分プライバシーを適用する可能性を示している。
彼らの約束にもかかわらず、異なるプライベートなディープネットワークは、正確さで非プライベートなネットワークよりもはるかに遅れていることが多い。
この拡張された研究の障壁の1つは、トレーニング時間 -- 多くの場合、非プライベートネットワークのトレーニングよりも桁違いに大きい — である。
- 参考スコア(独自算出の注目度): 15.410557873153833
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work on Renyi Differential Privacy has shown the feasibility of
applying differential privacy to deep learning tasks. Despite their promise,
however, differentially private deep networks often lag far behind their
non-private counterparts in accuracy, showing the need for more research in
model architectures, optimizers, etc. One of the barriers to this expanded
research is the training time -- often orders of magnitude larger than training
non-private networks. The reason for this slowdown is a crucial privacy-related
step called "per-example gradient clipping" whose naive implementation undoes
the benefits of batch training with GPUs. By analyzing the back-propagation
equations we derive new methods for per-example gradient clipping that are
compatible with auto-differentiation (e.g., in PyTorch and TensorFlow) and
provide better GPU utilization. Our implementation in PyTorch showed
significant training speed-ups (by factors of 54x - 94x for training various
models with batch sizes of 128). These techniques work for a variety of
architectural choices including convolutional layers, recurrent networks,
attention, residual blocks, etc.
- Abstract(参考訳): renyi differential privacyに関する最近の研究は、ディープラーニングタスクに差分プライバシーを適用する可能性を示している。
しかし、彼らの約束に反して、異なるプライベートなディープネットワークは、しばしば非プライベートなディープネットワークの精度よりもはるかに遅れており、モデルアーキテクチャやオプティマイザなどのさらなる研究の必要性を示している。
この拡張された研究の障壁の1つは、トレーニング時間 ― 多くの場合、非プライベートネットワークのトレーニングよりも桁違いに大きい。
このスローダウンの理由は、GPUによるバッチトレーニングのメリットを軽視する、"per-example gradient clipping"と呼ばれる、プライバシーに関する重要なステップである。
バックプロパゲーション方程式を解析することにより、自動微分(PyTorchやTensorFlowなど)と互換性のあるサンプルごとの勾配クリッピングの新たな手法が導き出され、GPUの利用性が向上する。
PyTorchの実装では、トレーニング速度が大幅に向上した(バッチサイズ128のさまざまなモデルをトレーニングするための54倍から94倍)。
これらのテクニックは、畳み込み層、リカレントネットワーク、注意、残留ブロックなど、さまざまなアーキテクチャ上の選択に役立ちます。
関連論文リスト
- Stepping Forward on the Last Mile [8.756033984943178]
本稿では,バックプロパゲーションと比較してメモリフットプリントと精度のギャップを低減させるアルゴリズムの一連の拡張を提案する。
その結果、エッジデバイス上でのモデルカスタマイズの最後のマイルでは、固定点前方勾配によるトレーニングが実現可能で実践的なアプローチであることが示されている。
論文 参考訳(メタデータ) (2024-11-06T16:33:21Z) - Equivariant Differentially Private Deep Learning: Why DP-SGD Needs
Sparser Models [7.49320945341034]
小型で効率的なアーキテクチャ設計は、計算要求がかなり少ない最先端のモデルよりも優れていることを示す。
私たちの結果は、パラメータを最適に活用する効率的なモデルアーキテクチャへの一歩です。
論文 参考訳(メタデータ) (2023-01-30T17:43:47Z) - Exploring the Limits of Differentially Private Deep Learning with
Group-wise Clipping [91.60608388479645]
本研究では, クリッピングとバックプロパゲーションを併用して, 異なる最適化手法でクリッピングを行えることを示す。
その結果、プライベートな学習は、記憶効率が良く、トレーニング更新あたりの速度は、多くの関心を持つ非プライベートな学習と同程度になる。
論文 参考訳(メタデータ) (2022-12-03T05:20:15Z) - Fine-Tuning with Differential Privacy Necessitates an Additional
Hyperparameter Search [38.83524780461911]
トレーニング済みニューラルネットワークで微調整されたレイヤを慎重に選択することで、プライバシと正確性の間に新たな最先端のトレードオフを確立することができることを示す。
ImageNetで事前トレーニングされたモデルに対して、CIFAR-100上で$(varepsilon, delta)= (2, 10-5)$に対して77.9%の精度を達成する。
論文 参考訳(メタデータ) (2022-10-05T11:32:49Z) - Training Your Sparse Neural Network Better with Any Mask [106.134361318518]
高品質で独立したトレーニング可能なスパースマスクを作成するために、大規模なニューラルネットワークをプルーニングすることが望ましい。
本稿では、デフォルトの高密度ネットワークトレーニングプロトコルから逸脱するためにスパーストレーニングテクニックをカスタマイズできる別の機会を示す。
我々の新しいスパーストレーニングレシピは、スクラッチから様々なスパースマスクでトレーニングを改善するために一般的に適用されます。
論文 参考訳(メタデータ) (2022-06-26T00:37:33Z) - Large Scale Transfer Learning for Differentially Private Image
Classification [51.10365553035979]
Differential Privacy(DP)は、個別のサンプルレベルのプライバシで機械学習モデルをトレーニングするための正式なフレームワークを提供する。
DP-SGDを用いたプライベートトレーニングは、個々のサンプル勾配にノイズを注入することで漏れを防ぐ。
この結果は非常に魅力的であるが,DP-SGDを用いた大規模モデルのトレーニングの計算コストは,非プライベートトレーニングよりもかなり高い。
論文 参考訳(メタデータ) (2022-05-06T01:22:20Z) - APP: Anytime Progressive Pruning [104.36308667437397]
本稿では,特にオンライン学習の場合において,ニューラルネットワークをターゲット空間でトレーニングする方法を提案する。
提案手法は,複数のアーキテクチャやデータセットにまたがるベースライン密度とAnytime OSPモデルにおいて,短時間で適度かつ長時間のトレーニングにおいて,大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-04-04T16:38:55Z) - Don't Generate Me: Training Differentially Private Generative Models
with Sinkhorn Divergence [73.14373832423156]
そこで我々はDP-Sinkhornを提案する。DP-Sinkhornは個人データからデータ分布を差分プライバシで学習するための新しいトランスポートベース生成手法である。
差分的にプライベートな生成モデルを訓練するための既存のアプローチとは異なり、我々は敵の目的に頼らない。
論文 参考訳(メタデータ) (2021-11-01T18:10:21Z) - Differentially Private Deep Learning with Direct Feedback Alignment [15.410557873153833]
直接フィードバックアライメント(DFA)を用いたディープニューラルネットワークのトレーニングのための最初の微分プライベート手法を提案する。
DFAは、様々なアーキテクチャにおけるバックプロップベースの差分プライベートトレーニングと比較して、精度(しばしば10-20%)が大幅に向上する。
論文 参考訳(メタデータ) (2020-10-08T00:25:22Z) - Sparse Communication for Training Deep Networks [56.441077560085475]
同期勾配降下(SGD)は、ディープラーニングモデルの分散トレーニングに最もよく用いられる手法である。
このアルゴリズムでは、各ワーカーは他のワーカーと局所勾配を共有し、すべてのワーカーの平均勾配を使ってパラメータを更新する。
いくつかの圧縮スキームについて検討し、3つの重要なパラメータが性能に与える影響を同定する。
論文 参考訳(メタデータ) (2020-09-19T17:28:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。