論文の概要: Inference and Interference: The Role of Clipping, Pruning and Loss
Landscapes in Differentially Private Stochastic Gradient Descent
- arxiv url: http://arxiv.org/abs/2311.06839v1
- Date: Sun, 12 Nov 2023 13:31:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 16:43:05.033133
- Title: Inference and Interference: The Role of Clipping, Pruning and Loss
Landscapes in Differentially Private Stochastic Gradient Descent
- Title(参考訳): 推論と干渉:差動的確率的勾配降下におけるクリッピング、刈り取り、ロスランドスケープの役割
- Authors: Lauren Watson, Eric Gan, Mohan Dantam, Baharan Mirzasoleiman, Rik
Sarkar
- Abstract要約: ディファレンシャル・プライベート勾配降下(DP-SGD)は、大規模なニューラルネットワーク上でのトレーニングとテスト性能が劣っていることが知られている。
初期と後期の2つのプロセスの挙動を別々に比較する。
DP-SGDは初期進行が遅いが, 最終結果を決定するのは後期の行動であることがわかった。
- 参考スコア(独自算出の注目度): 13.27004430044574
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Differentially private stochastic gradient descent (DP-SGD) is known to have
poorer training and test performance on large neural networks, compared to
ordinary stochastic gradient descent (SGD). In this paper, we perform a
detailed study and comparison of the two processes and unveil several new
insights. By comparing the behavior of the two processes separately in early
and late epochs, we find that while DP-SGD makes slower progress in early
stages, it is the behavior in the later stages that determines the end result.
This separate analysis of the clipping and noise addition steps of DP-SGD shows
that while noise introduces errors to the process, gradient descent can recover
from these errors when it is not clipped, and clipping appears to have a larger
impact than noise. These effects are amplified in higher dimensions (large
neural networks), where the loss basin occupies a lower dimensional space. We
argue theoretically and using extensive experiments that magnitude pruning can
be a suitable dimension reduction technique in this regard, and find that heavy
pruning can improve the test accuracy of DPSGD.
- Abstract(参考訳): 個別確率勾配降下(DP-SGD)は、通常の確率勾配降下(SGD)と比較して、大きなニューラルネットワーク上での訓練と試験性能が劣っていることが知られている。
本稿では,2つのプロセスの詳細な研究と比較を行い,新しい知見をいくつか明らかにする。
早期と後期の2つのプロセスの挙動を別々に比較することにより,DP-SGDは早期の進行を遅くするが,最終結果を決定するのは後期の行動であることがわかった。
このDP-SGDのクリッピングとノイズ付加ステップの分離分析により、ノイズはプロセスにエラーをもたらすが、クリッピングされていない場合には勾配降下はこれらのエラーから回復し、クリッピングはノイズよりも大きな影響を持つことが示された。
これらの効果は、損失盆地が低次元空間を占める高次元(大規模ニューラルネットワーク)で増幅される。
理論的に論じ,広範にわたる実験により,大切削は寸法低減技術として適しており,重切削がDPSGDのテスト精度を向上させることが確認された。
関連論文リスト
- Differentially Private SGD Without Clipping Bias: An Error-Feedback Approach [62.000948039914135]
Differentially Private Gradient Descent with Gradient Clipping (DPSGD-GC) を使用して、差分プライバシ(DP)がモデルパフォーマンス劣化の犠牲となることを保証する。
DPSGD-GCに代わる新しいエラーフィードバック(EF)DPアルゴリズムを提案する。
提案アルゴリズムに対するアルゴリズム固有のDP解析を確立し,R'enyi DPに基づくプライバシ保証を提供する。
論文 参考訳(メタデータ) (2023-11-24T17:56:44Z) - SGD with Large Step Sizes Learns Sparse Features [22.959258640051342]
本稿では、ニューラルネットワークのトレーニングにおいて、グラディエント・ディフレッシュ(SGD)のダイナミクスの重要な特徴を紹介する。
より長いステップサイズでは、損失ランドスケープにおいてSGDは高く保たれ、暗黙の正規化がうまく機能し、スパース表現を見つけることができる。
論文 参考訳(メタデータ) (2022-10-11T11:00:04Z) - Improving Differentially Private SGD via Randomly Sparsified Gradients [31.295035726077366]
ディファレンシャル・プライベート・グラデーション・オブザーバ(DP-SGD)は、厳密に定義されたプライバシー境界圧縮を提供するため、ディープラーニングにおいて広く採用されている。
本稿では,通信コストを向上し,プライバシ境界圧縮を強化するためのRSを提案する。
論文 参考訳(メタデータ) (2021-12-01T21:43:34Z) - Differentially private training of neural networks with Langevin
dynamics forcalibrated predictive uncertainty [58.730520380312676]
その結果,DP-SGD(差分偏差勾配勾配勾配勾配勾配)は,低校正・過信深層学習モデルが得られることがわかった。
これは、医療診断など、安全クリティカルな応用にとって深刻な問題である。
論文 参考訳(メタデータ) (2021-07-09T08:14:45Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Towards Theoretically Understanding Why SGD Generalizes Better Than ADAM
in Deep Learning [165.47118387176607]
ADAMライクな適応勾配アルゴリズムが、学習速度が速いにもかかわらず、SGDよりも悪い一般化性能に苦しむ理由は不明である。
具体的には,これらのアルゴリズムの勾配雑音の重みを観測する。
論文 参考訳(メタデータ) (2020-10-12T12:00:26Z) - On the Generalization Benefit of Noise in Stochastic Gradient Descent [34.127525925676416]
ディープニューラルネットワークにおけるバッチ勾配勾配よりも、ミニバッチ勾配勾配がより一般化できるという主張は、長年にわたって議論されてきた。
小さいバッチサイズや中程度のバッチサイズは、テストセットにおいて非常に大きなバッチよりも大幅に優れています。
論文 参考訳(メタデータ) (2020-06-26T16:18:54Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - The Impact of the Mini-batch Size on the Variance of Gradients in
Stochastic Gradient Descent [28.148743710421932]
ミニバッチ勾配勾配(SGD)アルゴリズムは機械学習モデルのトレーニングに広く用いられている。
線形回帰および2層線形ネットワーク下でのSGDダイナミクスについて検討し,より深い線形ネットワークへの拡張を容易にする。
論文 参考訳(メタデータ) (2020-04-27T20:06:11Z) - The Break-Even Point on Optimization Trajectories of Deep Neural
Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。
トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。
また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文 参考訳(メタデータ) (2020-02-21T22:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。