論文の概要: Subsampling is not Magic: Why Large Batch Sizes Work for Differentially Private Stochastic Optimisation
- arxiv url: http://arxiv.org/abs/2402.03990v2
- Date: Wed, 12 Jun 2024 08:23:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 23:03:49.464252
- Title: Subsampling is not Magic: Why Large Batch Sizes Work for Differentially Private Stochastic Optimisation
- Title(参考訳): サブサンプリングは魔法ではない:大きなバッチサイズが個人の確率的最適化に働く理由
- Authors: Ossi Räisä, Joonas Jälkö, Antti Honkela,
- Abstract要約: 差分プライベート勾配降下(DP-SGD)におけるバッチサイズが全勾配変動に与える影響について検討する。
DP-SGDは現代のDP深層学習の基礎であり、その特性は広く研究されており、近年の研究では大規模なバッチサイズが有用であることが実証されている。
- 参考スコア(独自算出の注目度): 5.769172579648919
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study how the batch size affects the total gradient variance in differentially private stochastic gradient descent (DP-SGD), seeking a theoretical explanation for the usefulness of large batch sizes. As DP-SGD is the basis of modern DP deep learning, its properties have been widely studied, and recent works have empirically found large batch sizes to be beneficial. However, theoretical explanations of this benefit are currently heuristic at best. We first observe that the total gradient variance in DP-SGD can be decomposed into subsampling-induced and noise-induced variances. We then prove that in the limit of an infinite number of iterations, the effective noise-induced variance is invariant to the batch size. The remaining subsampling-induced variance decreases with larger batch sizes, so large batches reduce the effective total gradient variance. We confirm numerically that the asymptotic regime is relevant in practical settings when the batch size is not small, and find that outside the asymptotic regime, the total gradient variance decreases even more with large batch sizes. We also find a sufficient condition that implies that large batch sizes similarly reduce effective DP noise variance for one iteration of DP-SGD.
- Abstract(参考訳): 本研究では, バッチサイズがDP-SGDにおける全勾配変動に与える影響について検討し, 大規模バッチサイズの有用性に関する理論的説明を求める。
DP-SGDは現代のDP深層学習の基礎であり、その特性は広く研究されており、近年の研究では大規模なバッチサイズが有用であることが実証されている。
しかし、この利点の理論的な説明は、概してヒューリスティックである。
まず,DP-SGDの全勾配分散をサブサンプリングおよびノイズ誘導分散に分解できることを示す。
そして、無限個の反復の極限において、有効雑音誘起分散はバッチサイズに不変であることを示す。
残りのサブサンプリングにより引き起こされる分散は、より大きなバッチサイズで減少するので、大きなバッチは有効な全勾配分散を減少させる。
本研究では, バッチサイズが小さくない場合に, 漸近的傾向が実用的に関係していることを確認するとともに, 漸近的傾向の外側では, バッチサイズが大きくなるにつれて, 全体的な勾配のばらつきがさらに減少することを確認する。
また,DP-SGDの1回の繰り返しに対して,大きなバッチサイズが有効なDPノイズの分散を減少させることを示す十分な条件も見出す。
関連論文リスト
- Implicit Bias in Noisy-SGD: With Applications to Differentially Private
Training [9.618473763561418]
Gradient Descent(SGD)を使用した小さなバッチによるDeep Neural Networks(DNN)のトレーニングでは、より大きなバッチよりも優れたテストパフォーマンスが得られる。
DNNのトレーニングで差分プライバシー(DP)を確保するために使用されるDP-SGDは、クリップされた勾配にガウスノイズを付加する。
驚くべきことに、大規模なバッチトレーニングは依然としてパフォーマンスを著しく低下させており、強力なDPが大量のバッチを使用する必要があることを保証しているため、重要な課題となっている。
論文 参考訳(メタデータ) (2024-02-13T10:19:33Z) - DPVIm: Differentially Private Variational Inference Improved [13.761202518891329]
多次元統計学の微分プライベート(DP)リリースは、一般的に集合感度を考える。
そのベクトルの次元は様々であり、従ってDP摂動は次元をまたいだ信号に不均等に影響を及ぼす。
変分推論(VI)に用いた場合、DP-SGDアルゴリズムの勾配解法でこの問題を観測する(VI)。
論文 参考訳(メタデータ) (2022-10-28T07:41:32Z) - Non Asymptotic Bounds for Optimization via Online Multiplicative
Stochastic Gradient Descent [0.0]
グラディエントDescent(SGD)の勾配雑音は,その特性において重要な役割を担っていると考えられている。
ミニバッチによるSGDの平均と共分散構造を持つ雑音クラスは、同様の特性を持つことを示す。
また,M-SGDアルゴリズムの強い凸状態における収束の限界を定めている。
論文 参考訳(メタデータ) (2021-12-14T02:25:43Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - Correcting Momentum with Second-order Information [50.992629498861724]
最適積に$O(epsilon)$epsilon点を求める非臨界最適化のための新しいアルゴリズムを開発した。
我々は、さまざまな大規模ディープラーニングベンチマークとアーキテクチャで結果を検証する。
論文 参考訳(メタデータ) (2021-03-04T19:01:20Z) - On the Practicality of Differential Privacy in Federated Learning by
Tuning Iteration Times [51.61278695776151]
フェデレートラーニング(FL)は、分散クライアント間で機械学習モデルを協調的にトレーニングする際のプライバシ保護でよく知られている。
最近の研究では、naive flは勾配リーク攻撃の影響を受けやすいことが指摘されている。
ディファレンシャルプライバシ(dp)は、勾配漏洩攻撃を防御するための有望な対策として現れる。
論文 参考訳(メタデータ) (2021-01-11T19:43:12Z) - On the Generalization Benefit of Noise in Stochastic Gradient Descent [34.127525925676416]
ディープニューラルネットワークにおけるバッチ勾配勾配よりも、ミニバッチ勾配勾配がより一般化できるという主張は、長年にわたって議論されてきた。
小さいバッチサイズや中程度のバッチサイズは、テストセットにおいて非常に大きなバッチよりも大幅に優れています。
論文 参考訳(メタデータ) (2020-06-26T16:18:54Z) - Differentially Private Variational Autoencoders with Term-wise Gradient
Aggregation [12.880889651679094]
差分プライバシー制約の下で,様々な相違点を持つ変分オートエンコーダの学習方法について検討する。
損失項の構成に合わせてランダム化勾配を2つの異なる方法で作成する項ワイズDP-SGDを提案する。
論文 参考訳(メタデータ) (2020-06-19T16:12:28Z) - AdamP: Slowing Down the Slowdown for Momentum Optimizers on
Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。
しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。
本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文 参考訳(メタデータ) (2020-06-15T08:35:15Z) - Adaptive Learning of the Optimal Batch Size of SGD [52.50880550357175]
本稿では,その繰り返しを通じて最適なバッチサイズを適応的に学習し,凸度と滑らかな関数を求める手法を提案する。
実験では、合成データと実データを用いて、ほぼ最適な振る舞いを示す。
我々は,本手法を分散実装に適したサンプリングを含む,文献上考慮されていないいくつかの新しいバッチ戦略に一般化する。
論文 参考訳(メタデータ) (2020-05-03T14:28:32Z) - Detached Error Feedback for Distributed SGD with Random Sparsification [98.98236187442258]
コミュニケーションのボトルネックは、大規模なディープラーニングにおいて重要な問題である。
非効率な分散問題に対する誤りフィードバックよりも優れた収束性を示す分散誤差フィードバック(DEF)アルゴリズムを提案する。
また、DEFよりも優れた境界を示すDEFの一般化を加速するDEFAを提案する。
論文 参考訳(メタデータ) (2020-04-11T03:50:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。