論文の概要: Dissecting the Effects of SGD Noise in Distinct Regimes of Deep Learning
- arxiv url: http://arxiv.org/abs/2301.13703v2
- Date: Tue, 30 May 2023 12:21:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 01:48:49.968582
- Title: Dissecting the Effects of SGD Noise in Distinct Regimes of Deep Learning
- Title(参考訳): 深層学習の個別レジームにおけるSGDノイズの影響の判別
- Authors: Antonio Sclocchi, Mario Geiger, Matthieu Wyart
- Abstract要約: 勾配降下のノイズはディープニューラルネットワークの一般化に影響を及ぼす。
我々は,SGDノイズは訓練体制によって有害か,あるいは有用かを示す。
- 参考スコア(独自算出の注目度): 3.0222726254970174
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding when the noise in stochastic gradient descent (SGD) affects
generalization of deep neural networks remains a challenge, complicated by the
fact that networks can operate in distinct training regimes. Here we study how
the magnitude of this noise $T$ affects performance as the size of the training
set $P$ and the scale of initialization $\alpha$ are varied. For gradient
descent, $\alpha$ is a key parameter that controls if the network is
`lazy'($\alpha\gg1$) or instead learns features ($\alpha\ll1$). For
classification of MNIST and CIFAR10 images, our central results are: (i)
obtaining phase diagrams for performance in the $(\alpha,T)$ plane. They show
that SGD noise can be detrimental or instead useful depending on the training
regime. Moreover, although increasing $T$ or decreasing $\alpha$ both allow the
net to escape the lazy regime, these changes can have opposite effects on
performance. (ii) Most importantly, we find that the characteristic temperature
$T_c$ where the noise of SGD starts affecting the trained model (and eventually
performance) is a power law of $P$. We relate this finding with the observation
that key dynamical quantities, such as the total variation of weights during
training, depend on both $T$ and $P$ as power laws. These results indicate that
a key effect of SGD noise occurs late in training by affecting the stopping
process whereby all data are fitted. Indeed, we argue that due to SGD noise,
nets must develop a stronger `signal', i.e. larger informative weights, to fit
the data, leading to a longer training time. A stronger signal and a longer
training time are also required when the size of the training set $P$
increases. We confirm these views in the perceptron model, where signal and
noise can be precisely measured. Interestingly, exponents characterizing the
effect of SGD depend on the density of data near the decision boundary, as we
explain.
- Abstract(参考訳): 確率勾配降下(SGD)のノイズがディープニューラルネットワークの一般化にいつ影響するかを理解することは、ネットワークが異なる訓練体制で動作可能であるという事実によって、依然として難しい。
ここでは、このノイズの規模が、トレーニングセットの規模$P$と初期化の規模$\alpha$によってパフォーマンスにどのように影響するかを検討する。
勾配降下の場合、$\alpha$ はネットワークが `lazy'($\alpha\gg1$) であるかどうかを制御するキーパラメータであり、代わりに機能を学ぶ($\alpha\ll1$)。
MNIST 画像と CIFAR10 画像の分類は以下のとおりである。
(i)$(\alpha,T)$平面における性能の位相図を得る。
sgdノイズはトレーニング環境によって有害あるいは有用であることが示された。
さらに、$t$または$\alpha$を下げることで、ネットは遅延レジームから逃れることができるが、これらの変更はパフォーマンスに逆の効果をもたらす可能性がある。
(ii)より重要なのは、SGDのノイズが訓練されたモデル(そして最終的に性能)に影響を与え始める特性温度$T_c$が、P$の電力法則であることである。
この発見は、トレーニング中の重量の総変動のような重要な力学量が、電力法則として$T$と$P$の両方に依存するという観察と関係している。
これらの結果から,SGDノイズは,全てのデータを取り付ける停止過程に影響を与えることにより,訓練の後半に発生することが示唆された。
実際、SGDノイズのため、ネットはより強力な「信号」すなわちより大きな情報重みを発達させ、データに合うようにし、訓練時間を長くしなければなりません。
トレーニングセットのP$が増加すると、より強い信号とより長いトレーニング時間も必要となる。
我々は、信号と雑音を正確に測定できるパーセプトロンモデルにおいて、これらのビューを確認する。
興味深いことに、sgdの効果を特徴づける指数は、決定境界付近のデータの密度に依存する。
関連論文リスト
- The Optimization Landscape of SGD Across the Feature Learning Strength [102.1353410293931]
オンライントレーニング環境で、さまざまなモデルやデータセットに$gamma$をスケーリングする効果について検討する。
最適なオンラインパフォーマンスは、しばしば大きな$gamma$で見られます。
以上の結果から,大容量ガンマ$限界の解析的研究は,実演モデルにおける表現学習のダイナミクスに関する有用な知見をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2024-10-06T22:30:14Z) - Online Learning and Information Exponents: On The Importance of Batch size, and Time/Complexity Tradeoffs [24.305423716384272]
我々は,1パス勾配勾配(SGD)を有する2層ニューラルネットワークの繰り返し時間に対するバッチサイズの影響について検討した。
大規模なバッチで勾配更新を行うことで、サンプル全体の複雑さを変えることなく、トレーニング時間を最小化できることが示される。
低次元常微分方程式(ODE)のシステムにより、トレーニングの進捗を追跡できることを示す。
論文 参考訳(メタデータ) (2024-06-04T09:44:49Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - Hidden Progress in Deep Learning: SGD Learns Parities Near the
Computational Limit [36.17720004582283]
この研究は、$k$sparseパリティを$n$bitsで学習するレンズを通してそのような探索を行う。
データセットのサイズと実行時間をスケールアップする際、ニューラルネットワークは驚くほどの位相遷移を示す。
論文 参考訳(メタデータ) (2022-07-18T17:55:05Z) - Robust Training of Neural Networks using Scale Invariant Architectures [70.67803417918854]
SGDとは対照的に、Adamのような適応勾配法は、現代のディープネットワークの堅牢なトレーニングを可能にする。
この一般的なアプローチは、パラメータと損失の再スケーリングに頑健であることを示す。
我々は、単にバニラSGDで訓練された場合、Adamのような適応的な手法で訓練されたBERTに匹敵する性能を達成する、SIBERTと呼ばれるスケール不変バージョンのBERTを設計する。
論文 参考訳(メタデータ) (2022-02-02T11:58:56Z) - Dynamics of Local Elasticity During Training of Neural Nets [7.9140338281956835]
局所弾性」は、サンプルデータポイントが他のデータでの予測に与える影響の伝播を定量化しようとする。
今回提案した$S_rm rel$は,従来の定義とは対照的に,重み更新の特性をはるかに強く検出する。
論文 参考訳(メタデータ) (2021-11-01T18:00:14Z) - Label Noise SGD Provably Prefers Flat Global Minimizers [48.883469271546076]
過度パラメータ化モデルでは、勾配降下(SGD)のノイズは最適化軌道を暗黙的に規則化し、どの局所最小SGDが収束するかを決定する。
ラベルノイズを持つSGDが正規化損失$L(theta) +lambda R(theta)$の定常点に収束することを示す。
解析の結果,線形スケーリング法則を超越した大規模学習率の正規化効果が明らかとなった。
論文 参考訳(メタデータ) (2021-06-11T17:59:07Z) - Improved generalization by noise enhancement [5.33024001730262]
勾配降下(SGD)の騒音は一般化と密接に関連している。
騒音強調による目標達成手法」を提案する。
その結果,騒音強調による大規模バッチトレーニングは,小バッチトレーニングに比べ,より汎用性が高いことがわかった。
論文 参考訳(メタデータ) (2020-09-28T06:29:23Z) - Understanding the Difficulty of Training Transformers [120.99980924577787]
バランスの取れない勾配がトレーニングの不安定性の根本原因ではないことを示す。
我々は,早期段階のトレーニングを安定させ,後期段階においてその潜在能力を最大限に活用するためのアドミンを提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。