論文の概要: Catapults in SGD: spikes in the training loss and their impact on
generalization through feature learning
- arxiv url: http://arxiv.org/abs/2306.04815v1
- Date: Wed, 7 Jun 2023 22:37:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 17:11:37.147657
- Title: Catapults in SGD: spikes in the training loss and their impact on
generalization through feature learning
- Title(参考訳): SGDにおけるカタパルト:訓練損失のスパイクと特徴学習による一般化への影響
- Authors: Libin Zhu, Chaoyue Liu, Adityanarayanan Radhakrishnan, Mikhail Belkin
- Abstract要約: 我々は、勾配降下の訓練損失(SGD)のスパイクが「触媒」であることを示す。
我々は,カタパルトが真の予測器の平均勾配外積(AGOP)との整合性を高めて特徴学習を促進することを示す。
SGDのバッチサイズが小さくなれば、より多くのカタパルトが発生し、AGOPアライメントとテスト性能が向上する。
- 参考スコア(独自算出の注目度): 18.190576651907456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we first present an explanation regarding the common
occurrence of spikes in the training loss when neural networks are trained with
stochastic gradient descent (SGD). We provide evidence that the spikes in the
training loss of SGD are "catapults", an optimization phenomenon originally
observed in GD with large learning rates in [Lewkowycz et al. 2020]. We
empirically show that these catapults occur in a low-dimensional subspace
spanned by the top eigenvectors of the tangent kernel, for both GD and SGD.
Second, we posit an explanation for how catapults lead to better generalization
by demonstrating that catapults promote feature learning by increasing
alignment with the Average Gradient Outer Product (AGOP) of the true predictor.
Furthermore, we demonstrate that a smaller batch size in SGD induces a larger
number of catapults, thereby improving AGOP alignment and test performance.
- Abstract(参考訳): 本稿ではまず,ニューラルネットワークを確率勾配降下法(SGD)でトレーニングした場合のトレーニング損失におけるスパイクの共通発生について説明する。
sgdのトレーニング損失のスパイクが「カタパルト」であることを示す。これはもともとgdで観測された最適化現象であり,学習率が高い[lewkowycz et al. 2020]。
これらのカタパルトはgdとsgdの両方において、接核の最上位固有ベクトルにまたがる低次元部分空間に存在することが実証的に示されている。
第2に,カタパルトが,真の予測器の平均勾配外積(AGOP)との整合性を高めて特徴学習を促進することを示すことによって,カタパルトがより一般化に寄与することを示す。
さらに、SGDのバッチサイズが小さくなれば、より多くのカタパルトが発生し、AGOPアライメントとテスト性能が向上することを示した。
関連論文リスト
- Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Inference and Interference: The Role of Clipping, Pruning and Loss
Landscapes in Differentially Private Stochastic Gradient Descent [13.27004430044574]
ディファレンシャル・プライベート勾配降下(DP-SGD)は、大規模なニューラルネットワーク上でのトレーニングとテスト性能が劣っていることが知られている。
初期と後期の2つのプロセスの挙動を別々に比較する。
DP-SGDは初期進行が遅いが, 最終結果を決定するのは後期の行動であることがわかった。
論文 参考訳(メタデータ) (2023-11-12T13:31:35Z) - Are GATs Out of Balance? [73.2500577189791]
本稿では,ノード近傍のアグリゲーションをパラメータ化注意係数で重み付けするグラフ注意ネットワーク(GAT)について検討する。
我々の主定理は、注意機構を持つ正の同次モデルの学習力学を研究するための足掛かりとなる。
論文 参考訳(メタデータ) (2023-10-11T06:53:05Z) - The Emergence of Essential Sparsity in Large Pre-trained Models: The
Weights that Matter [113.35761858962522]
本稿では,複数の大きな事前学習された視覚と言語変換器のスパースパターンを誘導する。
本稿では,性能がはるかに速く低下する急激な落差点で定義される本質的疎度の存在を提案する。
また、N:Mのスパーシティパターンと近代的な大規模言語モデルに有効であることを示す。
論文 参考訳(メタデータ) (2023-06-06T15:49:09Z) - Catapult Dynamics and Phase Transitions in Quadratic Nets [10.32543637637479]
カタパルト相は2層モデルと2層同種ニューラルネットを含む多種モデルのモデルに存在することを証明します。
一定範囲の学習率において,損失が大きいと重みノルムが低下することを示す。
また、この理論的に導出された範囲を超えて学習率を実証的に研究し、超臨界学習率で訓練されたReLUネットの活性化マップが、学習率を増加させるにつれて、より疎結合になることを示す。
論文 参考訳(メタデータ) (2023-01-18T19:03:48Z) - SGD with Large Step Sizes Learns Sparse Features [22.959258640051342]
本稿では、ニューラルネットワークのトレーニングにおいて、グラディエント・ディフレッシュ(SGD)のダイナミクスの重要な特徴を紹介する。
より長いステップサイズでは、損失ランドスケープにおいてSGDは高く保たれ、暗黙の正規化がうまく機能し、スパース表現を見つけることができる。
論文 参考訳(メタデータ) (2022-10-11T11:00:04Z) - Catastrophic Fisher Explosion: Early Phase Fisher Matrix Impacts
Generalization [111.57403811375484]
学習開始当初から,勾配降下がフィッシャー情報マトリックスの痕跡を暗黙的にペナルティ化することを示す。
暗黙的あるいは明示的な正規化がない場合、FIMの痕跡は訓練の早い段階で大きな値に増加する可能性があることを強調する。
論文 参考訳(メタデータ) (2020-12-28T11:17:46Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - The Break-Even Point on Optimization Trajectories of Deep Neural
Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。
トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。
また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文 参考訳(メタデータ) (2020-02-21T22:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。