論文の概要: On the Trajectories of SGD Without Replacement
- arxiv url: http://arxiv.org/abs/2312.16143v1
- Date: Tue, 26 Dec 2023 18:06:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 14:49:11.903279
- Title: On the Trajectories of SGD Without Replacement
- Title(参考訳): 交換のないSGDの軌道について
- Authors: Pierfrancesco Beneventano
- Abstract要約: 本稿では,グラディエントDescence(SGD)の暗黙的正則化効果について検討する。
我々はこのアルゴリズムを、SGDに関する理論的研究で一般的に考慮されるよりも、より現実的な方法で分析する。
SGDは小さく負のヘッセン固有値の固有方向におけるノイズ共分散のトレースを暗黙的に規則化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This article examines the implicit regularization effect of Stochastic
Gradient Descent (SGD). We consider the case of SGD without replacement, the
variant typically used to optimize large-scale neural networks. We analyze this
algorithm in a more realistic regime than typically considered in theoretical
works on SGD, as, e.g., we allow the product of the learning rate and Hessian
to be $O(1)$. Our core theoretical result is that optimizing with SGD without
replacement is locally equivalent to making an additional step on a novel
regularizer. This implies that the trajectory of SGD without replacement
diverges from both noise-injected GD and SGD with replacement (in which batches
are sampled i.i.d.). Indeed, the two SGDs travel flat regions of the loss
landscape in distinct directions and at different speeds. In expectation, SGD
without replacement may escape saddles significantly faster and present a
smaller variance. Moreover, we find that SGD implicitly regularizes the trace
of the noise covariance in the eigendirections of small and negative Hessian
eigenvalues. This coincides with penalizing a weighted trace of the Fisher
Matrix and the Hessian on several vision tasks, thus encouraging sparsity in
the spectrum of the Hessian of the loss in line with empirical observations
from prior work. We also propose an explanation for why SGD does not train at
the edge of stability (as opposed to GD).
- Abstract(参考訳): 本稿では,SGD(Stochastic Gradient Descent)の暗黙的正則化効果について検討する。
我々は,大規模ニューラルネットワークの最適化に一般的に用いられる変種であるsgdを代替せずに検討する。
我々はこのアルゴリズムを、SGDの理論的研究で通常考慮されるよりも現実的な方法で分析し、例えば、学習率とヘッセンの積が$O(1)$であるようにした。
sgdを代替せずに最適化することは、新しい正規化子に新たなステップを加えることと局所的に等価である。
これは、置換のないsgdの軌道がノイズインジェクトgdとsgdの両方から置換(バッチをサンプリングしたi.i.d.)によって分岐することを意味する。
実際、2つのsgdは、異なる方向と異なる速度でロスランドスケープの平坦な領域を移動する。
期待では、置換のないSGDはサドルを著しく速く逃がし、分散が小さくなる可能性がある。
さらに、SGDは、小さく負のヘッセン固有値の固有方向におけるノイズ共分散のトレースを暗黙的に規則化する。
これは、フィッシャー行列とヘッセン行列の重み付きトレースをいくつかの視覚課題でペナルティ化することで一致し、それゆえ、以前の仕事からの経験的観察と一致して、ヘッセンの損失のスペクトルのスパーシティを助長する。
また、SGDが(GDとは対照的に)安定性の端で訓練されない理由についても説明する。
関連論文リスト
- Risk Bounds of Accelerated SGD for Overparameterized Linear Regression [75.27846230182885]
加速度勾配降下(ASGD)は、深層学習におけるワークホースである。
既存の最適化理論は、ASGDのより高速な収束を説明することしかできないが、より優れた一般化を説明することはできない。
論文 参考訳(メタデータ) (2023-11-23T23:02:10Z) - High-probability Convergence Bounds for Nonlinear Stochastic Gradient
Descent Under Heavy-tailed Noise [62.227421825689895]
本研究では, 広帯域非線形SGD法における収束境界テクスタイチン高確率について検討する。
リプシッツ連続勾配の強い凸損失関数に対して、ノイズが重く抑えられた場合でも、故障確率に対数依存があることを証明する。
論文 参考訳(メタデータ) (2023-10-28T18:53:41Z) - Implicit Regularization or Implicit Conditioning? Exact Risk
Trajectories of SGD in High Dimensions [26.782342518986503]
勾配降下(SGD)は現代の機械学習の柱であり、様々な問題に対するゴート最適化アルゴリズムとして機能している。
HSGD形式をストリーミングSGDに適合させる方法を示し、ストリーミングSGDと比較してマルチパスSGDの過大なリスクを正確に予測できることを示す。
論文 参考訳(メタデータ) (2022-06-15T02:32:26Z) - Risk Bounds of Multi-Pass SGD for Least Squares in the Interpolation
Regime [127.21287240963859]
勾配降下(SGD)は最適化と一般化の両方において優れた性能を持つため、大きな成功を収めている。
本稿では,マルチパスSGDの一般化を強く特徴付けることを目的とする。
我々は,SGDが同じレベルの過剰リスクを達成するためには,GD以上を必要とするが,勾配評価の回数を削減できることを示した。
論文 参考訳(メタデータ) (2022-03-07T06:34:53Z) - Benign Underfitting of Stochastic Gradient Descent [72.38051710389732]
本研究では,適切な学習データを得ることで,一般化性能を実現する「従来型」学習ルールとして,勾配降下度(SGD)がどの程度理解されるかを検討する。
類似現象が起こらない近縁な交換SGDを解析し、その集団リスクが実際に最適な速度で収束することを証明する。
論文 参考訳(メタデータ) (2022-02-27T13:25:01Z) - SGD: The Role of Implicit Regularization, Batch-size and Multiple-epochs [30.41773138781369]
本稿では,現実に一般的に用いられているグラディエント・ディファイス(SGD)のマルチエポックな変種について述べる。
最悪の場合、これはシングルパスSGDと同程度であることを示す。
SCOの特定の問題に対して、データセットに複数のパスを取ることは、シングルパスSGDを著しく上回る。
論文 参考訳(メタデータ) (2021-07-11T15:50:01Z) - Label Noise SGD Provably Prefers Flat Global Minimizers [48.883469271546076]
過度パラメータ化モデルでは、勾配降下(SGD)のノイズは最適化軌道を暗黙的に規則化し、どの局所最小SGDが収束するかを決定する。
ラベルノイズを持つSGDが正規化損失$L(theta) +lambda R(theta)$の定常点に収束することを示す。
解析の結果,線形スケーリング法則を超越した大規模学習率の正規化効果が明らかとなった。
論文 参考訳(メタデータ) (2021-06-11T17:59:07Z) - Understanding Long Range Memory Effects in Deep Neural Networks [10.616643031188248]
深層学習において,SGD(textitstochastic gradient descent)が重要である。
本研究では, SGN はガウス的でも安定でもないと主張する。
そこで本研究では,SGDをFBM(textitfractional Brownian Motion)によって駆動されるSDEの離散化と見なすことができる。
論文 参考訳(メタデータ) (2021-05-05T13:54:26Z) - SGD Generalizes Better Than GD (And Regularization Doesn't Help) [39.588906680621825]
我々は、勾配勾配(SGD)の一般化性能と全バッチ勾配(GD)の分離結果を与える。
同じステップ数で、GD はオーバーフィットし、$Omega(1)$ generalization error で解を出力することを示した。
本稿では,GDによる経験的リスクの最小化が,基本的には上記の結果を変えるものではないことを論じ,安定性,暗黙バイアス,一般化における学習アルゴリズムの役割を再考する。
論文 参考訳(メタデータ) (2021-02-01T19:18:40Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。