論文の概要: On the Trajectories of SGD Without Replacement
- arxiv url: http://arxiv.org/abs/2312.16143v1
- Date: Tue, 26 Dec 2023 18:06:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 14:49:11.903279
- Title: On the Trajectories of SGD Without Replacement
- Title(参考訳): 交換のないSGDの軌道について
- Authors: Pierfrancesco Beneventano
- Abstract要約: 本稿では,グラディエントDescence(SGD)の暗黙的正則化効果について検討する。
我々はこのアルゴリズムを、SGDに関する理論的研究で一般的に考慮されるよりも、より現実的な方法で分析する。
SGDは小さく負のヘッセン固有値の固有方向におけるノイズ共分散のトレースを暗黙的に規則化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This article examines the implicit regularization effect of Stochastic
Gradient Descent (SGD). We consider the case of SGD without replacement, the
variant typically used to optimize large-scale neural networks. We analyze this
algorithm in a more realistic regime than typically considered in theoretical
works on SGD, as, e.g., we allow the product of the learning rate and Hessian
to be $O(1)$. Our core theoretical result is that optimizing with SGD without
replacement is locally equivalent to making an additional step on a novel
regularizer. This implies that the trajectory of SGD without replacement
diverges from both noise-injected GD and SGD with replacement (in which batches
are sampled i.i.d.). Indeed, the two SGDs travel flat regions of the loss
landscape in distinct directions and at different speeds. In expectation, SGD
without replacement may escape saddles significantly faster and present a
smaller variance. Moreover, we find that SGD implicitly regularizes the trace
of the noise covariance in the eigendirections of small and negative Hessian
eigenvalues. This coincides with penalizing a weighted trace of the Fisher
Matrix and the Hessian on several vision tasks, thus encouraging sparsity in
the spectrum of the Hessian of the loss in line with empirical observations
from prior work. We also propose an explanation for why SGD does not train at
the edge of stability (as opposed to GD).
- Abstract(参考訳): 本稿では,SGD(Stochastic Gradient Descent)の暗黙的正則化効果について検討する。
我々は,大規模ニューラルネットワークの最適化に一般的に用いられる変種であるsgdを代替せずに検討する。
我々はこのアルゴリズムを、SGDの理論的研究で通常考慮されるよりも現実的な方法で分析し、例えば、学習率とヘッセンの積が$O(1)$であるようにした。
sgdを代替せずに最適化することは、新しい正規化子に新たなステップを加えることと局所的に等価である。
これは、置換のないsgdの軌道がノイズインジェクトgdとsgdの両方から置換(バッチをサンプリングしたi.i.d.)によって分岐することを意味する。
実際、2つのsgdは、異なる方向と異なる速度でロスランドスケープの平坦な領域を移動する。
期待では、置換のないSGDはサドルを著しく速く逃がし、分散が小さくなる可能性がある。
さらに、SGDは、小さく負のヘッセン固有値の固有方向におけるノイズ共分散のトレースを暗黙的に規則化する。
これは、フィッシャー行列とヘッセン行列の重み付きトレースをいくつかの視覚課題でペナルティ化することで一致し、それゆえ、以前の仕事からの経験的観察と一致して、ヘッセンの損失のスペクトルのスパーシティを助長する。
また、SGDが(GDとは対照的に)安定性の端で訓練されない理由についても説明する。
関連論文リスト
- Implicit Regularization or Implicit Conditioning? Exact Risk
Trajectories of SGD in High Dimensions [26.782342518986503]
勾配降下(SGD)は現代の機械学習の柱であり、様々な問題に対するゴート最適化アルゴリズムとして機能している。
HSGD形式をストリーミングSGDに適合させる方法を示し、ストリーミングSGDと比較してマルチパスSGDの過大なリスクを正確に予測できることを示す。
論文 参考訳(メタデータ) (2022-06-15T02:32:26Z) - Risk Bounds of Multi-Pass SGD for Least Squares in the Interpolation
Regime [127.21287240963859]
勾配降下(SGD)は最適化と一般化の両方において優れた性能を持つため、大きな成功を収めている。
本稿では,マルチパスSGDの一般化を強く特徴付けることを目的とする。
我々は,SGDが同じレベルの過剰リスクを達成するためには,GD以上を必要とするが,勾配評価の回数を削減できることを示した。
論文 参考訳(メタデータ) (2022-03-07T06:34:53Z) - Benign Underfitting of Stochastic Gradient Descent [72.38051710389732]
本研究では,適切な学習データを得ることで,一般化性能を実現する「従来型」学習ルールとして,勾配降下度(SGD)がどの程度理解されるかを検討する。
類似現象が起こらない近縁な交換SGDを解析し、その集団リスクが実際に最適な速度で収束することを証明する。
論文 参考訳(メタデータ) (2022-02-27T13:25:01Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - SGD: The Role of Implicit Regularization, Batch-size and Multiple-epochs [30.41773138781369]
本稿では,現実に一般的に用いられているグラディエント・ディファイス(SGD)のマルチエポックな変種について述べる。
最悪の場合、これはシングルパスSGDと同程度であることを示す。
SCOの特定の問題に対して、データセットに複数のパスを取ることは、シングルパスSGDを著しく上回る。
論文 参考訳(メタデータ) (2021-07-11T15:50:01Z) - Label Noise SGD Provably Prefers Flat Global Minimizers [48.883469271546076]
過度パラメータ化モデルでは、勾配降下(SGD)のノイズは最適化軌道を暗黙的に規則化し、どの局所最小SGDが収束するかを決定する。
ラベルノイズを持つSGDが正規化損失$L(theta) +lambda R(theta)$の定常点に収束することを示す。
解析の結果,線形スケーリング法則を超越した大規模学習率の正規化効果が明らかとなった。
論文 参考訳(メタデータ) (2021-06-11T17:59:07Z) - SGD Generalizes Better Than GD (And Regularization Doesn't Help) [39.588906680621825]
我々は、勾配勾配(SGD)の一般化性能と全バッチ勾配(GD)の分離結果を与える。
同じステップ数で、GD はオーバーフィットし、$Omega(1)$ generalization error で解を出力することを示した。
本稿では,GDによる経験的リスクの最小化が,基本的には上記の結果を変えるものではないことを論じ,安定性,暗黙バイアス,一般化における学習アルゴリズムの役割を再考する。
論文 参考訳(メタデータ) (2021-02-01T19:18:40Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - On the Generalization of Stochastic Gradient Descent with Momentum [84.54924994010703]
運動量に基づく勾配降下(SGD)の加速変種は、機械学習モデルを訓練する際に広く用いられる。
まず,標準重球運動量(SGDM)を持つSGDの複数のエポックに対する安定性ギャップが非有界となる凸損失関数が存在することを示す。
滑らかなリプシッツ損失関数に対しては、修正モーメントベースの更新規則、すなわち、幅広いステップサイズで初期運動量(SGDEM)を解析する。
論文 参考訳(メタデータ) (2018-09-12T17:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。