論文の概要: Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate
- arxiv url: http://arxiv.org/abs/2011.02538v2
- Date: Mon, 29 Mar 2021 17:24:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 21:39:29.436004
- Title: Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate
- Title(参考訳): 方向:適度学習率を有する確率勾配の急激なバイアスについて
- Authors: Jingfeng Wu, Difan Zou, Vladimir Braverman, Quanquan Gu
- Abstract要約: 本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
- 参考スコア(独自算出の注目度): 105.62979485062756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding the algorithmic bias of \emph{stochastic gradient descent}
(SGD) is one of the key challenges in modern machine learning and deep learning
theory. Most of the existing works, however, focus on \emph{very small or even
infinitesimal} learning rate regime, and fail to cover practical scenarios
where the learning rate is \emph{moderate and annealing}. In this paper, we
make an initial attempt to characterize the particular regularization effect of
SGD in the moderate learning rate regime by studying its behavior for
optimizing an overparameterized linear regression problem. In this case, SGD
and GD are known to converge to the unique minimum-norm solution; however, with
the moderate and annealing learning rate, we show that they exhibit different
\emph{directional bias}: SGD converges along the large eigenvalue directions of
the data matrix, while GD goes after the small eigenvalue directions.
Furthermore, we show that such directional bias does matter when early stopping
is adopted, where the SGD output is nearly optimal but the GD output is
suboptimal. Finally, our theory explains several folk arts in practice used for
SGD hyperparameter tuning, such as (1) linearly scaling the initial learning
rate with batch size; and (2) overrunning SGD with high learning rate even when
the loss stops decreasing.
- Abstract(参考訳): SGD(enmph{stochastic gradient descent})のアルゴリズムバイアスを理解することは、現代の機械学習とディープラーニング理論における重要な課題の1つである。
しかし、既存の研究の多くは、emph{very small or even infinitesimal} 学習率の体系に焦点を当てており、学習率が \emph{moderate and annealing} であるような現実的なシナリオをカバーできない。
本稿では,sgdの特定の正規化効果を適度な学習率で特徴付けるための最初の試みとして,過パラメータ線形回帰問題を最適化するための行動について検討する。
この場合、SGD と GD は、一意の最小ノルム解に収束することが知られているが、適度でアニーリングな学習速度では、異なる \emph{directional bias} を示す: SGD はデータ行列の大きな固有値方向に沿って収束し、GD は小さな固有値方向に沿って収束する。
さらに,SGD出力がほぼ最適であるが,GD出力が準最適である場合には,このような方向バイアスが重要となることを示す。
最後に,(1)初期学習率をバッチサイズで線形にスケーリングすること,(2)損失が減少しても高い学習率でSGDをオーバーランすることなど,SGDハイパーパラメータチューニングの実践に使用されている民俗芸術について説明する。
関連論文リスト
- The Optimality of (Accelerated) SGD for High-Dimensional Quadratic Optimization [4.7256945641654164]
勾配降下(SGD)は機械学習、特にニューラルネットワークトレーニングにおいて広く使われているアルゴリズムである。
正準2次最適化や線形回帰のSGDに関する最近の研究は、適切な高次元設定で十分に一般化できることを示している。
本稿では,ステップサイズスケジュールと運動量指数の2つの基本成分を持つSGDについて検討する。
論文 参考訳(メタデータ) (2024-09-15T14:20:03Z) - Incremental Gauss-Newton Descent for Machine Learning [0.0]
本稿では,ガウス・ニュートン法に基づく近似2次情報を利用したグラディエントDescentアルゴリズムの修正を提案する。
Incrmental Gauss-Newton Descent (IGND)と呼ばれる新しい手法は、基本的に標準SGDと同じ計算負担を持つ。
IGNDは、少なくとも最悪の場合には、SGDと同等以上の性能を保ちながら、SGDを著しく上回る。
論文 参考訳(メタデータ) (2024-08-10T13:52:40Z) - Risk Bounds of Accelerated SGD for Overparameterized Linear Regression [75.27846230182885]
加速度勾配降下(ASGD)は、深層学習におけるワークホースである。
既存の最適化理論は、ASGDのより高速な収束を説明することしかできないが、より優れた一般化を説明することはできない。
論文 参考訳(メタデータ) (2023-11-23T23:02:10Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - SGD: The Role of Implicit Regularization, Batch-size and Multiple-epochs [30.41773138781369]
本稿では,現実に一般的に用いられているグラディエント・ディファイス(SGD)のマルチエポックな変種について述べる。
最悪の場合、これはシングルパスSGDと同程度であることを示す。
SCOの特定の問題に対して、データセットに複数のパスを取ることは、シングルパスSGDを著しく上回る。
論文 参考訳(メタデータ) (2021-07-11T15:50:01Z) - Understanding Long Range Memory Effects in Deep Neural Networks [10.616643031188248]
深層学習において,SGD(textitstochastic gradient descent)が重要である。
本研究では, SGN はガウス的でも安定でもないと主張する。
そこで本研究では,SGDをFBM(textitfractional Brownian Motion)によって駆動されるSDEの離散化と見なすことができる。
論文 参考訳(メタデータ) (2021-05-05T13:54:26Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z) - Least Squares Regression with Markovian Data: Fundamental Limits and
Algorithms [69.45237691598774]
マルコフ連鎖からデータポイントが依存しサンプリングされる最小二乗線形回帰問題について検討する。
この問題を$tau_mathsfmix$という観点から、鋭い情報理論のミニマックス下限を確立する。
本稿では,経験的リプレイに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-16T04:26:50Z) - On Learning Rates and Schr\"odinger Operators [105.32118775014015]
本稿では,学習率の影響に関する一般的な理論的分析を行う。
学習速度は、幅広い非ニューラルクラス関数に対してゼロとなる傾向にある。
論文 参考訳(メタデータ) (2020-04-15T09:52:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。