論文の概要: Implicit Regularization or Implicit Conditioning? Exact Risk
Trajectories of SGD in High Dimensions
- arxiv url: http://arxiv.org/abs/2206.07252v1
- Date: Wed, 15 Jun 2022 02:32:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-16 14:24:58.937963
- Title: Implicit Regularization or Implicit Conditioning? Exact Risk
Trajectories of SGD in High Dimensions
- Title(参考訳): 暗黙の規則化と暗黙の条件付け?
高次元におけるSGDの厳密なリスク軌跡
- Authors: Courtney Paquette, Elliot Paquette, Ben Adlam, Jeffrey Pennington
- Abstract要約: 勾配降下(SGD)は現代の機械学習の柱であり、様々な問題に対するゴート最適化アルゴリズムとして機能している。
HSGD形式をストリーミングSGDに適合させる方法を示し、ストリーミングSGDと比較してマルチパスSGDの過大なリスクを正確に予測できることを示す。
- 参考スコア(独自算出の注目度): 26.782342518986503
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic gradient descent (SGD) is a pillar of modern machine learning,
serving as the go-to optimization algorithm for a diverse array of problems.
While the empirical success of SGD is often attributed to its computational
efficiency and favorable generalization behavior, neither effect is well
understood and disentangling them remains an open problem. Even in the simple
setting of convex quadratic problems, worst-case analyses give an asymptotic
convergence rate for SGD that is no better than full-batch gradient descent
(GD), and the purported implicit regularization effects of SGD lack a precise
explanation. In this work, we study the dynamics of multi-pass SGD on
high-dimensional convex quadratics and establish an asymptotic equivalence to a
stochastic differential equation, which we call homogenized stochastic gradient
descent (HSGD), whose solutions we characterize explicitly in terms of a
Volterra integral equation. These results yield precise formulas for the
learning and risk trajectories, which reveal a mechanism of implicit
conditioning that explains the efficiency of SGD relative to GD. We also prove
that the noise from SGD negatively impacts generalization performance, ruling
out the possibility of any type of implicit regularization in this context.
Finally, we show how to adapt the HSGD formalism to include streaming SGD,
which allows us to produce an exact prediction for the excess risk of
multi-pass SGD relative to that of streaming SGD (bootstrap risk).
- Abstract(参考訳): 確率勾配勾配(SGD)は現代の機械学習の柱であり、様々な問題に対するゴート最適化アルゴリズムとして機能している。
SGDの実証的な成功は、その計算効率と好ましい一般化行動に起因することが多いが、どちらの効果もよく理解されておらず、それらを切り離すことも未解決の問題である。
凸二次問題の簡単な設定においても、最悪のケース解析は、フルバッチ勾配降下 (GD) に匹敵しない漸近収束率を与え、SGDの暗黙的正規化効果は正確な説明を欠いている。
本研究では,高次元凸二次方程式上のマルチパスSGDの力学を研究し,その解をボルテラ積分方程式で明確に特徴づけるホモジェナイズド・確率勾配勾配(HSGD)と呼ばれる確率微分方程式に漸近同値を確立する。
これらの結果は,gdに対するsgdの効率性を説明する暗黙的条件づけのメカニズムを明らかにする学習とリスクトラジェクタの正確な公式を与える。
また,sgdの雑音が一般化性能に悪影響を及ぼすことを証明し,この文脈における暗黙的正規化の可能性を排除した。
最後に,hsgd形式をストリーミングsgdに適応させる方法を示す。これにより,ストリーミングsgd(bootstrap risk)と比較して,マルチパスsgdの過剰リスクを正確に予測することができる。
関連論文リスト
- The Optimality of (Accelerated) SGD for High-Dimensional Quadratic Optimization [4.7256945641654164]
勾配降下(SGD)は機械学習、特にニューラルネットワークトレーニングにおいて広く使われているアルゴリズムである。
正準2次最適化や線形回帰のSGDに関する最近の研究は、適切な高次元設定で十分に一般化できることを示している。
本稿では,ステップサイズスケジュールと運動量指数の2つの基本成分を持つSGDについて検討する。
論文 参考訳(メタデータ) (2024-09-15T14:20:03Z) - On the Trajectories of SGD Without Replacement [0.0]
本稿では,グラディエントDescence(SGD)の暗黙的正則化効果について検討する。
我々は、大規模なニューラルネットワークを最適化するために一般的に使用される変種である、置換のないSGDの場合を考える。
論文 参考訳(メタデータ) (2023-12-26T18:06:48Z) - Risk Bounds of Accelerated SGD for Overparameterized Linear Regression [75.27846230182885]
加速度勾配降下(ASGD)は、深層学習におけるワークホースである。
既存の最適化理論は、ASGDのより高速な収束を説明することしかできないが、より優れた一般化を説明することはできない。
論文 参考訳(メタデータ) (2023-11-23T23:02:10Z) - Risk Bounds of Multi-Pass SGD for Least Squares in the Interpolation
Regime [127.21287240963859]
勾配降下(SGD)は最適化と一般化の両方において優れた性能を持つため、大きな成功を収めている。
本稿では,マルチパスSGDの一般化を強く特徴付けることを目的とする。
我々は,SGDが同じレベルの過剰リスクを達成するためには,GD以上を必要とするが,勾配評価の回数を削減できることを示した。
論文 参考訳(メタデータ) (2022-03-07T06:34:53Z) - Benign Underfitting of Stochastic Gradient Descent [72.38051710389732]
本研究では,適切な学習データを得ることで,一般化性能を実現する「従来型」学習ルールとして,勾配降下度(SGD)がどの程度理解されるかを検討する。
類似現象が起こらない近縁な交換SGDを解析し、その集団リスクが実際に最適な速度で収束することを証明する。
論文 参考訳(メタデータ) (2022-02-27T13:25:01Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - The Benefits of Implicit Regularization from SGD in Least Squares
Problems [116.85246178212616]
勾配降下(SGD)はアルゴリズム正則化効果が強い。
我々は、(正規化されていない)平均SGDで得られる暗黙の正則化とリッジ回帰の明示的な正則化の比較を行う。
論文 参考訳(メタデータ) (2021-08-10T09:56:47Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z) - SGD Generalizes Better Than GD (And Regularization Doesn't Help) [39.588906680621825]
我々は、勾配勾配(SGD)の一般化性能と全バッチ勾配(GD)の分離結果を与える。
同じステップ数で、GD はオーバーフィットし、$Omega(1)$ generalization error で解を出力することを示した。
本稿では,GDによる経験的リスクの最小化が,基本的には上記の結果を変えるものではないことを論じ,安定性,暗黙バイアス,一般化における学習アルゴリズムの役割を再考する。
論文 参考訳(メタデータ) (2021-02-01T19:18:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。