論文の概要: SGD May Never Escape Saddle Points
- arxiv url: http://arxiv.org/abs/2107.11774v1
- Date: Sun, 25 Jul 2021 10:12:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-27 16:14:52.077420
- Title: SGD May Never Escape Saddle Points
- Title(参考訳): SGDはサドルポイントを抜け出さないかもしれない
- Authors: Liu Ziyin, Botao Li, Masahito Ueda
- Abstract要約: 勾配降下(SGD)は、ニューラルネットワークのような非線形非線形機械学習問題を解決するためにデプロイされている。
SGDの以前の研究は、SGDのノイズの性質に関する非常に制限的で非現実的な仮定に依存していた。
- 参考スコア(独自算出の注目度): 3.0079490585515343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic gradient descent (SGD) has been deployed to solve highly
non-linear and non-convex machine learning problems such as the training of
deep neural networks. However, previous works on SGD often rely on highly
restrictive and unrealistic assumptions about the nature of noise in SGD. In
this work, we mathematically construct examples that defy previous
understandings of SGD. For example, our constructions show that: (1) SGD may
converge to a local maximum; (2) SGD may escape a saddle point arbitrarily
slowly; (3) SGD may prefer sharp minima over the flat ones; and (4) AMSGrad may
converge to a local maximum. Our result suggests that the noise structure of
SGD might be more important than the loss landscape in neural network training
and that future research should focus on deriving the actual noise structure in
deep learning.
- Abstract(参考訳): 確率勾配降下(SGD)は、ディープニューラルネットワークのトレーニングなど、高度に非線形で非凸な機械学習問題を解決するために展開されている。
しかしながら、SGDに関する以前の研究は、しばしばSGDのノイズの性質に関する非常に制限的で非現実的な仮定に依存している。
本研究では,従来のSGDの理解に反する例を数学的に構築する。
例えば,(1) SGD は局所的な最大値に収束し,(2) SGD は緩やかにサドル点を脱出し,(3) SGD は平坦な点よりも鋭い最小値を好む,(4) AMSGrad は局所的な最大値に収束する。
その結果,sgdのノイズ構造はニューラルネットワークトレーニングのロスランドスケープよりも重要である可能性が示唆され,今後の研究は深層学習における実際のノイズ構造を導出することに焦点を当てるべきである。
関連論文リスト
- The Optimality of (Accelerated) SGD for High-Dimensional Quadratic Optimization [4.7256945641654164]
勾配降下(SGD)は機械学習、特にニューラルネットワークトレーニングにおいて広く使われているアルゴリズムである。
正準2次最適化や線形回帰のSGDに関する最近の研究は、適切な高次元設定で十分に一般化できることを示している。
本稿では,ステップサイズスケジュールと運動量指数の2つの基本成分を持つSGDについて検討する。
論文 参考訳(メタデータ) (2024-09-15T14:20:03Z) - The Limits and Potentials of Local SGD for Distributed Heterogeneous Learning with Intermittent Communication [37.210933391984014]
ローカルSGDは分散学習において一般的な最適化手法であり、実際には他のアルゴリズムよりも優れていることが多い。
我々は、既存の一階データ不均一性仮定の下で、局所的なSGDに対して新しい下界を提供する。
また、いくつかの問題クラスに対して、高速化されたミニバッチSGDの min-max 最適性を示す。
論文 参考訳(メタデータ) (2024-05-19T20:20:03Z) - Why (and When) does Local SGD Generalize Better than SGD? [46.993699881100454]
ローカルSGDは、大規模トレーニングのための通信効率のよいSGDの亜種である。
本稿では,微分方程式(SDE)近似に基づいて局所SGDがより一般化する理由(およびいつ)を理解することを目的とする。
論文 参考訳(メタデータ) (2023-03-02T12:56:52Z) - From Gradient Flow on Population Loss to Learning with Stochastic
Gradient Descent [50.4531316289086]
SGD(Gradient Descent)は、大規模非ルートモデルの学習方法である。
集団損失のGFが収束すると仮定して、総合的な条件 SGD が収束する。
我々は、凸損失のような古典的な設定だけでなく、Retrieval Matrix sq-rootのようなより複雑な問題に対してもGD/SGDを統一的に解析する。
論文 参考訳(メタデータ) (2022-10-13T03:55:04Z) - Risk Bounds of Multi-Pass SGD for Least Squares in the Interpolation
Regime [127.21287240963859]
勾配降下(SGD)は最適化と一般化の両方において優れた性能を持つため、大きな成功を収めている。
本稿では,マルチパスSGDの一般化を強く特徴付けることを目的とする。
我々は,SGDが同じレベルの過剰リスクを達成するためには,GD以上を必要とするが,勾配評価の回数を削減できることを示した。
論文 参考訳(メタデータ) (2022-03-07T06:34:53Z) - Benign Underfitting of Stochastic Gradient Descent [72.38051710389732]
本研究では,適切な学習データを得ることで,一般化性能を実現する「従来型」学習ルールとして,勾配降下度(SGD)がどの程度理解されるかを検討する。
類似現象が起こらない近縁な交換SGDを解析し、その集団リスクが実際に最適な速度で収束することを証明する。
論文 参考訳(メタデータ) (2022-02-27T13:25:01Z) - Understanding Long Range Memory Effects in Deep Neural Networks [10.616643031188248]
深層学習において,SGD(textitstochastic gradient descent)が重要である。
本研究では, SGN はガウス的でも安定でもないと主張する。
そこで本研究では,SGDをFBM(textitfractional Brownian Motion)によって駆動されるSDEの離散化と見なすことができる。
論文 参考訳(メタデータ) (2021-05-05T13:54:26Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Minibatch vs Local SGD for Heterogeneous Distributed Learning [28.80878557506603]
この環境では、Minibatch SGDがLocal SGDの既存の分析を全て支配していると論じる。
非均一な状態下で, ミニバッチSGDよりも改善された局所SGDの第一上界を示す。
論文 参考訳(メタデータ) (2020-06-08T16:40:49Z) - Is Local SGD Better than Minibatch SGD? [60.42437186984968]
凸設定における既存のエラー保証はすべて、単純なベースラインであるミニバッチSGDによって支配されていることを示す。
局所的なSGDがミニバッチSGDの保証よりも悪い局所的なSGDの性能に低いバウンダリを提示することで、実際に局所的なSGDが支配的でないことを示す。
論文 参考訳(メタデータ) (2020-02-18T19:22:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。