論文の概要: Gradient Descent Monotonically Decreases the Sharpness of Gradient Flow
Solutions in Scalar Networks and Beyond
- arxiv url: http://arxiv.org/abs/2305.13064v1
- Date: Mon, 22 May 2023 14:27:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 15:23:38.908251
- Title: Gradient Descent Monotonically Decreases the Sharpness of Gradient Flow
Solutions in Scalar Networks and Beyond
- Title(参考訳): Gradient Descent MonotonicallyがScalar NetworksにおけるGradient Flow Solutionsのシャープネスを低下させる
- Authors: Itai Kreisler, Mor Shpigel Nacson, Daniel Soudry, Yair Carmon
- Abstract要約: ニューラルネットワークにグラディエントDescentを適用すると、損失はほぼ単調に減少する。
代わりに、勾配勾配が「安定のエッジ」に収束するにつれて損失は振動する(EoS)。
- 参考スコア(独自算出の注目度): 30.545436106324203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research shows that when Gradient Descent (GD) is applied to neural
networks, the loss almost never decreases monotonically. Instead, the loss
oscillates as gradient descent converges to its ''Edge of Stability'' (EoS).
Here, we find a quantity that does decrease monotonically throughout GD
training: the sharpness attained by the gradient flow solution (GFS)-the
solution that would be obtained if, from now until convergence, we train with
an infinitesimal step size. Theoretically, we analyze scalar neural networks
with the squared loss, perhaps the simplest setting where the EoS phenomena
still occur. In this model, we prove that the GFS sharpness decreases
monotonically. Using this result, we characterize settings where GD provably
converges to the EoS in scalar networks. Empirically, we show that GD
monotonically decreases the GFS sharpness in a squared regression model as well
as practical neural network architectures.
- Abstract(参考訳): 近年の研究では、ニューラルネットワークにGD(Gradient Descent)を適用すると、損失はほぼ単調に減少する。
代わりに、勾配勾配が「安定のエッジ」(EoS)に収束するにつれて損失は振動する。
ここで、gdトレーニングを通して単調に減少する量を見出す: 勾配流解(gfs)によって達成される鋭さ、つまり、現在から収束するまで、無限小のステップサイズでトレーニングした場合に得られる解。
理論的には、我々は2乗損失を伴うスカラーニューラルネットワークを解析する。
本モデルでは, GFSシャープネスが単調に低下することを示す。
この結果を用いて,GDがスカラーネットワーク内のEoSに確実に収束する設定を特徴付ける。
実験的に、GDは二乗回帰モデルと実用的なニューラルネットワークアーキテクチャにおいてGFSシャープネスを単調に減少させることを示した。
関連論文リスト
- On the Convergence of Gradient Descent for Large Learning Rates [55.33626480243135]
固定ステップサイズを使用すると収束が不可能であることを示す。
正方形損失を持つ線形ニューラルネットワークの場合,これを証明した。
また、勾配に対するリプシッツ連続性のような強い仮定を必要とせず、より一般的な損失に対する収束の不可能性も証明する。
論文 参考訳(メタデータ) (2024-02-20T16:01:42Z) - Implicit Bias of Gradient Descent for Two-layer ReLU and Leaky ReLU
Networks on Nearly-orthogonal Data [66.1211659120882]
好ましい性質を持つ解に対する暗黙の偏見は、勾配に基づく最適化によって訓練されたニューラルネットワークがうまく一般化できる重要な理由であると考えられている。
勾配流の暗黙バイアスは、均質ニューラルネットワーク(ReLUやリークReLUネットワークを含む)に対して広く研究されているが、勾配降下の暗黙バイアスは現在、滑らかなニューラルネットワークに対してのみ理解されている。
論文 参考訳(メタデータ) (2023-10-29T08:47:48Z) - Law of Balance and Stationary Distribution of Stochastic Gradient
Descent [11.937085301750288]
我々は、損失関数が再スケーリング対称性を含む場合、勾配降下(SGD)のミニバッチノイズが平衡解に対する解を正則化することを証明した。
次に、任意の深さと幅を持つ対角線ネットワークの勾配流の定常分布を導出する。
これらの現象はディープ・ネットワークに独自に存在することが示され、ディープ・モデルと浅瀬モデルの間に根本的な違いが示唆される。
論文 参考訳(メタデータ) (2023-08-13T03:13:03Z) - Implicit Bias of Gradient Descent for Logistic Regression at the Edge of
Stability [69.01076284478151]
機械学習の最適化において、勾配降下(GD)はしばしば安定性の端(EoS)で動く
本稿では,EoS系における線形分離可能なデータに対するロジスティック回帰のための定数段差GDの収束と暗黙バイアスについて検討する。
論文 参考訳(メタデータ) (2023-05-19T16:24:47Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Gradient flow dynamics of shallow ReLU networks for square loss and
orthogonal inputs [19.401271427657395]
勾配降下法によるニューラルネットワークの訓練は、ディープラーニング革命の基盤となっている。
本稿では,1つのニューラルネットワークの小さな初期化における平均二乗誤差に対する勾配流のダイナミクスについて述べる。
論文 参考訳(メタデータ) (2022-06-02T09:01:25Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - Improved Overparametrization Bounds for Global Convergence of Stochastic
Gradient Descent for Shallow Neural Networks [1.14219428942199]
本研究では,1つの隠れ層フィードフォワードニューラルネットワークのクラスに対して,勾配降下アルゴリズムのグローバル収束に必要な過パラメトリゼーション境界について検討する。
論文 参考訳(メタデータ) (2022-01-28T11:30:06Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - The Dynamics of Gradient Descent for Overparametrized Neural Networks [19.11271777632797]
GD の下でのニューラルネットワークの重みのダイナミクスは、最小ノルム解に近い点に収束することを示した。
この結果の応用を説明するために、gd はよく一般化された勾配関数に収束することを示す。
論文 参考訳(メタデータ) (2021-05-13T22:20:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。