論文の概要: Gradient Descent Converges Linearly to Flatter Minima than Gradient Flow in Shallow Linear Networks
- arxiv url: http://arxiv.org/abs/2501.09137v2
- Date: Tue, 21 Jan 2025 03:05:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:24:17.065651
- Title: Gradient Descent Converges Linearly to Flatter Minima than Gradient Flow in Shallow Linear Networks
- Title(参考訳): 浅層線形ネットワークにおけるグラディエント流よりもフラッターミニマに直線的に収束するグラディエントディフレッシュ
- Authors: Pierfrancesco Beneventano, Blake Woodworth,
- Abstract要約: 本研究では,1つの入力と出力を持つディープ2線形ニューラルネットワークの勾配勾配勾配ダイナミクスについて検討する。
また, GD は, たとえ大きなステップサイズであっても, 訓練損失の最小値に比例して直線的に収束することを示した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We study the gradient descent (GD) dynamics of a depth-2 linear neural network with a single input and output. We show that GD converges at an explicit linear rate to a global minimum of the training loss, even with a large stepsize -- about $2/\textrm{sharpness}$. It still converges for even larger stepsizes, but may do so very slowly. We also characterize the solution to which GD converges, which has lower norm and sharpness than the gradient flow solution. Our analysis reveals a trade off between the speed of convergence and the magnitude of implicit regularization. This sheds light on the benefits of training at the ``Edge of Stability'', which induces additional regularization by delaying convergence and may have implications for training more complex models.
- Abstract(参考訳): 本研究では,1つの入力と出力を持つディープ2線形ニューラルネットワークの勾配勾配勾配(GD)ダイナミクスについて検討する。
GD は 約 2/\textrm{sharpness}$ の大規模なステップでも 訓練損失の最小値に 明示的に線形な速度で収束することを示す。
さらに大きなステップサイズで収束するが、非常に遅いかもしれない。
また、GDが収束する解を特徴付け、勾配流解よりもノルムと鋭さが低い。
解析の結果,収束速度と暗黙正則化の規模とのトレードオフが明らかになった。
このことは、収束を遅らせることによってさらなる正規化を誘発し、より複雑なモデルのトレーニングに影響を及ぼすであろう ``安定のエッジ' でのトレーニングの利点に光を当てる。
関連論文リスト
- Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Implicit regularization in AI meets generalized hardness of
approximation in optimization -- Sharp results for diagonal linear networks [0.0]
直交線形ネットワークの勾配流による暗黙の正規化について, 鋭い結果を示す。
これを近似の一般化硬度における相転移現象と関連付ける。
結果の非シャープ性は、基礎追従最適化問題に対して、GHA現象が起こらないことを意味する。
論文 参考訳(メタデータ) (2023-07-13T13:27:51Z) - Convergence of mean-field Langevin dynamics: Time and space
discretization, stochastic gradient, and variance reduction [49.66486092259376]
平均場ランゲヴィンダイナミクス(英: mean-field Langevin dynamics、MFLD)は、分布依存のドリフトを含むランゲヴィン力学の非線形一般化である。
近年の研究では、MFLDは測度空間で機能するエントロピー規則化された凸関数を地球規模で最小化することが示されている。
有限粒子近似,時間分散,勾配近似による誤差を考慮し,MFLDのカオスの均一時間伝播を示す枠組みを提供する。
論文 参考訳(メタデータ) (2023-06-12T16:28:11Z) - Gradient Descent Monotonically Decreases the Sharpness of Gradient Flow
Solutions in Scalar Networks and Beyond [30.545436106324203]
ニューラルネットワークにグラディエントDescentを適用すると、損失はほぼ単調に減少する。
代わりに、勾配勾配が「安定のエッジ」に収束するにつれて損失は振動する(EoS)。
論文 参考訳(メタデータ) (2023-05-22T14:27:27Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Beyond the Edge of Stability via Two-step Gradient Updates [49.03389279816152]
Gradient Descent(GD)は、現代の機械学習の強力な仕事場である。
GDが局所最小値を見つける能力は、リプシッツ勾配の損失に対してのみ保証される。
この研究は、2段階の勾配更新の分析を通じて、単純だが代表的でありながら、学習上の問題に焦点をあてる。
論文 参考訳(メタデータ) (2022-06-08T21:32:50Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - AdaLoss: A computationally-efficient and provably convergent adaptive
gradient method [7.856998585396422]
本稿では,損失関数の情報を用いて数値的な調整を行う,計算に親しみやすい学習スケジュール"AnomidaLoss"を提案する。
テキストおよび制御問題に対するLSTMモデルの適用による数値実験の範囲の検証を行う。
論文 参考訳(メタデータ) (2021-09-17T01:45:25Z) - Convergence of gradient descent for learning linear neural networks [2.209921757303168]
勾配勾配勾配は損失関数の臨界点,すなわち本論文の平方損失に収束することを示す。
3層以上の層の場合、勾配勾配は、ある固定階数の多様体行列上の大域最小値に収束することを示す。
論文 参考訳(メタデータ) (2021-08-04T13:10:30Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z) - The Implicit Bias of Gradient Descent on Separable Data [44.98410310356165]
予測器は最大マージン(シャープマージンSVM)解の方向へ収束することを示す。
これは、トレーニングエラーがゼロになった後もロジスティックまたはクロスエントロピー損失を最適化し続ける利点を説明するのに役立つ。
論文 参考訳(メタデータ) (2017-10-27T21:47:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。