論文の概要: A Theoretical Framework for Grokking: Interpolation followed by Riemannian Norm Minimisation
- arxiv url: http://arxiv.org/abs/2505.20172v1
- Date: Mon, 26 May 2025 16:12:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 19:27:26.930621
- Title: A Theoretical Framework for Grokking: Interpolation followed by Riemannian Norm Minimisation
- Title(参考訳): 農業の理論的枠組み:リーマンノルム最小化と補間
- Authors: Etienne Boursier, Scott Pesme, Radu-Alexandru Dragomir,
- Abstract要約: 一般訓練損失$F: mathbbRd から mathbbR$ への勾配流のダイナミクスについて検討する。
- 参考スコア(独自算出の注目度): 12.321507997896218
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the dynamics of gradient flow with small weight decay on general training losses $F: \mathbb{R}^d \to \mathbb{R}$. Under mild regularity assumptions and assuming convergence of the unregularised gradient flow, we show that the trajectory with weight decay $\lambda$ exhibits a two-phase behaviour as $\lambda \to 0$. During the initial fast phase, the trajectory follows the unregularised gradient flow and converges to a manifold of critical points of $F$. Then, at time of order $1/\lambda$, the trajectory enters a slow drift phase and follows a Riemannian gradient flow minimising the $\ell_2$-norm of the parameters. This purely optimisation-based phenomenon offers a natural explanation for the \textit{grokking} effect observed in deep learning, where the training loss rapidly reaches zero while the test loss plateaus for an extended period before suddenly improving. We argue that this generalisation jump can be attributed to the slow norm reduction induced by weight decay, as explained by our analysis. We validate this mechanism empirically on several synthetic regression tasks.
- Abstract(参考訳): 一般訓練損失$F: \mathbb{R}^d \to \mathbb{R}$に対して,小重量減衰を伴う勾配流の力学について検討する。
緩やかな正則性仮定と非正規化勾配流の収束を仮定すると、重みが崩壊した軌跡$\lambda$ は $\lambda \to 0$ の2相挙動を示す。
最初の高速相の間、軌道は非正則な勾配の流れに従い、臨界点の多様体に$F$で収束する。
そして、1/\lambda$のとき、軌道は遅いドリフトフェーズに入り、パラメータの$\ell_2$-normを最小化するリーマン勾配の流れに従う。
この純粋に最適化に基づく現象は、ディープラーニングで観察される‘textit{grokking} 効果の自然な説明を提供する。
この一般化ジャンプは、ウェイト崩壊によって引き起こされる緩やかなノルムの減少に起因すると、我々の分析で説明されている。
この機構をいくつかの合成回帰タスクで経験的に検証する。
関連論文リスト
- Leveraging Continuous Time to Understand Momentum When Training Diagonal
Linear Networks [21.176224458126285]
ステップサイズ$gamma$と運動量パラメータ$beta$を用いて運動量勾配勾配の解析に連続時間アプローチを用いる。
私たちは、$lambda$の小さな値がスパースソリューションの回復に役立つことを証明しています。
論文 参考訳(メタデータ) (2024-03-08T13:21:07Z) - On the Convergence of Gradient Descent for Large Learning Rates [55.33626480243135]
固定ステップサイズを使用すると収束が不可能であることを示す。
正方形損失を持つ線形ニューラルネットワークの場合,これを証明した。
また、勾配に対するリプシッツ連続性のような強い仮定を必要とせず、より一般的な損失に対する収束の不可能性も証明する。
論文 参考訳(メタデータ) (2024-02-20T16:01:42Z) - Convergence of mean-field Langevin dynamics: Time and space
discretization, stochastic gradient, and variance reduction [49.66486092259376]
平均場ランゲヴィンダイナミクス(英: mean-field Langevin dynamics、MFLD)は、分布依存のドリフトを含むランゲヴィン力学の非線形一般化である。
近年の研究では、MFLDは測度空間で機能するエントロピー規則化された凸関数を地球規模で最小化することが示されている。
有限粒子近似,時間分散,勾配近似による誤差を考慮し,MFLDのカオスの均一時間伝播を示す枠組みを提供する。
論文 参考訳(メタデータ) (2023-06-12T16:28:11Z) - Implicit Bias of Gradient Descent for Logistic Regression at the Edge of
Stability [69.01076284478151]
機械学習の最適化において、勾配降下(GD)はしばしば安定性の端(EoS)で動く
本稿では,EoS系における線形分離可能なデータに対するロジスティック回帰のための定数段差GDの収束と暗黙バイアスについて検討する。
論文 参考訳(メタデータ) (2023-05-19T16:24:47Z) - Improved Convergence Rate of Stochastic Gradient Langevin Dynamics with
Variance Reduction and its Application to Optimization [50.83356836818667]
勾配ランゲヴィン・ダイナミクスは非エプス最適化問題を解くための最も基本的なアルゴリズムの1つである。
本稿では、このタイプの2つの変種、すなわち、分散還元ランジュバンダイナミクスと再帰勾配ランジュバンダイナミクスを示す。
論文 参考訳(メタデータ) (2022-03-30T11:39:00Z) - The Implicit Regularization of Momentum Gradient Descent with Early
Stopping [0.0]
運動量勾配降下 (MGD) の暗黙的な正則化を, 明示的な$ell$-regularization (ridge) と比較することにより, 早期停止を特徴付ける。
特に、MGFとリッジの相対ベイズリスクは、最適チューニングの下で1から1.035である。
論文 参考訳(メタデータ) (2022-01-14T11:50:54Z) - Fast Margin Maximization via Dual Acceleration [52.62944011696364]
指数関数的尾の損失を持つ線形分類器を訓練するための運動量に基づく手法を提案し,解析する。
この運動量に基づく法は、最大マルジン問題の凸双対、特にこの双対にネステロフ加速度を適用することによって導出される。
論文 参考訳(メタデータ) (2021-07-01T16:36:39Z) - High-probability Bounds for Non-Convex Stochastic Optimization with
Heavy Tails [55.561406656549686]
我々は、勾配推定が末尾を持つ可能性のある一階アルゴリズムを用いたヒルベルト非最適化を考える。
本研究では, 勾配, 運動量, 正規化勾配勾配の収束を高確率臨界点に収束させることと, 円滑な損失に対する最もよく知られた繰り返しを示す。
論文 参考訳(メタデータ) (2021-06-28T00:17:01Z) - On regularization of gradient descent, layer imbalance and flat minima [9.08659783613403]
我々は、解の平坦性を定義する新しい計量-不均衡-を用いて、ディープ線形ネットワークのトレーニングダイナミクスを解析する。
重み付け減衰や雑音データ増大などの異なる正規化手法も同様に振る舞うことを実証する。
論文 参考訳(メタデータ) (2020-07-18T00:09:14Z) - The Implicit Regularization of Stochastic Gradient Flow for Least
Squares [24.976079444818552]
最小二乗回帰の基本問題に適用したミニバッチ勾配勾配の暗黙正則化について検討した。
我々は勾配流と呼ばれる勾配降下と同じモーメントを持つ連続時間微分方程式を利用する。
チューニングパラメータ $lambda = 1/t$ で、リッジレグレッションを越えて、時間 $t$ での勾配フローの過剰なリスクに制限を与えます。
論文 参考訳(メタデータ) (2020-03-17T16:37:25Z) - Fractional Underdamped Langevin Dynamics: Retargeting SGD with Momentum
under Heavy-Tailed Gradient Noise [39.9241638707715]
FULDは, 深層学習における役割において, 自然的, エレガントな手法と類似性があることが示唆された。
論文 参考訳(メタデータ) (2020-02-13T18:04:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。