論文の概要: Why Grokking Takes So Long: A First-Principles Theory of Representational Phase Transitions
- arxiv url: http://arxiv.org/abs/2603.13331v1
- Date: Thu, 05 Mar 2026 17:28:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.312717
- Title: Why Grokking Takes So Long: A First-Principles Theory of Representational Phase Transitions
- Title(参考訳): なぜグロッキングがそんなに長く掛かるのか:表現相転移の第一原理理論
- Authors: Truong Xuan Khanh, Truong Quynh Hoa, Luu Duc Trung, Phan Thanh Duc,
- Abstract要約: グロッキング(Grokking)は、モデルがトレーニングデータを記憶してから長く経った突然の記憶である。
正規化学習力学におけるノルム駆動表現相転移からグラッキングが生じることを示す第一原理理論を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Grokking is the sudden generalization that appears long after a model has perfectly memorized its training data. Although this phenomenon has been widely observed, there is still no quantitative theory explaining the length of the delay between memorization and generalization. Prior work has noted that weight decay plays an important role, but no result derives tight bounds for the delay or explains its scaling behavior. We present a first-principles theory showing that grokking arises from a norm-driven representational phase transition in regularized training dynamics. Training first converges to a high-norm memorization solution and only later contracts toward a lower-norm structured representation that generalizes. Our main result establishes a scaling law for the delay: T_grok - T_mem = Theta((1 / gamma_eff) * log(||theta_mem||^2 / ||theta_post||^2)), where gamma_eff is the effective contraction rate of the optimizer (gamma_eff = eta * lambda for SGD and gamma_eff >= eta * lambda for AdamW). The upper bound follows from a discrete Lyapunov contraction argument, and the matching lower bound arises from dynamical constraints of regularized first-order optimization. Across 293 training runs spanning modular addition, modular multiplication, and sparse parity tasks, we confirm three predictions: inverse scaling with weight decay, inverse scaling with learning rate, and logarithmic dependence on the norm ratio (R^2 > 0.97). We further find that grokking requires an optimizer that can decouple memorization from contraction: SGD fails under hyperparameters where AdamW reliably groks. These results show that grokking is a predictable consequence of norm separation between competing interpolating representations and provide the first quantitative scaling law for the delay of grokking.
- Abstract(参考訳): グロキング(Grokking)は、モデルがトレーニングデータを完全に記憶した後に現れる突然の一般化である。
この現象は広く観測されているが、記憶と一般化の間の遅延長を説明する定量的な理論はいまだに存在しない。
以前の研究では、重量減少は重要な役割を果たすが、遅延の厳密な境界やスケーリングの振る舞いを説明する結果が得られない。
正規化学習力学におけるノルム駆動表現相転移からグラッキングが生じることを示す第一原理理論を提案する。
トレーニングはまず、高ノルム記憶解に収束し、後に一般化する低ノルム構造表現へのみ契約する。
T_grok - T_mem = Theta((1 / gamma_eff) * log(|theta_mem||^2 / ||theta_post||^2) ここで、γ_effはオプティマイザの有効収縮率である(gamma_eff = eta * lambda for SGD and gamma_eff >= eta * lambda for AdamW)。
上界は離散的なリャプノフ収縮論から従い、一致する下界は正規化された一階最適化の動的制約から生じる。
293のトレーニングは,重み付き逆スケーリング,学習率による逆スケーリング,ノルム比による対数依存(R^2 > 0.97)の3つのタスクにまたがる。
さらに、グラッキングには、記憶と収縮を分離できる最適化器が必要であることが判明した: SGDは、AdamWが確実にグロークするハイパーパラメーターの下で失敗する。
これらの結果は、グラッキングが競合する補間表現間のノルム分離の予測可能な結果であることを示し、グラッキングの遅延に対する最初の定量的スケーリング法則を提供する。
関連論文リスト
- Grokking as a Variance-Limited Phase Transition: Spectral Gating and the Epsilon-Stability Threshold [0.0]
一般化には、適応に固有のテクスタイニソトロピックな修正が必要であり、これは溶液の接空間にノイズを誘導する。
この研究は、モジュラー演算タスクにおけるAdamWのダイナミクスを分析し、一般化から記憶への遷移を制御するスペクトルゲーティングのメカニズムを明らかにする。
論文 参考訳(メタデータ) (2026-03-16T16:18:18Z) - Early-Warning Signals of Grokking via Loss-Landscape Geometry [0.0]
SCAN合成一般化とDyck-1深さ予測の2つのシーケンスラーニングベンチマークについて検討した。
タスクと幅広い学習率の双方において、通勤者欠陥は一般化される前に大きく上昇する。
これらの結果から, コンバータの欠陥は, コンバータの遅延一般化のための, 頑健でアーキテクチャに依存しない, 因果的に早期警戒信号であることがわかった。
論文 参考訳(メタデータ) (2026-02-19T00:14:36Z) - To Grok Grokking: Provable Grokking in Ridge Regression [24.785366757570202]
古典的な尾根回帰条件において, オーバーフィッティング後の一般化の開始点であるグラッキングについて検討した。
理論的にも経験的にも、グルキングは原則的に増幅または排除できることを示す。
以上の結果から,グルーキングは深層学習の固有の障害モードではなく,特定の訓練条件の結果であることが示唆された。
論文 参考訳(メタデータ) (2026-01-27T16:52:04Z) - The Geometry of Grokking: Norm Minimization on the Zero-Loss Manifold [5.076419064097734]
暗記後の学習は、制約付き最適化のレンズを通して理解することができると論じる。
勾配降下は、零損失多様体上の重みノルムを効果的に最小化することを示す。
実験により,予測勾配を用いた学習過程のシミュレーションは,グルーキングの遅延一般化と表現学習特性の両方を再現することを確認した。
論文 参考訳(メタデータ) (2025-11-02T18:44:42Z) - Compute-Optimal LLMs Provably Generalize Better With Scale [102.29926217670926]
我々は,大規模言語モデル(LLM)の事前学習目標に基づく一般化境界を開発する。
損失関数の分散を考慮し, 既存の境界を緩める, 完全経験的フリードマン型マルティンゲール濃度を導入する。
我々は一般化ギャップのスケーリング法則を作成し、その境界はスケールによって予測的に強くなる。
論文 参考訳(メタデータ) (2025-04-21T16:26:56Z) - Beyond Progress Measures: Theoretical Insights into the Mechanism of Grokking [50.465604300990904]
グロキング(Grokking)とは、オーバーフィッティングの拡張後のテスト精度の急激な改善を指す。
本研究では、素数演算のタスクにおいて、Transformerの基盤となるグルーキング機構について検討する。
論文 参考訳(メタデータ) (2025-04-04T04:42:38Z) - Towards Understanding the Generalizability of Delayed Stochastic Gradient Descent [63.43247232708004]
非同期で実行される勾配降下は、大規模機械学習モデルのトレーニングにおいて重要な役割を果たす。
既存の一般化誤差境界は悲観的であり、非同期遅延と一般化の相関を明らかにすることはできない。
我々の理論的結果は、非同期遅延は遅延SGDアルゴリズムの一般化誤差を低減することを示唆している。
論文 参考訳(メタデータ) (2023-08-18T10:00:27Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。