論文の概要: Grokking as a Variance-Limited Phase Transition: Spectral Gating and the Epsilon-Stability Threshold
- arxiv url: http://arxiv.org/abs/2603.15492v1
- Date: Mon, 16 Mar 2026 16:18:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:58.58727
- Title: Grokking as a Variance-Limited Phase Transition: Spectral Gating and the Epsilon-Stability Threshold
- Title(参考訳): 可変限相転移としてのグローキング:スペクトルゲーティングとエプシロン安定閾値
- Authors: Pratyush Acharya, Habish Dhakal,
- Abstract要約: 一般化には、適応に固有のテクスタイニソトロピックな修正が必要であり、これは溶液の接空間にノイズを誘導する。
この研究は、モジュラー演算タスクにおけるAdamWのダイナミクスを分析し、一般化から記憶への遷移を制御するスペクトルゲーティングのメカニズムを明らかにする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Standard optimization theories struggle to explain grokking, where generalization occurs long after training convergence. While geometric studies attribute this to slow drift, they often overlook the interaction between the optimizer's noise structure and landscape curvature. This work analyzes AdamW dynamics on modular arithmetic tasks, revealing a ``Spectral Gating'' mechanism that regulates the transition from memorization to generalization. We find that AdamW operates as a variance-gated stochastic system. Grokking is constrained by a stability condition: the generalizing solution resides in a sharp basin ($λ_{max}^H$) initially inaccessible under low-variance regimes. The ``delayed'' phase represents the accumulation of gradient variance required to lift the effective stability ceiling, permitting entry into this sharp manifold. Our ablation studies identify three complexity regimes: (1) \textbf{Capacity Collapse} ($P < 23$), where rank-deficiency prevents structural learning; (2) \textbf{The Variance-Limited Regime} ($P \approx 41$), where generalization waits for the spectral gate to open; and (3) \textbf{Stability Override} ($P > 67$), where memorization becomes dimensionally unstable. Furthermore, we challenge the "Flat Minima" hypothesis for algorithmic tasks, showing that isotropic noise injection fails to induce grokking. Generalization requires the \textit{anisotropic rectification} unique to adaptive optimizers, which directs noise into the tangent space of the solution manifold.
- Abstract(参考訳): 標準最適化理論は、グルーキングを説明するのに苦労し、そこでは、一般化は訓練収束後に長く起こる。
幾何学的な研究ではこの現象は遅いドリフトによるものとされているが、しばしばオプティマイザのノイズ構造とランドスケープの曲率との相互作用を見落としている。
この研究は、モジュラー演算タスクにおけるAdamWのダイナミクスを分析し、記憶から一般化への遷移を調節する ``Spectral Gating'' メカニズムを明らかにする。
我々はAdamWが分散ゲート確率系として機能していることを発見した。
一般解は、当初は低分散状態下では到達できない鋭い盆地(λ_{max}^H$)に存在する。
遅延' 相は、有効安定天井を持ち上げるのに必要な勾配分散の蓄積を表し、この鋭い多様体への入射を許す。
アブレーション研究では,(1) 階数不足が構造学習を妨げている(P < 23$) (2) スペクトルゲートが開くのを一般化する(P \approx 41$) (3) 記憶が次元的に不安定になる(P > 67$) という3つの複雑性体制を同定した。
さらに,等方性雑音注入がグラクキングを誘導しないことを示すアルゴリズム問題に対して,Flat Minima仮説に挑戦する。
一般化には、適応オプティマイザに固有の \textit{anisotropic rectification} が必要であり、これは解多様体の接空間にノイズを誘導する。
関連論文リスト
- OptEMA: Adaptive Exponential Moving Average for Stochastic Optimization with Zero-Noise Optimality [23.28384210732827]
我々はOptEMAを導入し、OptEMA-MとOptEMA-Vの2つの新しい変種を分析した。
OptEMA は閉ループであり、その実効的な階段化は軌道依存であり、パラメータ化にリプシッツ定数を必要としないという意味でリプシッツ自由である。
どちらの変種も平均勾配ノルムに対して$widetildemathcalO(T-1/2+1/2 T-1/4)$の雑音適応収束率を得る。
論文 参考訳(メタデータ) (2026-03-10T17:19:54Z) - Stability and Generalization of Push-Sum Based Decentralized Optimization over Directed Graphs [55.77845440440496]
プッシュベースの分散通信は、情報交換が非対称である可能性のある通信ネットワークの最適化を可能にする。
我々は、グラディエント・プッシュ(SGP)アルゴリズムのための統一的な一様安定性フレームワークを開発する。
重要な技術的要素は、2つの量に束縛された不均衡認識の一般化である。
論文 参考訳(メタデータ) (2026-02-24T05:32:03Z) - Why is Normalization Preferred? A Worst-Case Complexity Theory for Stochastically Preconditioned SGD under Heavy-Tailed Noise [17.899443444882888]
不等式事前条件勾配降下(SPSGD)に対する最悪のケース複雑性理論を開発する。
正規化は問題パラメータが未知の場合には$mathcalO(T-fracp-13p-2)$,$mathcalO(T-fracp-12p)$で1次定常点への収束を保証する。
対照的に、プリコンディショナーと勾配推定との統計的依存により、クリッピングが最悪の場合に収束しないことが証明される。
論文 参考訳(メタデータ) (2026-02-13T19:29:17Z) - Analysis of Hessian Scaling for Local and Global Costs in Variational Quantum Algorithm [0.42970700836450487]
変分量子アルゴリズムにおけるヘッセンのエントリーワイズ解の定量化を行う。
ショットノイズに対してヘッセン成分を解くのに必要なサンプルの複雑さを規定する2つの異なるスケーリング機構を示す。
論文 参考訳(メタデータ) (2026-01-31T15:49:23Z) - Latent Object Permanence: Topological Phase Transitions, Free-Energy Principles, and Renormalization Group Flows in Deep Transformer Manifolds [0.5729426778193398]
幾何学的および統計的物理レンズを用いた深部変圧器言語モデルにおける多段階推論の出現について検討する。
我々は、フォワードパスを離散粗粒度写像として形式化し、安定な「概念盆地」の出現と、この再正規化のような力学の固定点を関連付ける。
結果として生じる低エントロピー状態は、スペクトルテール崩壊と、表現空間における過渡的で再利用可能なオブジェクトのような構造の形成によって特徴づけられる。
論文 参考訳(メタデータ) (2026-01-16T23:11:02Z) - Estimation of Toeplitz Covariance Matrices using Overparameterized Gradient Descent [1.7188280334580195]
単純降下レンズ(GD)によるToeplitz共分散推定の再検討
K = P$ のとき、GD は準最適解に収束する。
本稿では,振幅と周波数の学習率の異なる高速なGD変種を提案する。
論文 参考訳(メタデータ) (2025-11-03T14:07:53Z) - Breaking the Heavy-Tailed Noise Barrier in Stochastic Optimization Problems [56.86067111855056]
構造密度の重み付き雑音によるクリップ最適化問題を考察する。
勾配が有限の順序モーメントを持つとき、$mathcalO(K-(alpha - 1)/alpha)$よりも高速な収束率が得られることを示す。
得られた推定値が無視可能なバイアスと制御可能な分散を持つことを示す。
論文 参考訳(メタデータ) (2023-11-07T17:39:17Z) - Learning Globally Smooth Functions on Manifolds [94.22412028413102]
スムーズな関数の学習は、線形モデルやカーネルモデルなどの単純なケースを除いて、一般的に難しい。
本研究は,半無限制約学習と多様体正規化の技法を組み合わせることで,これらの障害を克服することを提案する。
軽度条件下では、この手法は解のリプシッツ定数を推定し、副生成物として大域的に滑らかな解を学ぶ。
論文 参考訳(メタデータ) (2022-10-01T15:45:35Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。