論文の概要: Early-Warning Signals of Grokking via Loss-Landscape Geometry
- arxiv url: http://arxiv.org/abs/2602.16967v1
- Date: Thu, 19 Feb 2026 00:14:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.530355
- Title: Early-Warning Signals of Grokking via Loss-Landscape Geometry
- Title(参考訳): ロスランドスケープ幾何学によるグローキングの早期覚醒信号
- Authors: Yongzhong Xu,
- Abstract要約: SCAN合成一般化とDyck-1深さ予測の2つのシーケンスラーニングベンチマークについて検討した。
タスクと幅広い学習率の双方において、通勤者欠陥は一般化される前に大きく上昇する。
これらの結果から, コンバータの欠陥は, コンバータの遅延一般化のための, 頑健でアーキテクチャに依存しない, 因果的に早期警戒信号であることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Grokking -- the abrupt transition from memorization to generalization after prolonged training -- has been linked to confinement on low-dimensional execution manifolds in modular arithmetic. Whether this mechanism extends beyond arithmetic remains open. We study two sequence-learning benchmarks: SCAN compositional generalization and Dyck-1 depth prediction. Across both tasks and a wide range of learning rates, the commutator defect -- a curvature measure derived from non-commuting gradient updates -- rises well before generalization, with lead times following a superlinear power law (alpha approximately 1.18 for SCAN, approximately 1.13 for Dyck), consistent with prior results on modular arithmetic. Weight-space PCA reveals that spectral concentration is not a universal precursor; the commutator defect is. Causal interventions demonstrate a mechanistic role: amplifying non-commutativity accelerates grokking (roughly 32% on SCAN, roughly 50% on Dyck), while suppressing orthogonal gradient flow delays or prevents it. The three task families form a spectrum of causal sensitivity -- modular arithmetic is rigid, Dyck is responsive, SCAN is intermediate -- yet suppression delays or prevents grokking in all cases, establishing necessity as a universal finding. These results identify the commutator defect as a robust, architecture-agnostic, causally implicated early-warning signal for delayed generalization in transformers.
- Abstract(参考訳): 長期トレーニング後の記憶から一般化への急激な遷移であるグロキングは、モジュラー算術における低次元実行多様体の制限と結びついている。
この機構が算術を超えて拡張されるかどうかは未定である。
SCAN合成一般化とDyck-1深さ予測の2つのシーケンスラーニングベンチマークについて検討した。
タスクと幅広い学習率の双方で、非可換勾配更新から導かれる曲率である可換器欠陥は、超線形パワー法則(SCANの約1.18、Dyckの約1.13)に従い、モジュラー演算の先行結果と一致して、一般化よりもかなり早く上昇する。
軽量空間PCAは、スペクトル濃度が普遍的な前駆体ではないことを明らかにした。
因果的介入は機械的役割を示す:非可換性の増幅は、直交勾配流の遅延を抑制したり妨げたりする一方で、グラッキング(主にSCANで32%、Dyckで50%)を加速する。
3つのタスクファミリは因果感受性のスペクトルを形成します -- モジュラー演算は厳格で、Dyckは応答性があり、SCANは中間的です。
これらの結果から, コンバータの欠陥は, コンバータの遅延一般化のための, 頑健でアーキテクチャに依存しない, 因果的に早期警戒信号であることがわかった。
関連論文リスト
- Low-Dimensional and Transversely Curved Optimization Dynamics in Grokking [0.0]
暗記から小さなタスクでの一般化への移行が遅れたグロキングは、まだ理解されていない。
注意重みトラジェクトリのPCAは、トレーニングが低次元の実行部分空間内で主に進化することを明らかにする。
曲線は実行部分空間の方向に急激に成長するのに対して、軌道はそれに限定されていることが分かる。
論文 参考訳(メタデータ) (2026-02-18T03:57:56Z) - Analyzing the Mechanism of Attention Collapse in VGGT from a Dynamics Perspective [13.434698786044107]
Visual Geometry Grounded Transformer (VGGT)は、最先端のフィードフォワード3D再構成を提供する。
グローバルな自己保持層は、入力シーケンスが数百フレームを超えると、劇的な崩壊現象に悩まされる。
我々は,グローバルアテンションを退化拡散過程と見なして,崩壊の厳密な数学的説明を確立する。
論文 参考訳(メタデータ) (2025-12-25T14:34:27Z) - The Geometry of Grokking: Norm Minimization on the Zero-Loss Manifold [5.076419064097734]
暗記後の学習は、制約付き最適化のレンズを通して理解することができると論じる。
勾配降下は、零損失多様体上の重みノルムを効果的に最小化することを示す。
実験により,予測勾配を用いた学習過程のシミュレーションは,グルーキングの遅延一般化と表現学習特性の両方を再現することを確認した。
論文 参考訳(メタデータ) (2025-11-02T18:44:42Z) - Towards Understanding the Generalizability of Delayed Stochastic Gradient Descent [63.43247232708004]
非同期で実行される勾配降下は、大規模機械学習モデルのトレーニングにおいて重要な役割を果たす。
既存の一般化誤差境界は悲観的であり、非同期遅延と一般化の相関を明らかにすることはできない。
我々の理論的結果は、非同期遅延は遅延SGDアルゴリズムの一般化誤差を低減することを示唆している。
論文 参考訳(メタデータ) (2023-08-18T10:00:27Z) - Temporal Difference Learning with Compressed Updates: Error-Feedback meets Reinforcement Learning [47.904127007515925]
本稿では,従来の時間差学習アルゴリズムの変種について検討する。
我々は、圧縮されたTDアルゴリズムと、最適化に広く用いられているエラーフィードバック機構が組み合わさって、漸近的でない近似を保証することを証明した。
特に、これらは一般圧縮演算子と線形関数近似とマルコフサンプリングを併用したタンデムの誤差フィードバックを考慮に入れたRLにおける最初の有限時間結果である。
論文 参考訳(メタデータ) (2023-01-03T04:09:38Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。