論文の概要: Low-Dimensional and Transversely Curved Optimization Dynamics in Grokking
- arxiv url: http://arxiv.org/abs/2602.16746v1
- Date: Wed, 18 Feb 2026 03:57:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.266957
- Title: Low-Dimensional and Transversely Curved Optimization Dynamics in Grokking
- Title(参考訳): グラッキングにおける低次元および横曲線最適化ダイナミクス
- Authors: Yongzhong Xu,
- Abstract要約: 暗記から小さなタスクでの一般化への移行が遅れたグロキングは、まだ理解されていない。
注意重みトラジェクトリのPCAは、トレーニングが低次元の実行部分空間内で主に進化することを明らかにする。
曲線は実行部分空間の方向に急激に成長するのに対して、軌道はそれに限定されていることが分かる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Grokking -- the delayed transition from memorization to generalization in small algorithmic tasks -- remains poorly understood. We present a geometric analysis of optimization dynamics in transformers trained on modular arithmetic. PCA of attention weight trajectories reveals that training evolves predominantly within a low-dimensional execution subspace, with a single principal component capturing 68-83% of trajectory variance. To probe loss-landscape geometry, we measure commutator defects -- the non-commutativity of successive gradient steps -- and project them onto this learned subspace. We find that curvature grows sharply in directions orthogonal to the execution subspace while the trajectory remains largely confined to it. Importantly, curvature growth consistently precedes generalization across learning rates and hyperparameter regimes, with the lead time obeying a power law in the grokking timescale. Causal intervention experiments show that motion along the learned subspace is necessary for grokking, while artificially increasing curvature is insufficient. Together, these results support a geometric account in which grokking reflects escape from a metastable regime characterized by low-dimensional confinement and transverse curvature accumulation. All findings replicate across this learning-rate range, a qualitatively different slow regime (lr=5e-5, wd=0.1, 3 layers), and three random seeds, though alignment dynamics differ quantitatively between regimes. Causal intervention experiments establish that orthogonal gradient flow is necessary but not sufficient for grokking: suppressing it prevents generalization with a monotonic dose-response across four operations, while artificially boosting curvature defects has no effect.
- Abstract(参考訳): 暗記から小さなアルゴリズムタスクの一般化への遅れた移行であるグロキングは、まだ理解されていない。
モジュラー演算を訓練した変圧器における最適化力学の幾何学的解析について述べる。
注意重みトラジェクトリのPCAは、トレーニングが低次元の実行サブ空間内で主に進化し、単一の主成分が68~83%の軌道分散をキャプチャすることを示した。
損失ランドスケープ幾何学を探索するために、連続する勾配ステップの非可換性である可換点欠陥を測定し、この学習された部分空間に投影する。
曲線は実行部分空間に直交する方向に急激に成長するのに対して、軌道はそれに限定されていることが分かる。
重要なことに、曲率の成長は、学習速度やハイパーパラメーター体制をまたいだ一般化に一貫して先行しており、リードタイムはグルーキングの時間スケールにおける権力法則に従っている。
因果介入実験により、学習した部分空間に沿った運動はグルーキングに必要であり、人工的に曲率を増大させるには不十分であることが示されている。
これらの結果は,低次元の閉じ込めと横曲率の蓄積を特徴とする準安定状態からの脱出をグレッキングが反映する幾何学的説明を支持する。
全ての結果は、この学習速度範囲、質的に異なる遅い状態(lr=5e-5, wd=0.1, 3層)、および3つのランダムな種子で再現されるが、アライメントのダイナミクスはレジーム間で定量的に異なる。
因果介入実験では、直交勾配流はグルーキングには不十分であり、4つの操作で単調線量応答による一般化を抑える一方で、人工的に曲率欠陥を増強しても効果がない。
関連論文リスト
- Low-Dimensional Execution Manifolds in Transformer Learning Dynamics: Evidence from Modular Arithmetic Tasks [0.0]
本稿では, 数値計算を慎重に制御し, 変圧器モデルにおける学習力学の構造について検討する。
その結果,トランスフォーマー学習を理解するための統一的な幾何学的枠組みが示唆された。
論文 参考訳(メタデータ) (2026-02-11T03:57:46Z) - Spectral Gradient Descent Mitigates Anisotropy-Driven Misalignment: A Case Study in Phase Retrieval [13.218607858857295]
スペクトル勾配法は、スケールを捨てながら方向情報を保存することによって勾配の更新を変更する。
非線形位相探索モデルの動的解析により,これらの利得のメカニズムを解明する。
論文 参考訳(メタデータ) (2026-01-30T07:12:58Z) - Revisiting Zeroth-Order Optimization: Minimum-Variance Two-Point Estimators and Directionally Aligned Perturbations [57.179679246370114]
乱摂動の分布は, 摂動段差がゼロになる傾向にあるため, 推定子の分散を最小限に抑える。
以上の結果から, 一定の長さを維持するのではなく, 真の勾配に方向を合わせることが可能であることが示唆された。
論文 参考訳(メタデータ) (2025-10-22T19:06:39Z) - Description of the Training Process of Neural Networks via Ergodic Theorem : Ghost nodes [3.637162892228131]
本稿では、訓練勾配降下(SGD)による深層ニューラルネットワークの理解と加速のための統一的な枠組みを提案する。
我々は,安定剤に対する真の収束を識別する,最も大きなリャプノフ指数の実用診断,実行推定を導入する。
本稿では,補助的なゴースト出力ノードを付加した標準分類器のゴーストカテゴリ拡張を提案する。
論文 参考訳(メタデータ) (2025-07-01T17:54:35Z) - Provably Accelerating Ill-Conditioned Low-rank Estimation via Scaled
Gradient Descent, Even with Overparameterization [48.65416821017865]
この章では、スケールドグラデーション(ScaledGD)と呼ばれる新しいアルゴリズムアプローチを紹介します。
低ランク物体の条件数に依存しない定数速度で直線的に収束する。
様々なタスクに対して、勾配降下の低い摂動コストを維持できる。
論文 参考訳(メタデータ) (2023-10-09T21:16:57Z) - Convergence of mean-field Langevin dynamics: Time and space
discretization, stochastic gradient, and variance reduction [49.66486092259376]
平均場ランゲヴィンダイナミクス(英: mean-field Langevin dynamics、MFLD)は、分布依存のドリフトを含むランゲヴィン力学の非線形一般化である。
近年の研究では、MFLDは測度空間で機能するエントロピー規則化された凸関数を地球規模で最小化することが示されている。
有限粒子近似,時間分散,勾配近似による誤差を考慮し,MFLDのカオスの均一時間伝播を示す枠組みを提供する。
論文 参考訳(メタデータ) (2023-06-12T16:28:11Z) - Implicit Bias of Gradient Descent for Logistic Regression at the Edge of
Stability [69.01076284478151]
機械学習の最適化において、勾配降下(GD)はしばしば安定性の端(EoS)で動く
本稿では,EoS系における線形分離可能なデータに対するロジスティック回帰のための定数段差GDの収束と暗黙バイアスについて検討する。
論文 参考訳(メタデータ) (2023-05-19T16:24:47Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。