論文の概要: Provable Scaling Laws of Feature Emergence from Learning Dynamics of Grokking
- arxiv url: http://arxiv.org/abs/2509.21519v3
- Date: Tue, 30 Sep 2025 17:43:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:44:59.840084
- Title: Provable Scaling Laws of Feature Emergence from Learning Dynamics of Grokking
- Title(参考訳): グローキングの学習ダイナミクスによる特徴創発の確率的スケーリング法則
- Authors: Yuandong Tian,
- Abstract要約: 我々は、グルーキング現象、すなわち遅延一般化について研究する。
本稿では,2層非線形ネットワークのグルーキング動作の3つの重要な段階を捉える新しいフレームワークを提案する。
私たちの研究は、体重減少、学習率、グルーキングにおけるサンプルサイズといったハイパースの役割に光を当てています。
- 参考スコア(独自算出の注目度): 44.614763110719274
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While the phenomenon of grokking, i.e., delayed generalization, has been studied extensively, it remains an open problem whether there is a mathematical framework that characterizes what kind of features will emerge, how and in which conditions it happens, and is closely related to the gradient dynamics of the training, for complex structured inputs. We propose a novel framework, named $\mathbf{Li_2}$, that captures three key stages for the grokking behavior of 2-layer nonlinear networks: (I) \underline{\textbf{L}}azy learning, (II) \underline{\textbf{i}}ndependent feature learning and (III) \underline{\textbf{i}}nteractive feature learning. At the lazy learning stage, top layer overfits to random hidden representation and the model appears to memorize. Thanks to lazy learning and weight decay, the \emph{backpropagated gradient} $G_F$ from the top layer now carries information about the target label, with a specific structure that enables each hidden node to learn their representation \emph{independently}. Interestingly, the independent dynamics follows exactly the \emph{gradient ascent} of an energy function $E$, and its local maxima are precisely the emerging features. We study whether these local-optima induced features are generalizable, their representation power, and how they change on sample size, in group arithmetic tasks. When hidden nodes start to interact in the later stage of learning, we provably show how $G_F$ changes to focus on missing features that need to be learned. Our study sheds lights on roles played by key hyperparameters such as weight decay, learning rate and sample sizes in grokking, leads to provable scaling laws of feature emergence, memorization and generalization, and reveals the underlying cause why recent optimizers such as Muon can be effective, from the first principles of gradient dynamics. Our analysis can be extended to multi-layer architectures.
- Abstract(参考訳): グルーキングの現象、すなわち遅延一般化は広く研究されているが、複雑な構造化された入力に対して、どのような特徴が現れるのか、どのように、どこで起こるのかを特徴づける数学的枠組みが存在するかどうかは未解決のままである。
I) \underline{\textbf{L}}azy Learning, (II) \underline{\textbf{i}}ndependent feature learning, (III) \underline{\textbf{i}}nteractive feature learning。
遅延学習の段階では、トップレイヤはランダムな隠れ表現に過度に適合し、モデルは記憶されるように見える。
遅延学習とウェイト崩壊により、トップ層からの \emph{backpropagated gradient} $G_F$ はターゲットラベルに関する情報を格納し、各隠れノードがそれぞれの表現を独立に学習することを可能にする特定の構造を持つ。
興味深いことに、独立力学はエネルギー関数 $E$ のちょうど \emph{gradient ascent} に従う。
これらの局所オプティマ誘導特徴が一般化可能か,その表現力,および群演算タスクにおけるサンプルサイズの変化について検討する。
隠れたノードが学習の後期に相互作用し始めると、学習すべき機能に焦点を合わせるためにG_F$がどう変わったかを確実に示します。
本研究は, 重量減少, 学習速度, サンプルサイズといった重要なハイパーパラメータの役割に光を当て, 特徴の出現, 記憶, 一般化のスケーリング法則を立証し, 勾配力学の第一原理から, ムオンのような最近の最適化が有効である理由を明らかにした。
我々の分析は多層アーキテクチャにまで拡張できる。
関連論文リスト
- H$^3$DP: Triply-Hierarchical Diffusion Policy for Visuomotor Learning [25.65324419553667]
我々は,視覚的特徴と行動生成の統合を強化するために,階層構造を明示的に組み込んだ新しいビジュモータ学習フレームワークである$textbfTriply-Hierarchical Diffusion Policy(textbfH$mathbf3$DP)を紹介した。
大規模な実験では、H$3$DPは$mathbf+27.5%の平均相対的な改善を$mathbf44$のシミュレーションタスクで達成し、$mathbf4$の挑戦的な実世界の操作タスクで優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-12T17:59:43Z) - Global Convergence and Rich Feature Learning in $L$-Layer Infinite-Width Neural Networks under $μ$P Parametrization [66.03821840425539]
本稿では, テンソル勾配プログラム(SGD)フレームワークを用いた$L$層ニューラルネットワークのトレーニング力学について検討する。
SGDにより、これらのネットワークが初期値から大きく逸脱する線形独立な特徴を学習できることを示す。
このリッチな特徴空間は、関連するデータ情報をキャプチャし、トレーニングプロセスの収束点が世界最小であることを保証する。
論文 参考訳(メタデータ) (2025-03-12T17:33:13Z) - The Optimization Landscape of SGD Across the Feature Learning Strength [102.1353410293931]
オンライントレーニング環境で、さまざまなモデルやデータセットに$gamma$をスケーリングする効果について検討する。
最適なオンラインパフォーマンスは、しばしば大きな$gamma$で見られます。
以上の結果から,大容量ガンマ$限界の解析的研究は,実演モデルにおける表現学習のダイナミクスに関する有用な知見をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2024-10-06T22:30:14Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - On Single Index Models beyond Gaussian Data [45.875461749455994]
緩やかな高次元関数は、勾配-蛍光法の振舞いを研究するための豊富な枠組みとして生まれてきた。
この研究では、安定性と対称性の両方に反する可能性のあるガウス的な設定を超えて、この図の拡張を探求する。
本研究の主な成果は,高次元状態下での未知方向$theta*$を効率よく回収できることである。
論文 参考訳(メタデータ) (2023-07-28T20:52:22Z) - Hierarchical Learning in Euclidean Neural Networks [0.0]
ユークリッドニューラルネットワーク(texttte3nn)における高次(非スカラー)特徴の役割について検討する。
多重極展開を思い起こさせるような$l$の自然な特徴階層が見つかる。
論文 参考訳(メタデータ) (2022-10-10T15:26:00Z) - Backward Feature Correction: How Deep Learning Performs Deep
(Hierarchical) Learning [66.05472746340142]
本稿では,SGD による階層的学習 _efficiently_ と _automatically_ を学習目標として,多層ニューラルネットワークがどのように行うかを分析する。
我々は、下位機能のエラーを上位層と共にトレーニングする際に自動的に修正できる"後方特徴補正"と呼ばれる新しい原則を確立する。
論文 参考訳(メタデータ) (2020-01-13T17:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。