論文の概要: $\mathbf{Li_2}$: A Framework on Dynamics of Feature Emergence and Delayed Generalization
- arxiv url: http://arxiv.org/abs/2509.21519v1
- Date: Thu, 25 Sep 2025 20:08:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:53.974345
- Title: $\mathbf{Li_2}$: A Framework on Dynamics of Feature Emergence and Delayed Generalization
- Title(参考訳): $\mathbf{Li_2}$: 特徴発生と遅延一般化のダイナミクスに関するフレームワーク
- Authors: Yuandong Tian,
- Abstract要約: 非線形ネットワークにおけるグラッキング現象,すなわち遅延一般化について検討する。
2層非線形ネットワークのグルーキング動作の3つの重要な段階を捉える。
我々の研究は、体重減少、学習率、グルーキングにおけるサイズといったハイパーマスが果たす役割に光を当てています。
- 参考スコア(独自算出の注目度): 44.614763110719274
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While the phenomenon of grokking, i.e., delayed generalization, has been studied extensively, it remains an open question whether there is a mathematical framework to characterize what kind of features emerge, how and in which conditions it happens from training, for complex structured inputs. We propose a novel framework, named $\mathbf{Li_2}$, that captures three key stages for the grokking behavior of 2-layer nonlinear networks: (I) Lazy learning, (II) independent feature learning and (III) interactive feature learning, characterized by the structure of backpropagated gradient $G_F$ across layers. In (I), $G_F$ is random, and top layer overfits to random hidden representation. In (II), the gradient of each node (column of $G_F$) only depends on its own activation, and thus each hidden node learns their representation independently from $G_F$, which now carries information about target labels, thanks to weight decay. Interestingly, the independent dynamics follows exactly the gradient ascent of an energy function $E$, and its local maxima are precisely the emerging features. We study whether these local-optima induced features are generalizable, their representation power, and how they change on sample size, in group arithmetic tasks. Finally, in (III), we provably show how hidden nodes interact, and how $G_F$ changes to focus on missing features that need to be learned. Our study sheds lights on roles played by key hyperparameters such as weight decay, learning rate and sample sizes in grokking, leads to provable scaling laws of memorization and generalization, and reveals the underlying cause why recent optimizers such as Muon can be effective, from the first principles of gradient dynamics. Our analysis can be extended to multi-layer architectures.
- Abstract(参考訳): グルーキングの現象、すなわち遅延一般化は広く研究されているが、複雑な構造化された入力に対して、どのような特徴が現れるのか、どのように、どのように、どのような条件で起こるのかを特徴づける数学的枠組みが存在するかどうかには疑問が残る。
遅延学習, (II) 独立な特徴学習, (III) インタラクティブな特徴学習という2層非線形ネットワークのグルーキング動作の3つの重要な段階を捉える, $\mathbf{Li_2}$ という新しいフレームワークを提案する。
I)では、$G_F$はランダムであり、トップ層はランダムな隠れ表現に過度に適合する。
第二に、各ノード($G_F$のカラム)の勾配は、自身のアクティベーションにのみ依存するため、各隠れたノードは、現在ターゲットラベルに関する情報を持っている$G_F$から独立に、その表現を学習する。
興味深いことに、独立力学はエネルギー関数$E$の勾配を正確に追従し、その局所極大はまさに出現する特徴である。
これらの局所オプティマ誘導特徴が一般化可能か,その表現力,および群演算タスクにおけるサンプルサイズの変化について検討する。
最後に、(III)では、隠れたノードがどのように相互作用し、学習すべき機能に焦点を合わせるためにG_F$がどのように変化するかを確実に示します。
本研究は,重量減少,学習速度,サンプルサイズなどの重要なハイパーパラメータの役割に光を当てることで,記憶のスケーリング法則や一般化の証明可能な法則を導出し,近年のムオンのような最適化が有効な理由を,勾配力学の第一原理から明らかにした。
我々の分析は多層アーキテクチャにまで拡張できる。
関連論文リスト
- H$^3$DP: Triply-Hierarchical Diffusion Policy for Visuomotor Learning [25.65324419553667]
我々は,視覚的特徴と行動生成の統合を強化するために,階層構造を明示的に組み込んだ新しいビジュモータ学習フレームワークである$textbfTriply-Hierarchical Diffusion Policy(textbfH$mathbf3$DP)を紹介した。
大規模な実験では、H$3$DPは$mathbf+27.5%の平均相対的な改善を$mathbf44$のシミュレーションタスクで達成し、$mathbf4$の挑戦的な実世界の操作タスクで優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-12T17:59:43Z) - Global Convergence and Rich Feature Learning in $L$-Layer Infinite-Width Neural Networks under $μ$P Parametrization [66.03821840425539]
本稿では, テンソル勾配プログラム(SGD)フレームワークを用いた$L$層ニューラルネットワークのトレーニング力学について検討する。
SGDにより、これらのネットワークが初期値から大きく逸脱する線形独立な特徴を学習できることを示す。
このリッチな特徴空間は、関連するデータ情報をキャプチャし、トレーニングプロセスの収束点が世界最小であることを保証する。
論文 参考訳(メタデータ) (2025-03-12T17:33:13Z) - The Optimization Landscape of SGD Across the Feature Learning Strength [102.1353410293931]
オンライントレーニング環境で、さまざまなモデルやデータセットに$gamma$をスケーリングする効果について検討する。
最適なオンラインパフォーマンスは、しばしば大きな$gamma$で見られます。
以上の結果から,大容量ガンマ$限界の解析的研究は,実演モデルにおける表現学習のダイナミクスに関する有用な知見をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2024-10-06T22:30:14Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - On Single Index Models beyond Gaussian Data [45.875461749455994]
緩やかな高次元関数は、勾配-蛍光法の振舞いを研究するための豊富な枠組みとして生まれてきた。
この研究では、安定性と対称性の両方に反する可能性のあるガウス的な設定を超えて、この図の拡張を探求する。
本研究の主な成果は,高次元状態下での未知方向$theta*$を効率よく回収できることである。
論文 参考訳(メタデータ) (2023-07-28T20:52:22Z) - Hierarchical Learning in Euclidean Neural Networks [0.0]
ユークリッドニューラルネットワーク(texttte3nn)における高次(非スカラー)特徴の役割について検討する。
多重極展開を思い起こさせるような$l$の自然な特徴階層が見つかる。
論文 参考訳(メタデータ) (2022-10-10T15:26:00Z) - Backward Feature Correction: How Deep Learning Performs Deep
(Hierarchical) Learning [66.05472746340142]
本稿では,SGD による階層的学習 _efficiently_ と _automatically_ を学習目標として,多層ニューラルネットワークがどのように行うかを分析する。
我々は、下位機能のエラーを上位層と共にトレーニングする際に自動的に修正できる"後方特徴補正"と呼ばれる新しい原則を確立する。
論文 参考訳(メタデータ) (2020-01-13T17:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。