論文の概要: On the Mechanism and Dynamics of Modular Addition: Fourier Features, Lottery Ticket, and Grokking
- arxiv url: http://arxiv.org/abs/2602.16849v1
- Date: Wed, 18 Feb 2026 20:25:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.390476
- Title: On the Mechanism and Dynamics of Modular Addition: Fourier Features, Lottery Ticket, and Grokking
- Title(参考訳): モジュール付加のメカニズムとダイナミクス--フーリエ特徴,ロッキーチケット,グラッキング
- Authors: Jianliang He, Leda Wang, Siyu Chen, Zhuoran Yang,
- Abstract要約: 本稿では,2層ニューラルネットワークがモジュール追加タスクを解くために,機能をどのように学習するかを包括的に分析する。
我々の研究は、学習したモデルの完全な機械論的解釈と、その訓練力学の理論的説明を提供する。
- 参考スコア(独自算出の注目度): 49.1352577985191
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a comprehensive analysis of how two-layer neural networks learn features to solve the modular addition task. Our work provides a full mechanistic interpretation of the learned model and a theoretical explanation of its training dynamics. While prior work has identified that individual neurons learn single-frequency Fourier features and phase alignment, it does not fully explain how these features combine into a global solution. We bridge this gap by formalizing a diversification condition that emerges during training when overparametrized, consisting of two parts: phase symmetry and frequency diversification. We prove that these properties allow the network to collectively approximate a flawed indicator function on the correct logic for the modular addition task. While individual neurons produce noisy signals, the phase symmetry enables a majority-voting scheme that cancels out noise, allowing the network to robustly identify the correct sum. Furthermore, we explain the emergence of these features under random initialization via a lottery ticket mechanism. Our gradient flow analysis proves that frequencies compete within each neuron, with the "winner" determined by its initial spectral magnitude and phase alignment. From a technical standpoint, we provide a rigorous characterization of the layer-wise phase coupling dynamics and formalize the competitive landscape using the ODE comparison lemma. Finally, we use these insights to demystify grokking, characterizing it as a three-stage process involving memorization followed by two generalization phases, driven by the competition between loss minimization and weight decay.
- Abstract(参考訳): 本稿では,2層ニューラルネットワークがモジュール追加タスクを解くために,機能をどのように学習するかを包括的に分析する。
我々の研究は、学習したモデルの完全な機械論的解釈と、その訓練力学の理論的説明を提供する。
以前の研究では、個々のニューロンが単一周波数フーリエの特徴と位相アライメントを学習していることが特定されているが、これらの特徴がグローバルな解にどのように組み合わされるかは、完全には説明されていない。
このギャップは、位相対称性と周波数多様化の2つの部分からなる過度なパラメータ化時に生じる発散条件を定式化し、橋渡しする。
これらの特性により、モジュール追加タスクの正しい論理上の欠陥指標関数を網羅的に近似できることを示す。
個々のニューロンがノイズ信号を生成する間、位相対称性はノイズをキャンセルする多数決投票方式を可能にし、ネットワークが正しい和を確実に識別する。
さらに, 抽選券機構を介し, ランダム初期化下でのこれらの特徴の出現を説明する。
我々の勾配流解析は、周波数が各ニューロン内で競合することを示し、その初期スペクトルの大きさと位相アライメントによって「勝者」が決定される。
技術的観点から、我々は層間位相結合力学の厳密な特徴付けを提供し、ODE比較補題を用いて競合する景観を定式化する。
最後に、これらの知見を用いて、暗記を含む3段階の過程と、損失最小化と減量との競合によって引き起こされる2つの一般化フェーズを特徴付ける。
関連論文リスト
- Why Neural Network Can Discover Symbolic Structures with Gradient-based Training: An Algebraic and Geometric Foundation for Neurosymbolic Reasoning [73.18052192964349]
我々は、連続的なニューラルネットワークトレーニングのダイナミックスから、離散的なシンボル構造が自然に現れるかを説明する理論的枠組みを開発する。
ニューラルパラメータを測度空間に上げ、ワッサーシュタイン勾配流としてモデル化することにより、幾何的制約の下では、パラメータ測度 $mu_t$ が2つの同時現象となることを示す。
論文 参考訳(メタデータ) (2025-06-26T22:40:30Z) - Similarity Matching Networks: Hebbian Learning and Convergence Over Multiple Time Scales [5.093257685701887]
本研究では,主部分空間投影のための固有性マッチングネットワークの検討と解析を行う。
マルチレベル最適化フレームワークを利用することで、オフライン環境でのダイナミクスの収束を証明できる。
論文 参考訳(メタデータ) (2025-06-06T14:46:22Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - Localization, fractality, and ergodicity in a monitored qubit [0.5892638927736115]
反復的アンシラ測定を対象とする1つの2段階系(量子ビット)の統計特性について検討した。
このセットアップは、システムのユニタリダイナミクスと量子測定によって導入された非ユニタリ性の間の相互作用を探索するための基本的な最小限のモデルである。
論文 参考訳(メタデータ) (2023-10-03T12:10:30Z) - Onset of scrambling as a dynamical transition in tunable-range quantum
circuits [0.0]
長距離接続の異なる量子回路におけるスクランブルの開始を示す動的遷移を同定する。
異なる構造の回路の相互作用範囲の関数として、三部構造相互情報はスケーリング崩壊を示すことを示す。
従来のパワー-ロー相互作用を持つシステムに加えて、決定論的、スパース回路における同じ現象を同定する。
論文 参考訳(メタデータ) (2023-04-19T17:37:10Z) - Third quantization of open quantum systems: new dissipative symmetries
and connections to phase-space and Keldysh field theory formulations [77.34726150561087]
3つの方法全てを明示的に接続する方法で第3量子化の手法を再構成する。
まず、我々の定式化は、すべての二次ボゾンあるいはフェルミオンリンドブラディアンに存在する基本散逸対称性を明らかにする。
ボソンに対して、ウィグナー関数と特徴関数は密度行列の「波動関数」と考えることができる。
論文 参考訳(メタデータ) (2023-02-27T18:56:40Z) - Learning the ground state of a non-stoquastic quantum Hamiltonian in a
rugged neural network landscape [0.0]
ニューラルネットワークに基づく普遍的変動波動関数のクラスについて検討する。
特に,本稿では,ニューラルネットワークの表現率とモンテカルロサンプリングが一次制限因子ではないことを示す。
論文 参考訳(メタデータ) (2020-11-23T05:25:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。