論文の概要: Spectral Edge Dynamics Reveal Functional Modes of Learning
- arxiv url: http://arxiv.org/abs/2604.06256v1
- Date: Mon, 06 Apr 2026 22:29:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.123688
- Title: Spectral Edge Dynamics Reveal Functional Modes of Learning
- Title(参考訳): スペクトルエッジダイナミクスの学習機能モード
- Authors: Yongzhong Xu,
- Abstract要約: グラッキング中のトレーニングダイナミクスは、少数の主要な更新方向 – スペクトルエッジ – に沿って集中する。
標準的な機械的解釈可能性ツールは、これらの方向を捉えないことを示す。
モジュラー追加では、すべての先頭方向が1つのフーリエモードに崩壊する。
乗算の場合、同じ崩壊は離散logベースでのみ現れ、濃度が5.9倍向上する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training dynamics during grokking concentrate along a small number of dominant update directions -- the spectral edge -- which reliably distinguishes grokking from non-grokking regimes. We show that standard mechanistic interpretability tools (head attribution, activation probing, sparse autoencoders) fail to capture these directions: their structure is not localized in parameter or feature space. Instead, each direction induces a structured function over the input domain, revealing low-dimensional functional modes invisible to representation-level analysis. For modular addition, all leading directions collapse to a single Fourier mode. For multiplication, the same collapse appears only in the discrete-log basis, yielding a 5.9x improvement in concentration. For subtraction, the edge spans a small multi-mode family. For $x^2+y^2$, no single harmonic basis suffices, but cross-terms of additive and multiplicative features provide a 4x variance boost, consistent with the decomposition (a+b)^2 - 2ab. Multitask training amplifies this compositional structure, with the $x^2+y^2$ spectral edge inheriting the addition circuit's characteristic frequency (2.3x concentration increase). These results suggest that training discovers low-dimensional functional modes over the input domain, whose structure depends on the algebraic symmetry of the task. These results suggest that spectral edge dynamics identify low-dimensional functional subspaces governing learning, whose representation depends on the algebraic structure of the task. Simple harmonic structure emerges only when the task admits a symmetry-adapted basis; more complex tasks require richer functional descriptions.
- Abstract(参考訳): グラッキング中のトレーニングダイナミクスは、グラッキングと非グロッキング体制を確実に区別する少数の支配的な更新方向(スペクトルエッジ)に沿って集中している。
標準的な機械的解釈可能性ツール (頭部属性, アクティベーションプロービング, スパースオートエンコーダ) はこれらの方向を捉えることができず, それらの構造はパラメータや特徴空間では局所化されない。
代わりに、各方向は入力領域上の構造化関数を誘導し、表現レベル解析には見えない低次元の関数モードを明らかにする。
モジュラー追加では、すべての先頭方向が1つのフーリエモードに崩壊する。
乗算の場合、同じ崩壊は離散logベースでのみ現れ、濃度が5.9倍向上する。
減算の場合、エッジは小さなマルチモードファミリーにまたがる。
x^2+y^2$ の場合、単一の調和基底サフィスはないが、加法的および乗法的特徴の相互項は分解 (a+b)^2 - 2ab と一致する 4x の分散促進を与える。
マルチタスクトレーニングはこの構成構造を増幅し、$x^2+y^2$スペクトルエッジは加算回路の特性周波数(2.3x濃度の増加)を継承する。
これらの結果は、学習が入力領域上の低次元機能モードを発見し、その構造はタスクの代数対称性に依存することを示唆している。
これらの結果は、スペクトルエッジダイナミクスが、タスクの代数的構造に依存している学習を管理する低次元機能部分空間を特定することを示唆している。
単純な調和構造は、タスクが対称性に適応した基底を持つ場合にのみ出現し、より複雑なタスクはよりリッチな機能記述を必要とする。
関連論文リスト
- Spectral Path Regression: Directional Chebyshev Harmonics for Interpretable Tabular Learning [0.0]
テンソル化振動を$cos(mathbfmtoparccos(mathbfx)$という形の方向調和モードに置き換える。
この表現は、少数の構造化周波数ベクトルを選択して複雑性を制御する離散スペクトル回帰モデルを生成する。
論文 参考訳(メタデータ) (2026-04-05T12:13:59Z) - Functorial Neural Architectures from Higher Inductive Types [5.076419064097734]
ニューラルネットワークは構成一般化において体系的に失敗することを示す。
この失敗はアーキテクチャであり、構成的一般化はデコーダの函手性と同値である。
独立に生成したセグメントの構造連結によって構成されたデコーダが厳密なモノイド関手であることを証明した。
論文 参考訳(メタデータ) (2026-03-17T05:08:30Z) - On Counts and Densities of Homogeneous Bent Functions: An Evolutionary Approach [60.00535100780336]
本稿では, 等質屈曲ブール関数の進化における進化的アルゴリズム(EA)の利用について検討する。
等質な曲がり関数の密度の概念を導入し、異なる変数数の2次および3次曲がり関数を見つけるアルゴリズム設計を容易にする。
論文 参考訳(メタデータ) (2025-11-16T15:33:40Z) - Provable Scaling Laws of Feature Emergence from Learning Dynamics of Grokking [44.614763110719274]
我々は、グルーキング現象、すなわち遅延一般化について研究する。
本稿では,2層非線形ネットワークのグルーキング動作の3つの重要な段階を捉える新しいフレームワークを提案する。
私たちの研究は、体重減少、学習率、グルーキングにおけるサンプルサイズといったハイパースの役割に光を当てています。
論文 参考訳(メタデータ) (2025-09-25T20:08:09Z) - DiffuMatch: Category-Agnostic Spectral Diffusion Priors for Robust Non-rigid Shape Matching [53.39693288324375]
ネットワーク内正規化と関数型マップトレーニングの両方をデータ駆動方式に置き換えることができることを示す。
まず、スコアベース生成モデルを用いてスペクトル領域における関数写像の生成モデルを訓練する。
次に、得られたモデルを利用して、新しい形状コレクション上の基底真理汎関数写像の構造的特性を促進する。
論文 参考訳(メタデータ) (2025-07-31T16:44:54Z) - Self-Attention as a Parametric Endofunctor: A Categorical Framework for Transformer Architectures [0.0]
我々は,自己意識の線形成分に着目したカテゴリー理論フレームワークを開発した。
クエリ、キー、値マップは自然に2-圏 $mathbfPara(Vect)$ のパラメトリック 1-同型を定義することを示す。
複数の自己アテンション層を積み重ねると、このエンドファウンタ上の自由モナドが構築される。
論文 参考訳(メタデータ) (2025-01-06T11:14:18Z) - Reinforcement Learning from Partial Observation: Linear Function Approximation with Provable Sample Efficiency [111.83670279016599]
部分観察決定過程(POMDP)の無限観測および状態空間を用いた強化学習について検討した。
線形構造をもつPOMDPのクラスに対する部分可観測性と関数近似の最初の試みを行う。
論文 参考訳(メタデータ) (2022-04-20T21:15:38Z) - X-volution: On the unification of convolution and self-attention [52.80459687846842]
本稿では,畳み込み操作と自己注意操作の両方からなるマルチブランチ基本モジュールを提案する。
提案したX-進化は、非常に競争力のある視覚的理解の改善を実現する。
論文 参考訳(メタデータ) (2021-06-04T04:32:02Z) - Semiparametric Nonlinear Bipartite Graph Representation Learning with
Provable Guarantees [106.91654068632882]
半パラメトリック指数族分布におけるパラメータの統計的推定問題として、両部グラフを考察し、その表現学習問題を定式化する。
提案手法は, 地中真理付近で強い凸性を示すため, 勾配降下法が線形収束率を達成できることを示す。
我々の推定器は指数族内の任意のモデル誤特定に対して頑健であり、広範な実験で検証されている。
論文 参考訳(メタデータ) (2020-03-02T16:40:36Z) - Invariant Feature Coding using Tensor Product Representation [75.62232699377877]
我々は,群不変特徴ベクトルが線形分類器を学習する際に十分な識別情報を含んでいることを証明した。
主成分分析やk平均クラスタリングにおいて,グループアクションを明示的に考慮する新たな特徴モデルを提案する。
論文 参考訳(メタデータ) (2019-06-05T07:15:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。