論文の概要: Feature Repulsion and Spectral Lock-in: An Empirical Study of Two-Layer Network Grokking
- arxiv url: http://arxiv.org/abs/2605.08119v1
- Date: Tue, 28 Apr 2026 03:46:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 12:34:33.715835
- Title: Feature Repulsion and Spectral Lock-in: An Empirical Study of Two-Layer Network Grokking
- Title(参考訳): 特徴反発とスペクトルロックイン:2層ネットワークグロキングの実証的研究
- Authors: Yongzhong Xu,
- Abstract要約: Tian (2025) は行列 B = (widetildeFtop widetildeF + I) epoch-1 $ に対する反発定理 (Theorem 6) を証明する。
これをTianのモジュラー加法(M = 71 $, $ K = 2048 $, MSE loss)で直接テストし、明確な構造力学解離を観察する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tian (2025) proves a repulsion theorem (Theorem 6) for the matrix $ B = (\widetilde{F}^\top \widetilde{F} + ηI)^{-1} $ during the interactive feature-learning stage of grokking: similar features have negative off-diagonal entries $ B_{j\ell} $, producing an effective repulsive force that drives them apart. However, the theorem does not specify when this mechanism becomes empirically observable, nor whether it leaves a measurable spectral signature in the parameter updates. We test this directly on Tian's modular addition setup ($ M = 71 $, $ K = 2048 $, MSE loss) and observe a clear structure-mechanism dissociation. The predicted sign rule holds robustly on the top-200 most-similar feature pairs across activations (empirical sign-match rising from 0.865 to 0.985 on $ σ= x^2 $ across 5 seeds, and saturating at 1.000 on $ σ= \operatorname{ReLU} $). However, the spectral signature in the parameter updates is strongly activation-dependent. With $ σ= x^2 $, a simple slope detector on the rolling eigengap $ σ_2 / σ_3 $ of $ ΔW $ fires in 15/15 grokking seeds at epoch 174 (IQR [173,174]) and in 0/15 non-grokking controls, with 229$ \times $ late-stage magnitude separation; the spectrum is rank-2. In contrast, with $ σ= \operatorname{ReLU} $, the detector never fires and the spectrum remains effectively rank-1. This dissociation aligns with Tian's Theorem 5 distinction between focused (power-law) and spreading (ReLU) memorization: while the sign structure of $ B $ depends only on $ \widetilde{F}^\top \widetilde{F} $, how feature repulsion translates into weight updates critically depends on the activation derivative $ σ' $.
- Abstract(参考訳): Tian (2025) は行列 $ B = (\widetilde{F}^\top \widetilde{F} + ηI)^{-1} $ に対する反発定理 (Theorem 6) をグルーキングの対話的特徴学習段階で証明している。
しかし、この定理は、いつこの機構が経験的に観測可能になったか、あるいはパラメータ更新に測定可能なスペクトルシグネチャを残しているかどうかを規定していない。
これをTianのモジュラー加法(M = 71 $, $ K = 2048 $, MSE loss)で直接テストし、明確な構造力学解離を観察する。
予測された符号規則は、アクティベーションにまたがる上位200個の最も類似した特徴対に強く依存する(経験的な符号マッチは 0.865 から 0.985 まで上昇し、σ= x^2 は 5 つのシードにまたがり、000 は $ σ= \operatorname{ReLU} $ で飽和する)。
しかし、パラメータ更新のスペクトルシグネチャは、アクティベーションに依存している。
σ=x^2$で、ローリング固有ギャップ上の単純な傾斜検出器 σ_2 / σ_3 $ $ $ ΔW $ fires in 15/15 grokking seed at epoch 174 (IQR [173,174]) and in 0/15 non-grokking control, with 229$ \times $ late-stage magnitude separation; the spectrum is rank-2。
対照的に、$ σ= \operatorname{ReLU} $ の場合、検出器は決して発火せず、スペクトルは事実上ランク1のままである。
B $ の符号構造は $ \widetilde{F}^\top \widetilde{F} $ にのみ依存するが、機能の反発が重み付けにどのように変換されるかは、アクティベーション微分 $ σ' $ に大きく依存する。
関連論文リスト
- A Geometric Analysis of Sign-Magnitude Asymmetry in a ReLU + RMSNorm Block under Ternary Quantization [4.778602479004]
RMSNormを許容する3次10,+1重み量子化を持つプレノーム変圧器。
重み摂動の符号-マグニチュード分解による幾何学的説明を与える。
論文 参考訳(メタデータ) (2026-05-18T15:36:33Z) - The Banach-Butterfly Invariant: Influence-Adaptive Walsh Geometry for Ternary Polynomial Threshold Functions [0.0]
Banach-Suttermajority Conditional Factorization (BBT)
BBTは、Walsh-Had0003因子化における影響変種バナッハ幾何学である。
論文 参考訳(メタデータ) (2026-05-02T22:54:29Z) - Activation Saturation and Floquet Spectrum Collapse in Neural ODEs [0.0]
これはフロケスペクトルの崩壊であり、飽和度が深くなるにつれて、全ての指数は0に駆動される。
二次的な寄与として、飽和スペクトル分解(saturation- spectrum factorization)は、フローレベルで$T$で指数関数的に改善された$widetildeC(U)le C(U)$をもたらす。
論文 参考訳(メタデータ) (2026-04-01T06:39:56Z) - The Spectral Edge Thesis: A Mathematical Framework for Intra-Signal Phase Transitions in Neural Network Training [0.0]
ニューラルネットワークトレーニングにおける位相遷移は,パラメータ更新の回転ウィンドウグラム行列のスペクトルギャップによって制御されることを示す。
adiabatic parameter $mathcalA = |G|_F / (, g2)$ control circuit stability: $mathcalA ll 1$ (plateau), $mathcalA sim 1$ (phase transition), $mathcalA gg 1$ (forgetting)
論文 参考訳(メタデータ) (2026-03-30T20:10:22Z) - Tripartite information of free fermions: a universal entanglement coefficient from the sine kernel [51.56484100374058]
自由フェルミオンの3分割情報I_3を3つの隣接する幅wに分割した2次元格子上で検討する。
g(z) は z* = 1.329 +/- 0.001: で一意な零点を持ち、k_F w z* のモードは相互情報の独占に反する。
z ln z の領域法則項と z2 の項の2つの正確なキャンセルは、I_3 の組み合わせに固有のものである。
論文 参考訳(メタデータ) (2026-03-03T15:39:35Z) - Near-Optimal Regret for KL-Regularized Multi-Armed Bandits [54.77408659142336]
KL正規化目標に対するオンライン学習の統計的効率について検討する。
我々は、MABsのKL正規化後悔が$$非依存であることを示し、$tilde(sqrtKT)$とスケールする。
論文 参考訳(メタデータ) (2026-03-02T18:17:33Z) - Variance-Dependent Regret Lower Bounds for Contextual Bandits [65.93854043353328]
これは従来の$tildeO(dsqrtK)$ regret bound to $tildeO(dsqrtsum_k=1Ksigma_k2)$で改善されている。
論文 参考訳(メタデータ) (2025-03-15T07:09:36Z) - A Unified Framework for Uniform Signal Recovery in Nonlinear Generative
Compressed Sensing [68.80803866919123]
非線形測定では、ほとんどの先行結果は一様ではない、すなわち、すべての$mathbfx*$に対してではなく、固定された$mathbfx*$に対して高い確率で保持される。
本フレームワークはGCSに1ビット/一様量子化観測と単一インデックスモデルを標準例として適用する。
また、指標集合が計量エントロピーが低い製品プロセスに対して、より厳密な境界を生み出す濃度不等式も開発する。
論文 参考訳(メタデータ) (2023-09-25T17:54:19Z) - The Sample Complexity of Online Contract Design [120.9833763323407]
オンライン環境での隠れアクションの主エージェント問題について検討する。
各ラウンドにおいて、主席は、各結果に基づいてエージェントへの支払いを指定する契約を投稿する。
エージェントは、自身のユーティリティを最大化する戦略的な行動選択を行うが、プリンシパルによって直接観察できない。
論文 参考訳(メタデータ) (2022-11-10T17:59:42Z) - Spectral properties of sample covariance matrices arising from random
matrices with independent non identically distributed columns [50.053491972003656]
関数 $texttr(AR(z))$, for $R(z) = (frac1nXXT- zI_p)-1$ and $Ain mathcal M_p$ deterministic, have a standard deviation of order $O(|A|_* / sqrt n)$.
ここでは、$|mathbb E[R(z)] - tilde R(z)|_F を示す。
論文 参考訳(メタデータ) (2021-09-06T14:21:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。