論文の概要: The Spectral Edge Thesis: A Mathematical Framework for Intra-Signal Phase Transitions in Neural Network Training
- arxiv url: http://arxiv.org/abs/2603.28964v1
- Date: Mon, 30 Mar 2026 20:10:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:02.765076
- Title: The Spectral Edge Thesis: A Mathematical Framework for Intra-Signal Phase Transitions in Neural Network Training
- Title(参考訳): スペクトルエッジ論:ニューラルネットワークトレーニングにおける信号内相転移の数学的枠組み
- Authors: Yongzhong Xu,
- Abstract要約: ニューラルネットワークトレーニングにおける位相遷移は,パラメータ更新の回転ウィンドウグラム行列のスペクトルギャップによって制御されることを示す。
adiabatic parameter $mathcalA = |G|_F / (, g2)$ control circuit stability: $mathcalA ll 1$ (plateau), $mathcalA sim 1$ (phase transition), $mathcalA gg 1$ (forgetting)
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We develop the spectral edge thesis: phase transitions in neural network training -- grokking, capability gains, loss plateaus -- are controlled by the spectral gap of the rolling-window Gram matrix of parameter updates. In the extreme aspect ratio regime (parameters $P \sim 10^8$, window $W \sim 10$), the classical BBP detection threshold is vacuous; the operative structure is the intra-signal gap separating dominant from subdominant modes at position $k^* = \mathrm{argmax}\, σ_j/σ_{j+1}$. From three axioms we derive: (i) gap dynamics governed by a Dyson-type ODE with curvature asymmetry, damping, and gradient driving; (ii) a spectral loss decomposition linking each mode's learning contribution to its Davis--Kahan stability coefficient; (iii) the Gap Maximality Principle, showing that $k^*$ is the unique dynamically privileged position -- its collapse is the only one that disrupts learning, and it sustains itself through an $α$-feedback loop requiring no assumption on the optimizer. The adiabatic parameter $\mathcal{A} = \|ΔG\|_F / (η\, g^2)$ controls circuit stability: $\mathcal{A} \ll 1$ (plateau), $\mathcal{A} \sim 1$ (phase transition), $\mathcal{A} \gg 1$ (forgetting). Tested across six model families (150K--124M parameters): gap dynamics precede every grokking event (24/24 with weight decay, 0/24 without), the gap position is optimizer-dependent (Muon: $k^*=1$, AdamW: $k^*=2$ on the same model), and 19/20 quantitative predictions are confirmed. The framework is consistent with the edge of stability, Tensor Programs, Dyson Brownian motion, the Lottery Ticket Hypothesis, and neural scaling laws.
- Abstract(参考訳): ニューラルネットワークトレーニングにおける位相遷移(グラッキング、能力ゲイン、損失プラトー)は、パラメータ更新のローリングウィンドウグラムマトリックスのスペクトルギャップによって制御される。
極端アスペクト比 (parameters $P \sim 10^8$, window $W \sim 10$) では、古典的なBBP検出しきい値は空白であり、操作構造は、位置 $k^* = \mathrm{argmax}\, σ_j/σ_{j+1}$ の下位モードから支配される信号内ギャップである。
3つの公理から導かれる。
一 曲率非対称性、減衰及び勾配駆動を有するダイソン型ODEが支配するギャップダイナミクス
(二)各モードの学習貢献をデイビス-カハン安定係数に結びつけるスペクトル損失分解
(iii) Gap Maximality Principleは、$k^*$がユニークな動的特権のある位置であることを示します。
adiabatic parameter $\mathcal{A} = \|ΔG\|_F / (η\, g^2)$ control circuit stability: $\mathcal{A} \ll 1$ (plateau), $\mathcal{A} \sim 1$ (phase transition), $\mathcal{A} \gg 1$ (forgetting)。
6つのモデルファミリー(150K--124Mパラメータ)で試験されたギャップダイナミクスは、すべてのグルーキングイベント(24/24、体重減少0/24)に先行し、ギャップ位置はオプティマイザ依存(Muon: $k^*=1$、AdamW: $k^*=2$、同じモデルで$k^*=2$)であり、19/20の定量的予測が確認される。
このフレームワークは安定性の最先端、テンソルプログラム、ダイソン・ブラウン運動、ロッテリー・ティケット仮説、ニューラルスケーリング法則と一致している。
関連論文リスト
- Avoiding Premature Collapse: Adaptive Annealing for Entropy-Regularized Structural Inference [1.7523718031184992]
この障害の基本的なメカニズムは、 textbf Premature Mode Collapseである。
提案手法は,適応型スケジューリングアルゴリズムであるtextbfEfficient Piecewise Hybrid Adaptive Stability Control (EPH-ASC) で,推論過程の安定性をモニタする。
論文 参考訳(メタデータ) (2026-01-30T14:47:18Z) - INC: An Indirect Neural Corrector for Auto-Regressive Hybrid PDE Solvers [61.84396402100827]
本稿では,学習した補正を支配方程式に統合する間接ニューラルコレクタ(mathrmINC$)を提案する。
$mathrmINC$は、$t-1 + L$の順番でエラー増幅を減らし、$t$はタイムステップ、$L$はリプシッツ定数である。
大規模なベンチマークで$mathrmINC$をテストし、1Dカオスシステムから3D乱流まで、多くの異なる解法、神経バックボーン、テストケースをカバーした。
論文 参考訳(メタデータ) (2025-11-16T20:14:28Z) - Spectral statistics and energy-gap scaling in $k-$local spin Hamiltonians [0.0]
正確な$k$スピンに作用する全ての相互作用するスピンハミルトニアンのスペクトル特性について検討する。
$mu = 0$ の場合、ランダム行列のアンサンブルはシステムサイズ $L$ と局所性 $k$ のパリティによって決定されることを示す。
本研究では,確率行列統計学の普遍的特徴とスペクトルギャップ形成を捉える半可解モデルを提案する。
論文 参考訳(メタデータ) (2025-10-17T17:11:38Z) - Emergence and scaling laws in SGD learning of shallow neural networks [64.48316762675141]
等方性ガウスデータに基づいてP$ニューロンを持つ2層ニューラルネットワークを学習するためのオンライン勾配降下(SGD)の複雑さについて検討した。
平均二乗誤差(MSE)を最小化するために,学生2層ネットワークのトレーニングのためのSGDダイナミックスを高精度に解析する。
論文 参考訳(メタデータ) (2025-04-28T16:58:55Z) - Improved Algorithm for Adversarial Linear Mixture MDPs with Bandit
Feedback and Unknown Transition [71.33787410075577]
線形関数近似,未知遷移,および逆損失を用いた強化学習について検討した。
我々は高い確率で$widetildeO(dsqrtHS3K + sqrtHSAK)$ regretを実現する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-07T15:03:50Z) - Generalization and Stability of Interpolating Neural Networks with
Minimal Width [37.908159361149835]
補間系における勾配によって訓練された浅層ニューラルネットワークの一般化と最適化について検討する。
トレーニング損失数は$m=Omega(log4 (n))$ニューロンとニューロンを最小化する。
m=Omega(log4 (n))$のニューロンと$Tapprox n$で、テスト損失のトレーニングを$tildeO (1/)$に制限します。
論文 参考訳(メタデータ) (2023-02-18T05:06:15Z) - High-dimensional Asymptotics of Feature Learning: How One Gradient Step
Improves the Representation [89.21686761957383]
2層ネットワークにおける第1層パラメータ $boldsymbolW$ の勾配降下ステップについて検討した。
我々の結果は、一つのステップでもランダムな特徴に対してかなりの優位性が得られることを示した。
論文 参考訳(メタデータ) (2022-05-03T12:09:59Z) - An Improved Analysis of Gradient Tracking for Decentralized Machine
Learning [34.144764431505486]
トレーニングデータが$n$エージェントに分散されるネットワーク上での分散機械学習を検討する。
エージェントの共通の目標は、すべての局所損失関数の平均を最小化するモデルを見つけることである。
ノイズのない場合、$p$を$mathcalO(p-1)$から$mathcalO(p-1)$に改善します。
論文 参考訳(メタデータ) (2022-02-08T12:58:14Z) - Beyond Lazy Training for Over-parameterized Tensor Decomposition [69.4699995828506]
過度なパラメータ化対象の勾配勾配は遅延学習体制を超え、データ中の特定の低ランク構造を利用する可能性があることを示す。
以上の結果から,過パラメータ化対象の勾配勾配は遅延学習体制を超え,データ中の特定の低ランク構造を利用する可能性が示唆された。
論文 参考訳(メタデータ) (2020-10-22T00:32:12Z) - Agnostic Learning of a Single Neuron with Gradient Descent [92.7662890047311]
期待される正方形損失から、最も適合した単一ニューロンを学習することの問題点を考察する。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
論文 参考訳(メタデータ) (2020-05-29T07:20:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。