論文の概要: Dimensional Criticality at Grokking Across MLPs and Transformers
- arxiv url: http://arxiv.org/abs/2604.16431v1
- Date: Mon, 06 Apr 2026 13:43:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:13.992994
- Title: Dimensional Criticality at Grokking Across MLPs and Transformers
- Title(参考訳): MLPと変圧器のグロキングにおける次元臨界度
- Authors: Ping Wang,
- Abstract要約: 異なる力学系間の急激な遷移は、複雑なシステムの目印である。
オフライン雪崩探査機 textbfTDU-OFC (Thresholded Diffusion Update--Olami-Feder-Christensen) を紹介する。
モジュラー加算と XOR で訓練された一般化を訓練したトランスフォーマーは、拡散ベースラインの局所的交差をD=1$で発見する。
- 参考スコア(独自算出の注目度): 2.652953665748039
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Abrupt transitions between distinct dynamical regimes are a hallmark of complex systems. Grokking in deep neural networks provides a striking example -- an abrupt transition from memorization to generalization long after training accuracy saturates -- yet robust macroscopic signatures of this transition remain elusive. Here we introduce \textbf{TDU--OFC} (Thresholded Diffusion Update--Olami-Feder-Christensen), an offline avalanche probe that converts gradient snapshots into cascade statistics and extracts a \emph{macroscopic observable} -- the time-resolved effective cascade dimension $D(t)$ -- via grokking-aligned finite-size scaling. Across Transformers trained on modular addition and MLPs trained on XOR, we discover a localized dynamical crossing of the Gaussian diffusion baseline $D=1$ precisely at the generalization transition. The crossing direction is task-dependent: modular addition descends through $D=1$ (approaching from $D>1$), while XOR ascends (from $D<1$). This opposite-direction convergence is consistent with attraction toward a candidate shared critical manifold, rather than trivial residence near $D \approx 1$. Negative controls confirm this picture: ungrokked runs remain supercritical ($D>1$) and never enter the post-transition regime. In addition, avalanche distributions exhibit heavy tails and finite-size scaling consistent with the dimensional exponent extracted from $D(t)$. Shadow-probe controls ($α_{\mathrm{train}}=0$) confirm that $D(t)$ is non-invasive, and grokked trajectories diverge from ungrokked ones in $D(t)$ some $100$--$200$ epochs before the behavioral transition.
- Abstract(参考訳): 異なる力学系間の急激な遷移は、複雑なシステムの目印である。
深層ニューラルネットワークのグロッキングは、トレーニングの精度が飽和した後、暗記から一般化への突然の移行という驚くべき例を提供するが、この移行の堅牢なマクロなシグネチャは、いまだ解明されていない。
ここでは、勾配のスナップショットをカスケード統計に変換し、時間分解有効カスケード次元である \emph{macroscopic observable} を抽出するオフラインの雪崩プローブである \textbf{TDU-OFC} (Thresholded Diffusion Update--Olami-Feder-Christensen) を紹介する。
モジュラー加算と XOR で訓練された MLP で訓練された変換器を横切ると、一般化遷移において、ガウス拡散ベースライン $D=1$ の局所的動的交叉が正確に見つかる。
モジュラの追加は$D=1$($D>1$から適用)、XORは$D<1$から上昇する。
この反対方向収束は、$D \approx 1$ に近い自明な住居ではなく、候補共有臨界多様体へのアトラクションと一致している。
負のコントロールは、このイメージを裏付けている: アングロクテッドラン(ungrokked run)は、超臨界(D>1$)のままで、移行後の政権に決して入らない。
さらに、雪崩分布は、$D(t)$から抽出された次元指数と一致する重い尾と有限サイズのスケーリングを示す。
シャドウプロブコントロール (α_{\mathrm{train}}=0$) は、$D(t)$が非侵襲的であることを確認し、Grokked trajectoriesは、動作遷移の前に$D(t)$約100$-$200$ epochsで分岐する。
関連論文リスト
- Universal critical timescales in slow non-Hermitian dynamics [0.0]
非エルミート系は非断熱遷移の遅いパラメトリックループに沿って駆動される。
これらの遷移が発達する臨界時間スケールの$T_mathrmcr$には明確な公式が存在しない。
論文 参考訳(メタデータ) (2026-04-02T11:35:16Z) - The Spectral Edge Thesis: A Mathematical Framework for Intra-Signal Phase Transitions in Neural Network Training [0.0]
ニューラルネットワークトレーニングにおける位相遷移は,パラメータ更新の回転ウィンドウグラム行列のスペクトルギャップによって制御されることを示す。
adiabatic parameter $mathcalA = |G|_F / (, g2)$ control circuit stability: $mathcalA ll 1$ (plateau), $mathcalA sim 1$ (phase transition), $mathcalA gg 1$ (forgetting)
論文 参考訳(メタデータ) (2026-03-30T20:10:22Z) - Scaling Up Liquid-Resistance Liquid-Capacitance Networks for Efficient Sequence Modeling [50.994194925685434]
LrcSSMは$textitnon-linear$リカレントモデルで、現在の線形状態空間層と同じくらい高速に長いシーケンスを処理する。
ヤコビ行列を対角線に強制することにより、全列を並列に解くことができる。
LrcSSMは、Liquid-S4のような他の入力変化系が提供しないことを保証する形式的な勾配安定性を提供する。
論文 参考訳(メタデータ) (2025-05-27T20:02:59Z) - Emergence and scaling laws in SGD learning of shallow neural networks [64.48316762675141]
等方性ガウスデータに基づいてP$ニューロンを持つ2層ニューラルネットワークを学習するためのオンライン勾配降下(SGD)の複雑さについて検討した。
平均二乗誤差(MSE)を最小化するために,学生2層ネットワークのトレーニングのためのSGDダイナミックスを高精度に解析する。
論文 参考訳(メタデータ) (2025-04-28T16:58:55Z) - Improved Algorithm for Adversarial Linear Mixture MDPs with Bandit
Feedback and Unknown Transition [71.33787410075577]
線形関数近似,未知遷移,および逆損失を用いた強化学習について検討した。
我々は高い確率で$widetildeO(dsqrtHS3K + sqrtHSAK)$ regretを実現する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-07T15:03:50Z) - Large Stepsize Gradient Descent for Logistic Loss: Non-Monotonicity of the Loss Improves Optimization Efficiency [47.8739414267201]
線形分離可能なデータを用いたロジスティック回帰に一定の段差を持つ勾配降下(GD)を考える。
GD はこの初期振動位相を急速に終了し、$mathcalO(eta)$ steps となり、その後$tildemathcalO (1 / (eta t) )$ convergence rate が得られることを示す。
我々の結果は、予算が$T$ ステップであれば、GD は攻撃的なステップサイズで $tildemathcalO (1/T2)$ の加速損失を達成できることを示している。
論文 参考訳(メタデータ) (2024-02-24T23:10:28Z) - Measurement-induced phase transition for free fermions above one dimension [46.176861415532095]
自由フェルミオンモデルに対する$d>1$次元における測定誘起エンタングルメント相転移の理論を開発した。
臨界点は、粒子数と絡み合いエントロピーの第2累積のスケーリング$$elld-1 ln ell$でギャップのない位相を分離する。
論文 参考訳(メタデータ) (2023-09-21T18:11:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。