論文の概要: Renormalizable Spectral-Shell Dynamics as the Origin of Neural Scaling Laws
- arxiv url: http://arxiv.org/abs/2512.10427v2
- Date: Mon, 15 Dec 2025 06:45:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 15:10:29.232731
- Title: Renormalizable Spectral-Shell Dynamics as the Origin of Neural Scaling Laws
- Title(参考訳): ニューラルスケーリング法則の起源としての正規化可能なスペクトルシェルダイナミクス
- Authors: Yizhou Zhang,
- Abstract要約: 高い非線形最適化ダイナミクスにもかかわらず、ディープ・ネットワーク・トレーニングは単純なマクロ構造に従うことを示す。
平均二乗誤差損失の場合、トレーニングエラーは$dot e_t=-M(t)e_t$と$M(t)=J_(t)J_(t)!*$として進化する。
このフレームワークは、ニューラルスケーリング法則と二重降下を説明し、遅延(NTKライクな)トレーニングと特徴学習を同一スペクトルシェルの2つの限界として統一する。
- 参考スコア(独自算出の注目度): 2.779943773196378
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural scaling laws and double-descent phenomena suggest that deep-network training obeys a simple macroscopic structure despite highly nonlinear optimization dynamics. We derive such structure directly from gradient descent in function space. For mean-squared error loss, the training error evolves as $\dot e_t=-M(t)e_t$ with $M(t)=J_{θ(t)}J_{θ(t)}^{\!*}$, a time-dependent self-adjoint operator induced by the network Jacobian. Using Kato perturbation theory, we obtain an exact system of coupled modewise ODEs in the instantaneous eigenbasis of $M(t)$. To extract macroscopic behavior, we introduce a logarithmic spectral-shell coarse-graining and track quadratic error energy across shells. Microscopic interactions within each shell cancel identically at the energy level, so shell energies evolve only through dissipation and external inter-shell interactions. We formalize this via a \emph{renormalizable shell-dynamics} assumption, under which cumulative microscopic effects reduce to a controlled net flux across shell boundaries. Assuming an effective power-law spectral transport in a relevant resolution range, the shell dynamics admits a self-similar solution with a moving resolution frontier and explicit scaling exponents. This framework explains neural scaling laws and double descent, and unifies lazy (NTK-like) training and feature learning as two limits of the same spectral-shell dynamics.
- Abstract(参考訳): ニューラルスケーリング法則と二重発振現象は、非常に非線形な最適化力学にもかかわらず、ディープネットワークトレーニングが単純なマクロ構造に従うことを示唆している。
関数空間の勾配降下から直接そのような構造を導出する。
平均二乗誤差損失の場合、トレーニングエラーは$\dot e_t=-M(t)e_t$と$M(t)=J_{θ(t)}J_{θ(t)}^{\!
*}$ はネットワークヤコビアンによって誘導される時間依存の自己随伴作用素である。
加藤摂動理論を用いて、M(t)$の即時固有ベイズにおいて、結合モードワイドODEの正確な系を得る。
マクロな振る舞いを抽出するために,対数スペクトル殻粗粒化法を導入し,殻の2次誤差エネルギーを追跡する。
各シェル内の顕微鏡的相互作用はエネルギーレベルで同一にキャンセルされるため、シェルエネルギーは散逸と外殻間相互作用によってのみ進化する。
我々はこれを、累積的な顕微鏡効果が殻の境界を越えて制御されたネットフラックスに還元される「emph{renormalizable shell-dynamics}」仮定で定式化する。
有効なパワーロースペクトル輸送を関連する解像度範囲で仮定すると、シェルダイナミクスは、移動解像度フロンティアと明示的なスケーリング指数を持つ自己相似解を許容する。
このフレームワークは、ニューラルスケーリング法則と二重降下を説明し、遅延(NTKライクな)トレーニングと特徴学習を、同じスペクトルシェルダイナミクスの2つの限界として統一する。
関連論文リスト
- Lazy Diffusion: Mitigating spectral collapse in generative diffusion-based stable autoregressive emulation of turbulent flows [0.0]
標準DDPMは基本的な赤外崩壊を引き起こすことを示す。
拡散時間内に微細構造を深く保存するパワー・ロー・スケジュールを導入する。
これらの手法はレイノルズ数2Dコルモゴロフ乱流とメキシコ湾の1/12円の海面再解析に応用される。
論文 参考訳(メタデータ) (2025-12-10T12:05:32Z) - DimINO: Dimension-Informed Neural Operator Learning [41.37905663176428]
Diminoは次元分析にインスパイアされたフレームワークである。
既存のニューラル演算子アーキテクチャにシームレスに統合することができる。
PDEデータセットで最大76.3%のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2024-10-08T10:48:50Z) - Hamiltonian Mechanics of Feature Learning: Bottleneck Structure in Leaky ResNets [58.460298576330835]
ResNets と Fully-Connected Nets を相互接続する Leaky ResNets について「有効深度」に依存して検討する。
この直感を利用して、以前の研究で見られるように、ボトルネック構造の出現を説明する。
論文 参考訳(メタデータ) (2024-05-27T18:15:05Z) - Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Implicit Bias of MSE Gradient Optimization in Underparameterized Neural
Networks [0.0]
勾配流による平均二乗誤差の最適化において,関数空間におけるニューラルネットワークのダイナミクスについて検討する。
ニューラルタンジェントカーネル(NTK)により決定された積分作用素$T_Kinfty$の固有関数をネットワークが学習することを示す。
減衰偏差は2乗誤差を最適化する際の力学の単純かつ統一的な視点を与えると結論付けている。
論文 参考訳(メタデータ) (2022-01-12T23:28:41Z) - The Limiting Dynamics of SGD: Modified Loss, Phase Space Oscillations,
and Anomalous Diffusion [29.489737359897312]
勾配降下法(SGD)を訓練した深部ニューラルネットワークの限界ダイナミクスについて検討する。
これらのダイナミクスを駆動する重要な要素は、本来のトレーニング損失ではなく、位相空間の振動を引き起こす速度と確率電流を暗黙的に規則化する修正損失の組み合わせであることを示す。
論文 参考訳(メタデータ) (2021-07-19T20:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。