論文の概要: The Operator Origins of Neural Scaling Laws: A Generalized Spectral Transport Dynamics of Deep Learning
- arxiv url: http://arxiv.org/abs/2512.10427v1
- Date: Thu, 11 Dec 2025 08:38:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.285114
- Title: The Operator Origins of Neural Scaling Laws: A Generalized Spectral Transport Dynamics of Deep Learning
- Title(参考訳): ニューラルスケーリング法則の演算子の起源--ディープラーニングのスペクトル輸送ダイナミクスの一般化
- Authors: Yizhou Zhang,
- Abstract要約: 我々は、勾配降下から直接ニューラルトレーニングダイナミクスの統一演算子理論記述を導出する。
神経トレーニングは機能的正則性を保ち、ドリフトは摂動力の法則を$v(,t)sim -c(t)bとする。
この結果は,演算子幾何,最適化力学,および現代のディープネットワークの普遍的スケーリング挙動を結合する統一的なスペクトルフレームワークを提供する。
- 参考スコア(独自算出の注目度): 2.779943773196378
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern deep networks operate in a rough, finite-regularity regime where Jacobian-induced operators exhibit heavy-tailed spectra and strong basis drift. In this work, we derive a unified operator-theoretoretic description of neural training dynamics directly from gradient descent. Starting from the exact evolution $\dot e_t = -M(t)e_t$ in function space, we apply Kato perturbation theory to obtain a rigorous system of coupled mode ODEs and show that, after coarse-graining, these dynamics converge to a spectral transport--dissipation PDE \[ \partial_t g + \partial_λ(v g) = -λg + S, \] where $v$ captures eigenbasis drift and $S$ encodes nonlocal spectral coupling. We prove that neural training preserves functional regularity, forcing the drift to take an asymptotic power-law form $v(λ,t)\sim -c(t)λ^b$. In the weak-coupling regime -- naturally induced by spectral locality and SGD noise -- the PDE admits self-similar solutions with a resolution frontier, polynomial amplitude growth, and power-law dissipation. This structure yields explicit scaling-law exponents, explains the geometry of double descent, and shows that the effective training time satisfies $τ(t)=t^αL(t)$ for slowly varying $L$. Finally, we show that NTK training and feature learning arise as two limits of the same PDE: $v\equiv 0$ recovers lazy dynamics, while $v\neq 0$ produces representation drift. Our results provide a unified spectral framework connecting operator geometry, optimization dynamics, and the universal scaling behavior of modern deep networks.
- Abstract(参考訳): 現代のディープ・ネットワークは、ヤコビアンによって誘導される作用素が重尾スペクトルと強い基底ドリフトを示す粗い有限規則性体制で運営されている。
本研究では、勾配降下から直接ニューラルトレーニングダイナミクスの統一演算子-理論記述を導出する。
関数空間における正確な進化 $\dot e_t = -M(t)e_t$ から、加藤摂動理論を用いて結合モードODEの厳密な系を求め、粗粒化した後、これらのダイナミクスはスペクトル輸送-散逸PDE \[ \partial_t g + \partial_λ(vg) = -λg + S, \] に収束することを示す。
ニューラルトレーニングが機能的正則性を保つことを証明し、ドリフトが漸近的なパワー・ロー形式を$v(λ,t)\sim -c(t)λ^b$ とすることを強制する。
スペクトル局所性とSGDノイズによって自然に引き起こされる弱い結合状態において、PDEは、分解フロンティア、多項式振幅の増大、およびパワー-ローの散逸を伴う自己相似解を認めている。
この構造は明示的なスケーリング則指数を生成し、二重降下の幾何学を説明し、実効訓練時間はゆっくりと変化する$L$に対して$τ(t)=t^αL(t)$を満たすことを示す。
最後に、NTKトレーニングと特徴学習は、同じPDEの2つの限界として生じることを示す: $v\equiv 0$は遅延ダイナミクスを回復し、$v\neq 0$は表現ドリフトを生成する。
この結果は,演算子幾何,最適化力学,および現代のディープネットワークの普遍的スケーリング挙動を結合する統一的なスペクトルフレームワークを提供する。
関連論文リスト
- Lazy Diffusion: Mitigating spectral collapse in generative diffusion-based stable autoregressive emulation of turbulent flows [0.0]
標準DDPMは基本的な赤外崩壊を引き起こすことを示す。
拡散時間内に微細構造を深く保存するパワー・ロー・スケジュールを導入する。
これらの手法はレイノルズ数2Dコルモゴロフ乱流とメキシコ湾の1/12円の海面再解析に応用される。
論文 参考訳(メタデータ) (2025-12-10T12:05:32Z) - DimINO: Dimension-Informed Neural Operator Learning [41.37905663176428]
Diminoは次元分析にインスパイアされたフレームワークである。
既存のニューラル演算子アーキテクチャにシームレスに統合することができる。
PDEデータセットで最大76.3%のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2024-10-08T10:48:50Z) - Hamiltonian Mechanics of Feature Learning: Bottleneck Structure in Leaky ResNets [58.460298576330835]
ResNets と Fully-Connected Nets を相互接続する Leaky ResNets について「有効深度」に依存して検討する。
この直感を利用して、以前の研究で見られるように、ボトルネック構造の出現を説明する。
論文 参考訳(メタデータ) (2024-05-27T18:15:05Z) - Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Implicit Bias of MSE Gradient Optimization in Underparameterized Neural
Networks [0.0]
勾配流による平均二乗誤差の最適化において,関数空間におけるニューラルネットワークのダイナミクスについて検討する。
ニューラルタンジェントカーネル(NTK)により決定された積分作用素$T_Kinfty$の固有関数をネットワークが学習することを示す。
減衰偏差は2乗誤差を最適化する際の力学の単純かつ統一的な視点を与えると結論付けている。
論文 参考訳(メタデータ) (2022-01-12T23:28:41Z) - The Limiting Dynamics of SGD: Modified Loss, Phase Space Oscillations,
and Anomalous Diffusion [29.489737359897312]
勾配降下法(SGD)を訓練した深部ニューラルネットワークの限界ダイナミクスについて検討する。
これらのダイナミクスを駆動する重要な要素は、本来のトレーニング損失ではなく、位相空間の振動を引き起こす速度と確率電流を暗黙的に規則化する修正損失の組み合わせであることを示す。
論文 参考訳(メタデータ) (2021-07-19T20:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。