論文の概要: Renormalizable Spectral-Shell Dynamics as the Origin of Neural Scaling Laws
- arxiv url: http://arxiv.org/abs/2512.10427v2
- Date: Mon, 15 Dec 2025 06:45:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 15:10:29.232731
- Title: Renormalizable Spectral-Shell Dynamics as the Origin of Neural Scaling Laws
- Title(参考訳): ニューラルスケーリング法則の起源としての正規化可能なスペクトルシェルダイナミクス
- Authors: Yizhou Zhang,
- Abstract要約: 高い非線形最適化ダイナミクスにもかかわらず、ディープ・ネットワーク・トレーニングは単純なマクロ構造に従うことを示す。
平均二乗誤差損失の場合、トレーニングエラーは$dot e_t=-M(t)e_t$と$M(t)=J_(t)J_(t)!*$として進化する。
このフレームワークは、ニューラルスケーリング法則と二重降下を説明し、遅延(NTKライクな)トレーニングと特徴学習を同一スペクトルシェルの2つの限界として統一する。
- 参考スコア(独自算出の注目度): 2.779943773196378
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural scaling laws and double-descent phenomena suggest that deep-network training obeys a simple macroscopic structure despite highly nonlinear optimization dynamics. We derive such structure directly from gradient descent in function space. For mean-squared error loss, the training error evolves as $\dot e_t=-M(t)e_t$ with $M(t)=J_{θ(t)}J_{θ(t)}^{\!*}$, a time-dependent self-adjoint operator induced by the network Jacobian. Using Kato perturbation theory, we obtain an exact system of coupled modewise ODEs in the instantaneous eigenbasis of $M(t)$. To extract macroscopic behavior, we introduce a logarithmic spectral-shell coarse-graining and track quadratic error energy across shells. Microscopic interactions within each shell cancel identically at the energy level, so shell energies evolve only through dissipation and external inter-shell interactions. We formalize this via a \emph{renormalizable shell-dynamics} assumption, under which cumulative microscopic effects reduce to a controlled net flux across shell boundaries. Assuming an effective power-law spectral transport in a relevant resolution range, the shell dynamics admits a self-similar solution with a moving resolution frontier and explicit scaling exponents. This framework explains neural scaling laws and double descent, and unifies lazy (NTK-like) training and feature learning as two limits of the same spectral-shell dynamics.
- Abstract(参考訳): ニューラルスケーリング法則と二重発振現象は、非常に非線形な最適化力学にもかかわらず、ディープネットワークトレーニングが単純なマクロ構造に従うことを示唆している。
関数空間の勾配降下から直接そのような構造を導出する。
平均二乗誤差損失の場合、トレーニングエラーは$\dot e_t=-M(t)e_t$と$M(t)=J_{θ(t)}J_{θ(t)}^{\!
*}$ はネットワークヤコビアンによって誘導される時間依存の自己随伴作用素である。
加藤摂動理論を用いて、M(t)$の即時固有ベイズにおいて、結合モードワイドODEの正確な系を得る。
マクロな振る舞いを抽出するために,対数スペクトル殻粗粒化法を導入し,殻の2次誤差エネルギーを追跡する。
各シェル内の顕微鏡的相互作用はエネルギーレベルで同一にキャンセルされるため、シェルエネルギーは散逸と外殻間相互作用によってのみ進化する。
我々はこれを、累積的な顕微鏡効果が殻の境界を越えて制御されたネットフラックスに還元される「emph{renormalizable shell-dynamics}」仮定で定式化する。
有効なパワーロースペクトル輸送を関連する解像度範囲で仮定すると、シェルダイナミクスは、移動解像度フロンティアと明示的なスケーリング指数を持つ自己相似解を許容する。
このフレームワークは、ニューラルスケーリング法則と二重降下を説明し、遅延(NTKライクな)トレーニングと特徴学習を、同じスペクトルシェルダイナミクスの2つの限界として統一する。
関連論文リスト
- When Does Learning Renormalize? Sufficient Conditions for Power Law Spectral Dynamics [2.779943773196378]
実証的なパワー-法則のスケーリングは、現代のディープラーニングシステムで広く観測されている。
パワー則のスケーリングは、再正規化可能性のみに従わず、剛性の結果として現れることを示す。
論文 参考訳(メタデータ) (2025-12-20T04:15:07Z) - Gradient Descent as a Perceptron Algorithm: Understanding Dynamics and Implicit Acceleration [67.12978375116599]
勾配降下(GD)のステップが一般化されたパーセプトロンアルゴリズムのステップに還元されることを示す。
これは、ニューラルネットワークで観測される最適化力学と暗黙の加速現象を説明するのに役立つ。
論文 参考訳(メタデータ) (2025-12-12T14:16:35Z) - Lazy Diffusion: Mitigating spectral collapse in generative diffusion-based stable autoregressive emulation of turbulent flows [0.0]
標準DDPMは基本的な赤外崩壊を引き起こすことを示す。
拡散時間内に微細構造を深く保存するパワー・ロー・スケジュールを導入する。
これらの手法はレイノルズ数2Dコルモゴロフ乱流とメキシコ湾の1/12円の海面再解析に応用される。
論文 参考訳(メタデータ) (2025-12-10T12:05:32Z) - Fast-Forward Lattice Boltzmann: Learning Kinetic Behaviour with Physics-Informed Neural Operators [37.65214107289304]
格子ボルツマン方程式(LBE)のための物理インフォームドニューラルネットワークフレームワークを提案する。
我々のフレームワークは離散化不変であり、粗い格子で訓練されたモデルをより微細なものに一般化することができる。
その結果,von Karman vortex shedding, ligament breakup, bubble adhesionなどの複雑な流れシナリオの堅牢性を示した。
論文 参考訳(メタデータ) (2025-09-26T14:36:23Z) - Enabling Automatic Differentiation with Mollified Graph Neural Operators [73.52999622724101]
本稿では,自動微分と任意のジオメトリの正確な勾配を求める最初の手法であるモリファイドグラフニューラル演算子(m$GNO)を提案する。
正規格子上のPDEの例では、$m$GNOとオートグレードの組み合わせにより、L2相対データの誤差は有限差に比べて20倍減少した。
また、物理損失のみを使用し、有限差分に必要な分解能よりもはるかに低い精度で、非構造化点雲上のPDEをシームレスに解くことができる。
論文 参考訳(メタデータ) (2025-04-11T06:16:30Z) - DimINO: Dimension-Informed Neural Operator Learning [41.37905663176428]
Diminoは次元分析にインスパイアされたフレームワークである。
既存のニューラル演算子アーキテクチャにシームレスに統合することができる。
PDEデータセットで最大76.3%のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2024-10-08T10:48:50Z) - Hamiltonian Mechanics of Feature Learning: Bottleneck Structure in Leaky ResNets [58.460298576330835]
ResNets と Fully-Connected Nets を相互接続する Leaky ResNets について「有効深度」に依存して検討する。
この直感を利用して、以前の研究で見られるように、ボトルネック構造の出現を説明する。
論文 参考訳(メタデータ) (2024-05-27T18:15:05Z) - Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。
本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文 参考訳(メタデータ) (2024-04-29T15:04:07Z) - Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Quantum Simulation of Lindbladian Dynamics via Repeated Interactions [0.5097809301149342]
我々は、繰り返し相互作用(RI) CPTPマップに基づくリンドブラディアン力学と進化の近似対応を利用する。
弱結合極限における誤差$epsilon$スケールにおいて、Liouvillian $etmathcalL$をシミュレートするために必要な相互作用の数を示す。
論文 参考訳(メタデータ) (2023-12-08T21:17:16Z) - Quantum simulation of dissipation for Maxwell equations in dispersive media [0.0]
散逸は古典マックスウェル方程式のシュル「オーディンガー」表現に、$r$次元部分空間を占有するスパース対角作用素として現れる。
ユニタリ演算子は、$n$ qubits上のqubit graph algorithm (QLA)を通して実装することができる。
非単体散逸部は、量子コンピュータ上でどのように実装されるべきかという課題を提起する。
論文 参考訳(メタデータ) (2023-07-31T18:22:40Z) - Implicit Bias of MSE Gradient Optimization in Underparameterized Neural
Networks [0.0]
勾配流による平均二乗誤差の最適化において,関数空間におけるニューラルネットワークのダイナミクスについて検討する。
ニューラルタンジェントカーネル(NTK)により決定された積分作用素$T_Kinfty$の固有関数をネットワークが学習することを示す。
減衰偏差は2乗誤差を最適化する際の力学の単純かつ統一的な視点を与えると結論付けている。
論文 参考訳(メタデータ) (2022-01-12T23:28:41Z) - The Limiting Dynamics of SGD: Modified Loss, Phase Space Oscillations,
and Anomalous Diffusion [29.489737359897312]
勾配降下法(SGD)を訓練した深部ニューラルネットワークの限界ダイナミクスについて検討する。
これらのダイナミクスを駆動する重要な要素は、本来のトレーニング損失ではなく、位相空間の振動を引き起こす速度と確率電流を暗黙的に規則化する修正損失の組み合わせであることを示す。
論文 参考訳(メタデータ) (2021-07-19T20:18:57Z) - Spectral Analysis of Product Formulas for Quantum Simulation [0.0]
本研究では,大規模なシステムに対して,$epsilon$から$epsilon1/2$へのスケーリングにおいて,精度の高いエネルギー固有値を推定するために必要なトロッターステップサイズを改善することができることを示す。
結果は部分的にダイアバティックなプロセスに一般化され、このプロセスはスペクトルの残りの部分からギャップによって分離された狭いエネルギーバンドに留まる。
論文 参考訳(メタデータ) (2021-02-25T03:17:25Z) - Quantum Algorithms for Simulating the Lattice Schwinger Model [63.18141027763459]
NISQとフォールトトレラントの両方の設定で格子シュウィンガーモデルをシミュレートするために、スケーラブルで明示的なデジタル量子アルゴリズムを提供する。
格子単位において、結合定数$x-1/2$と電場カットオフ$x-1/2Lambda$を持つ$N/2$物理サイト上のシュウィンガーモデルを求める。
NISQと耐故障性の両方でコストがかかるオブザーバブルを、単純なオブザーバブルとして推定し、平均ペア密度を推定する。
論文 参考訳(メタデータ) (2020-02-25T19:18:36Z) - Anisotropy-mediated reentrant localization [62.997667081978825]
2次元双極子系、$d=2$、一般化双極子-双極子相互作用$sim r-a$、トラップイオン系やリドバーグ原子系で実験的に制御されたパワー$a$を考える。
異方性双極子交換を引き起こす双極子の空間的に均質な傾き$$beta$は、ロケータ展開を超えた非自明な再帰的局在をもたらすことを示す。
論文 参考訳(メタデータ) (2020-01-31T19:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。