論文の概要: When Does Learning Renormalize? Sufficient Conditions for Power Law Spectral Dynamics
- arxiv url: http://arxiv.org/abs/2512.18209v2
- Date: Thu, 25 Dec 2025 19:43:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-29 13:23:29.783863
- Title: When Does Learning Renormalize? Sufficient Conditions for Power Law Spectral Dynamics
- Title(参考訳): 学習はいつ正規化されるか : パワーロースペクトルダイナミクスのための十分条件
- Authors: Yizhou Zhang,
- Abstract要約: 実証的なパワー-法則のスケーリングは、現代のディープラーニングシステムで広く観測されている。
パワー則のスケーリングは、再正規化可能性のみに従わず、剛性の結果として現れることを示す。
- 参考スコア(独自算出の注目度): 2.779943773196378
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Empirical power--law scaling has been widely observed across modern deep learning systems, yet its theoretical origins and scope of validity remain incompletely understood. The Generalized Resolution--Shell Dynamics (GRSD) framework models learning as spectral energy transport across logarithmic resolution shells, providing a coarse--grained dynamical description of training. Within GRSD, power--law scaling corresponds to a particularly simple renormalized shell dynamics; however, such behavior is not automatic and requires additional structural properties of the learning process. In this work, we identify a set of sufficient conditions under which the GRSD shell dynamics admits a renormalizable coarse--grained description. These conditions constrain the learning configuration at multiple levels, including boundedness of gradient propagation in the computation graph, weak functional incoherence at initialization, controlled Jacobian evolution along training, and log--shift invariance of renormalized shell couplings. We further show that power--law scaling does not follow from renormalizability alone, but instead arises as a rigidity consequence: once log--shift invariance is combined with the intrinsic time--rescaling covariance of gradient flow, the renormalized GRSD velocity field is forced into a power--law form.
- Abstract(参考訳): 実証的なパワーロースケーリングは、現代のディープラーニングシステムで広く観測されているが、その理論的起源と妥当性の範囲は不完全なままである。一般化分解能-シェルダイナミクス(GRSD)フレームワークは、対数分解能シェルを横断するスペクトルエネルギー輸送として学習し、トレーニングの粗い粒度の動的記述を提供する。GRSDでは、パワーロースケーリングは特に単純な再正規化シェルダイナミックスに対応しているが、そのような振る舞いは自動ではなく、学習プロセスのさらなる構造的特性を必要とする。
本研究では,GRSDシェル力学が正規化可能な粗粒度記述を許容する十分条件の集合を同定する。これらの条件は,計算グラフにおける勾配伝播の有界性,初期化時の機能的不整合性の弱さ,訓練に伴うジャコビアン進化の制御,再正規化シェル結合の対数シフト不変性など,複数のレベルでの学習構成を制約する。
対数シフト不変性と直交時間-直交する勾配流の共分散が組み合わされば、再正規化GRSD速度場は電力則形式に強制される。
関連論文リスト
- Renormalizable Spectral-Shell Dynamics as the Origin of Neural Scaling Laws [2.779943773196378]
高い非線形最適化ダイナミクスにもかかわらず、ディープ・ネットワーク・トレーニングは単純なマクロ構造に従うことを示す。
平均二乗誤差損失の場合、トレーニングエラーは$dot e_t=-M(t)e_t$と$M(t)=J_(t)J_(t)!*$として進化する。
このフレームワークは、ニューラルスケーリング法則と二重降下を説明し、遅延(NTKライクな)トレーニングと特徴学習を同一スペクトルシェルの2つの限界として統一する。
論文 参考訳(メタデータ) (2025-12-11T08:38:46Z) - Fast Escape, Slow Convergence: Learning Dynamics of Phase Retrieval under Power-Law Data [15.766916122461923]
スケーリング法則は、データ、計算、トレーニング時間によって学習のパフォーマンスがどのように改善され、現代のディープラーニングにおける中心的なテーマとなったかを記述している。
共分散スペクトルがパワー則に従う異方性ガウス入力による位相探索を正準非線形モデルで行う。
力学が二次元系に崩壊する等方性の場合とは異なり、異方性は、方程式の無限階層が要約統計の進化を支配する定性的に新しい状態をもたらす。
論文 参考訳(メタデータ) (2025-11-24T00:21:17Z) - Identifiable learning of dissipative dynamics [25.409059056398124]
I-OnsagerNetは、散逸ダイナミクスを直接トラジェクトリから学習するニューラルネットワークフレームワークである。
I-OnsagerNetはOnsagerの原理を拡張して、学習されたポテンシャルが定常密度から得られることを保証している。
このアプローチはエントロピーの生成を計算し、不可逆性を定量化し、平衡から逸脱を検出し定量化する原則的な方法を提供する。
論文 参考訳(メタデータ) (2025-10-28T07:57:14Z) - NeuralGrok: Accelerate Grokking by Neural Gradient Transformation [54.65707216563953]
算術的タスクにおける変換器の一般化を高速化する最適勾配変換を学習する勾配に基づく手法であるNeuralGrokを提案する。
実験により,NeuralGrokは一般化を著しく加速することが示された。
また、NeuralGrokはより安定したトレーニングパラダイムを促進し、モデルの複雑さを常に低減します。
論文 参考訳(メタデータ) (2025-04-24T04:41:35Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - SEGNO: Generalizing Equivariant Graph Neural Networks with Physical
Inductive Biases [66.61789780666727]
等変性を維持しながら, 2階連続性をGNNに組み込む方法を示す。
また、SEGNOに関する理論的知見も提供し、隣接する状態間の一意の軌跡を学習できることを強調している。
我々のモデルは最先端のベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-08-25T07:15:58Z) - Convergence of mean-field Langevin dynamics: Time and space
discretization, stochastic gradient, and variance reduction [49.66486092259376]
平均場ランゲヴィンダイナミクス(英: mean-field Langevin dynamics、MFLD)は、分布依存のドリフトを含むランゲヴィン力学の非線形一般化である。
近年の研究では、MFLDは測度空間で機能するエントロピー規則化された凸関数を地球規模で最小化することが示されている。
有限粒子近似,時間分散,勾配近似による誤差を考慮し,MFLDのカオスの均一時間伝播を示す枠組みを提供する。
論文 参考訳(メタデータ) (2023-06-12T16:28:11Z) - Machine learning in and out of equilibrium [58.88325379746631]
我々の研究は、統計物理学から適応したフォッカー・プランク法を用いて、これらの平行線を探索する。
我々は特に、従来のSGDでは平衡が切れている長期的限界におけるシステムの定常状態に焦点を当てる。
本稿では,ミニバッチの置き換えを伴わない新しいランゲヴィンダイナミクス(SGLD)を提案する。
論文 参考訳(メタデータ) (2023-06-06T09:12:49Z) - The Limiting Dynamics of SGD: Modified Loss, Phase Space Oscillations,
and Anomalous Diffusion [29.489737359897312]
勾配降下法(SGD)を訓練した深部ニューラルネットワークの限界ダイナミクスについて検討する。
これらのダイナミクスを駆動する重要な要素は、本来のトレーニング損失ではなく、位相空間の振動を引き起こす速度と確率電流を暗黙的に規則化する修正損失の組み合わせであることを示す。
論文 参考訳(メタデータ) (2021-07-19T20:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。