論文の概要: Understanding Scaling Laws in Deep Neural Networks via Feature Learning Dynamics
- arxiv url: http://arxiv.org/abs/2512.21075v1
- Date: Wed, 24 Dec 2025 09:39:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.748609
- Title: Understanding Scaling Laws in Deep Neural Networks via Feature Learning Dynamics
- Title(参考訳): 特徴学習ダイナミクスによるディープニューラルネットワークのスケーリング法則の理解
- Authors: Zihan Yao, Ruoyu Wu, Tianxiang Gao,
- Abstract要約: スケーリング法則は、成功とはどのようなもので、いつ、なぜスケーリングが成功するか、失敗なのかを記述している。
中心的な障害は、大きな深さで特徴学習の厳密な理解が欠如していることである。
- 参考スコア(独自算出の注目度): 9.885471525709113
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The empirical success of deep learning is often attributed to scaling laws that predict consistent gains as model, data, and compute grow; however, large models can exhibit training instability and diminishing returns, suggesting that scaling laws describe what success looks like but not when and why scaling succeeds or fails. A central obstacle is the lack of a rigorous understanding of feature learning at large depth. While muP characterizes feature-learning dynamics in the infinite-width limit and enables hyperparameter transfer across width, its depth extension (depth-muP) breaks down for residual blocks with more than one internal layer. We derive Neural Feature Dynamics (NFD) for ResNets with single-layer residual blocks, characterizing feature learning via a coupled forward-backward stochastic system in the joint infinite-width and infinite-depth limit. In this regime, NFD identifies when scaling-law trends persist and explains diminishing returns. It also reveals a vanishing mechanism induced by the 1/sqrt(depth) residual scaling under which the gradient-independence assumption (GIA), known to fail during training at finite depth, becomes provably valid again at infinite depth, yielding an analytically tractable regime for end-to-end feature learning. Motivated by this insight, we study two-layer residual blocks and show that the same mechanism causes feature-learning collapse in the first internal layer at large depth, providing a structural explanation for the empirical failure of depth-muP. Based on this diagnosis, we propose a depth-aware learning-rate correction that counteracts the collapse and empirically restores depth-wise hyperparameter transfer, yielding stronger performance in deeper ResNets.
- Abstract(参考訳): ディープラーニングの実証的な成功は、モデル、データ、計算の成長として一貫した利益を予測する法則のスケーリングに起因することが多いが、大規模モデルはトレーニングの不安定性とリターンの減少を示す可能性がある。
中心的な障害は、大きな深さで特徴学習の厳密な理解が欠如していることである。
muPは無限幅限界における特徴学習のダイナミクスを特徴付け、幅をまたいだハイパーパラメータ転送を可能にするが、その深さ拡張(深度muP)は複数の内部層を持つ残留ブロックに対して分解される。
単一層残差ブロックを持つResNetに対するニューラル特徴ダイナミクス(NFD)を導出し, 連立無限幅および無限深度限界における前方後方確率系による特徴学習を特徴付ける。
この体制では、NFDはスケーリング法則の傾向がいつ継続するかを特定し、リターンの減少を説明する。
また、1/sqrt(depth)残差スケーリングによって引き起こされる消滅メカニズムを明らかにし、有限深さでトレーニング中に失敗することが知られている勾配独立性仮定(GIA)は、無限深度で証明可能な再有効となる。
この知見により, 2層残差ブロックについて検討し, 同一の機構が第1内部層に大きな深さで特徴学習崩壊を引き起こすことを示し, 深度muPの実証的失敗に関する構造的説明を提供する。
この診断に基づいて,深いResNetにおいて,この崩壊に対処し,深度ワイドハイパーパラメータ転送を実証的に復元する深度認識学習率補正を提案する。
関連論文リスト
- Asymptotic analysis of shallow and deep forgetting in replay with Neural Collapse [32.34050220649143]
連続学習(CL)における永続的パラドックスは、ニューラルネットワークが出力予測が失敗しても、過去のタスクの線形的に分離可能な表現を保持することが多いことである。
最小限のバッファが機能幾何のアンカーを成功させる一方で、浅い忘れを緩和するには、通常、かなり大きなバッファを必要とする。
論文 参考訳(メタデータ) (2025-12-08T10:35:57Z) - Step by Step Network [56.413861208019576]
ネットワーク深さのスケールアップは、ニューラルアーキテクチャ設計における基本的な追求である。
本稿では,残差モデルのスケーリングを阻害する2つの重要な障壁,すなわちショートカット劣化と制限幅を同定する。
本稿では,ステップ・バイ・ステップ・ネットワーク(StepsNet)と呼ばれる,理論的ポテンシャルと実用性能のギャップを埋めるために,一般化された残差アーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-11-18T10:35:49Z) - Network Sparsity Unlocks the Scaling Potential of Deep Reinforcement Learning [57.3885832382455]
静的ネットワークの疎結合を単独で導入することで,最先端アーキテクチャの高密度化を超えて,さらなるスケーリング可能性を実現することができることを示す。
解析の結果,高密度DRLネットワークをネーティブにスケールアップするのとは対照的に,疎ネットワークは高いパラメータ効率とネットワーク表現性を両立させることがわかった。
論文 参考訳(メタデータ) (2025-06-20T17:54:24Z) - Optimal Depth of Neural Networks [2.1756081703276]
本稿では,ニューラルネットワークの最適深さの決定に対処する公式な理論的枠組みを提案する。
我々は、シーケンシャルな決定プロセスとして、隠蔽表現の層間進化をモデル化する。
本稿では,ネットワークが効率よく早期終了可能な表現を学習することを奨励する,新規で実用的な正規化用語である$mathcalL_rm depth$を提案する。
論文 参考訳(メタデータ) (2025-06-20T09:26:01Z) - Neural Collapse is Globally Optimal in Deep Regularized ResNets and Transformers [33.441694038617506]
クロスエントロピーや平均二乗誤差損失で訓練されたLayerNormを用いたディープ・正規化変圧器と残留ネットワーク(ResNet)のグローバル最適性がほぼ崩壊していることを証明する。
我々の理論的結果は、コンピュータビジョンと言語データセットの実験によって支持されており、深さが大きくなるにつれて神経崩壊が実際に顕著になることを示している。
論文 参考訳(メタデータ) (2025-05-21T08:16:03Z) - Feature Learning Beyond the Edge of Stability [8.430481660019451]
層幅パターンを隠蔽した均一な多層パーセプトロンパラメタライゼーションを提案し、勾配勾配下でのトレーニングダイナミクスを解析する。
訓練中の最小バッチ損失の最初の3つのTaylor係数について,シャープネスと特徴学習の関連性を示す式を得る。
論文 参考訳(メタデータ) (2025-02-18T18:23:33Z) - Super Consistency of Neural Network Landscapes and Learning Rate Transfer [72.54450821671624]
我々は、失われたヘッセンのレンズを通して風景を研究する。
我々は、$mu$P のスペクトル特性がネットワークの大きさに大きく依存していることを発見した。
ニューラルタンジェントカーネル(NTK)や他のスケーリングシステムでは、シャープネスは異なるスケールで非常に異なるダイナミクスを示す。
論文 参考訳(メタデータ) (2024-02-27T12:28:01Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Addressing caveats of neural persistence with deep graph persistence [54.424983583720675]
神経の持続性に影響を与える主な要因は,ネットワークの重みのばらつきと大きな重みの空間集中である。
単一層ではなく,ニューラルネットワーク全体へのニューラルネットワークの持続性に基づくフィルタリングの拡張を提案する。
これにより、ネットワーク内の永続的なパスを暗黙的に取り込み、分散に関連する問題を緩和するディープグラフの永続性測定が得られます。
論文 参考訳(メタデータ) (2023-07-20T13:34:11Z) - Statistical Mechanics of Deep Linear Neural Networks: The
Back-Propagating Renormalization Group [4.56877715768796]
個々の単位の入力出力関数が線形である深線型ニューラルネットワーク(DLNN)における学習の統計力学について検討する。
重み空間における平衡ギブス分布を用いて教師あり学習後のネットワーク特性を正確に解く。
数値シミュレーションにより, 非線形性にもかかわらず, 理論の予測は大部分, 深さの小さいreluネットワークによって共有されていることが明らかとなった。
論文 参考訳(メタデータ) (2020-12-07T20:08:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。