論文の概要: Scaling Collapse Reveals Universal Dynamics in Compute-Optimally Trained Neural Networks
- arxiv url: http://arxiv.org/abs/2507.02119v2
- Date: Mon, 07 Jul 2025 06:13:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.453744
- Title: Scaling Collapse Reveals Universal Dynamics in Compute-Optimally Trained Neural Networks
- Title(参考訳): 計算最適学習ニューラルネットワークにおけるユニバーサルダイナミクスのスケールアップ
- Authors: Shikai Qiu, Lechao Xiao, Andrew Gordon Wilson, Jeffrey Pennington, Atish Agarwala,
- Abstract要約: 計算最適化モデルでは, 極めて高精度な普遍性を示すことを示す。
学習速度が減衰すると、崩壊は非常に厳しくなり、モデル間の正規化曲線の差はノイズフロアより下になる。
これらの現象は、典型的なニューラルスケーリング法則において、崩壊とパワー・ロー構造を結びつけることによって説明される。
- 参考スコア(独自算出の注目度): 59.552873049024775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: What scaling limits govern neural network training dynamics when model size and training time grow in tandem? We show that despite the complex interactions between architecture, training algorithms, and data, compute-optimally trained models exhibit a remarkably precise universality. Specifically, loss curves from models of varying sizes collapse onto a single universal curve when training compute and loss are normalized to unity at the end of training. With learning rate decay, the collapse becomes so tight that differences in the normalized curves across models fall below the noise floor of individual loss curves across random seeds, a phenomenon we term supercollapse. We observe supercollapse across learning rate schedules, datasets, and architectures, including transformers trained on next-token prediction, and find it breaks down when hyperparameters are scaled suboptimally, providing a precise and practical indicator of good scaling. We explain these phenomena by connecting collapse to the power-law structure in typical neural scaling laws, and analyzing a simple yet surprisingly effective model of SGD noise dynamics that accurately predicts loss curves across various learning rate schedules and quantitatively explains the origin of supercollapse.
- Abstract(参考訳): モデルのサイズとトレーニング時間が短くなると、どのスケーリング制限がニューラルネットワークのトレーニングダイナミクスを支配しますか?
アーキテクチャ、トレーニングアルゴリズム、データ間の複雑な相互作用にもかかわらず、計算最適化されたモデルは驚くほど正確な普遍性を示す。
具体的には、訓練終了後に学習計算と損失が正規化されると、様々な大きさのモデルからの損失曲線が単一の普遍曲線に崩壊する。
学習速度の減衰により、崩壊は極めて厳しくなり、モデル間の正規化曲線の差は、ランダムな種子間の個々の損失曲線のノイズフロア以下になる。
学習速度のスケジュール、データセット、アーキテクチャをまたいだ超崩壊を観察し、次のトーケン予測で訓練されたトランスフォーマーを含め、ハイパーパラメータが亜最適にスケールされたときに故障し、優れたスケーリングの正確かつ実践的な指標を提供する。
これらの現象は, 典型的なニューラルスケーリング法則において, 倒壊とパワー・ロー構造を結びつけることによって説明され, 様々な学習速度スケジュールにおける損失曲線を正確に予測し, 超崩壊の起源を定量的に説明する単純なSGDノイズダイナミクスモデルの解析を行う。
関連論文リスト
- Implicit bias produces neural scaling laws in learning curves, from perceptrons to deep networks [11.365318749216739]
我々は、スペクトル複雑性規範のレンズを通して、トレーニングのダイナミクス全体について研究する。
トレーニング中にパフォーマンスがどのように進化するかを規定する2つの新しい動的スケーリング法則を同定する。
我々の発見は、CNN、ResNets、MNIST、CIFAR-10、CIFAR-100で訓練されたVision Transformersで一致している。
論文 参考訳(メタデータ) (2025-05-19T15:13:36Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Flatter, faster: scaling momentum for optimal speedup of SGD [0.0]
ニューラルネットワークのトレーニングにおいて、勾配降下(SGD)とラベルノイズと運動量との相互作用から生じるトレーニングダイナミクスについて検討した。
運動量ハイパーパラメータ1-NISTbeta$を学習率で2/3$にスケーリングすると、一般化を犠牲にすることなく、最大で2/3$のトレーニングが加速することがわかった。
論文 参考訳(メタデータ) (2022-10-28T20:41:48Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。