論文の概要: Scaling Collapse Reveals Universal Dynamics in Compute-Optimally Trained Neural Networks
- arxiv url: http://arxiv.org/abs/2507.02119v2
- Date: Mon, 07 Jul 2025 06:13:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.453744
- Title: Scaling Collapse Reveals Universal Dynamics in Compute-Optimally Trained Neural Networks
- Title(参考訳): 計算最適学習ニューラルネットワークにおけるユニバーサルダイナミクスのスケールアップ
- Authors: Shikai Qiu, Lechao Xiao, Andrew Gordon Wilson, Jeffrey Pennington, Atish Agarwala,
- Abstract要約: 計算最適化モデルでは, 極めて高精度な普遍性を示すことを示す。
学習速度が減衰すると、崩壊は非常に厳しくなり、モデル間の正規化曲線の差はノイズフロアより下になる。
これらの現象は、典型的なニューラルスケーリング法則において、崩壊とパワー・ロー構造を結びつけることによって説明される。
- 参考スコア(独自算出の注目度): 59.552873049024775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: What scaling limits govern neural network training dynamics when model size and training time grow in tandem? We show that despite the complex interactions between architecture, training algorithms, and data, compute-optimally trained models exhibit a remarkably precise universality. Specifically, loss curves from models of varying sizes collapse onto a single universal curve when training compute and loss are normalized to unity at the end of training. With learning rate decay, the collapse becomes so tight that differences in the normalized curves across models fall below the noise floor of individual loss curves across random seeds, a phenomenon we term supercollapse. We observe supercollapse across learning rate schedules, datasets, and architectures, including transformers trained on next-token prediction, and find it breaks down when hyperparameters are scaled suboptimally, providing a precise and practical indicator of good scaling. We explain these phenomena by connecting collapse to the power-law structure in typical neural scaling laws, and analyzing a simple yet surprisingly effective model of SGD noise dynamics that accurately predicts loss curves across various learning rate schedules and quantitatively explains the origin of supercollapse.
- Abstract(参考訳): モデルのサイズとトレーニング時間が短くなると、どのスケーリング制限がニューラルネットワークのトレーニングダイナミクスを支配しますか?
アーキテクチャ、トレーニングアルゴリズム、データ間の複雑な相互作用にもかかわらず、計算最適化されたモデルは驚くほど正確な普遍性を示す。
具体的には、訓練終了後に学習計算と損失が正規化されると、様々な大きさのモデルからの損失曲線が単一の普遍曲線に崩壊する。
学習速度の減衰により、崩壊は極めて厳しくなり、モデル間の正規化曲線の差は、ランダムな種子間の個々の損失曲線のノイズフロア以下になる。
学習速度のスケジュール、データセット、アーキテクチャをまたいだ超崩壊を観察し、次のトーケン予測で訓練されたトランスフォーマーを含め、ハイパーパラメータが亜最適にスケールされたときに故障し、優れたスケーリングの正確かつ実践的な指標を提供する。
これらの現象は, 典型的なニューラルスケーリング法則において, 倒壊とパワー・ロー構造を結びつけることによって説明され, 様々な学習速度スケジュールにおける損失曲線を正確に予測し, 超崩壊の起源を定量的に説明する単純なSGDノイズダイナミクスモデルの解析を行う。
関連論文リスト
- Implicit bias produces neural scaling laws in learning curves, from perceptrons to deep networks [11.365318749216739]
我々は、スペクトル複雑性規範のレンズを通して、トレーニングのダイナミクス全体について研究する。
トレーニング中にパフォーマンスがどのように進化するかを規定する2つの新しい動的スケーリング法則を同定する。
我々の発見は、CNN、ResNets、MNIST、CIFAR-10、CIFAR-100で訓練されたVision Transformersで一致している。
論文 参考訳(メタデータ) (2025-05-19T15:13:36Z) - Dynamical Decoupling of Generalization and Overfitting in Large Two-Layer Networks [12.061229162870513]
2層ニューラルネットワークのトレーニング力学について検討する。
トレーニングダイナミクスにはいくつかの新しい現象がある。
これらには、ガウス/ラデマッハの複雑さの増大に伴う緩やかな時間スケールの出現が含まれる。
論文 参考訳(メタデータ) (2025-02-28T17:45:26Z) - Strong Model Collapse [16.071600606637908]
本稿では,モデル崩壊現象の強い形態が存在することを示す。
以上の結果から,最小の合成データであっても,モデル崩壊につながる可能性が示唆された。
大規模言語モデルの学習における現在の傾向に沿ったアプローチであるモデルサイズの増加が,モデル崩壊を悪化させるか緩和させるかを検討する。
論文 参考訳(メタデータ) (2024-10-07T08:54:23Z) - Scaling and renormalization in high-dimensional regression [72.59731158970894]
リッジ回帰に関する最近の結果について統一的な視点を提示する。
我々は、物理とディープラーニングの背景を持つ読者を対象に、ランダム行列理論と自由確率の基本的なツールを使用する。
我々の結果は拡張され、初期のスケーリング法則のモデルについて統一的な視点を提供する。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Flatter, faster: scaling momentum for optimal speedup of SGD [0.0]
ニューラルネットワークのトレーニングにおいて、勾配降下(SGD)とラベルノイズと運動量との相互作用から生じるトレーニングダイナミクスについて検討した。
運動量ハイパーパラメータ1-NISTbeta$を学習率で2/3$にスケーリングすると、一般化を犠牲にすることなく、最大で2/3$のトレーニングが加速することがわかった。
論文 参考訳(メタデータ) (2022-10-28T20:41:48Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。