論文の概要: Scaling with Collapse: Efficient and Predictable Training of LLM Families
- arxiv url: http://arxiv.org/abs/2509.25087v1
- Date: Mon, 29 Sep 2025 17:26:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.164417
- Title: Scaling with Collapse: Efficient and Predictable Training of LLM Families
- Title(参考訳): 崩壊によるスケーリング: LLMファミリーの効率的かつ予測可能なトレーニング
- Authors: Shane Bergsma, Bin Claire Zhang, Nolan Dey, Shaheer Muhammad, Gurpreet Gosal, Joel Hestness,
- Abstract要約: 崩壊は計算効率のトレーニングのサインとして現れる。
計算効率のトレーニングのサインとして崩壊が現れることを示す。
大規模に2つの応用を実演する。
- 参考スコア(独自算出の注目度): 8.979516613284174
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective LLM training relies on *consistency*, meaning that key quantities -- such as final losses and optimal hyperparameters -- scale predictably across model sizes. Qiu et al. (2025) recently showed that this consistency extends beyond scalars: whole training loss curves can *collapse* onto a universal trajectory after a simple normalization. What remains unclear is whether this phenomenon holds for LLM families trained under *practical scaling recipes*, where width, depth, learning rate, batch size, and weight decay are scaled jointly. We show that it does: loss curves collapse across scales precisely when optimization hyperparameters are set optimally for the given data budget, in accordance with recent empirical scaling laws. Collapse thus emerges as a signature of compute-efficient training. We demonstrate two applications at scale: (1) deviation-from-collapse provides a sensitive, early diagnostic of training pathologies, and (2) the predictability of collapsed curves enables early stopping in large-scale hyperparameter tuning. Finally, we train a competitive LLM family, *Celerity*, using these insights, highlighting collapse as an effective tool for developing efficient LLMs.
- Abstract(参考訳): 効果的なLCMトレーニングは*一貫性*(consistency*)に依存している。
Qiu et al (2025) は、この一貫性がスカラーを超えて拡張されていることを示した。
この現象が、幅、深さ、学習速度、バッチサイズ、体重減少を共同でスケールする、*実践的なスケーリングレシピ*で訓練されたLLMファミリーに当てはまるかどうかは不明だ。
最近の経験的スケーリング法則に従って、最適化ハイパーパラメータが与えられたデータ予算に対して最適に設定されたときに、スケール全体で損失曲線が崩壊する。
したがって、崩壊は計算効率のトレーニングのサインとして現れる。
2) 崩壊曲線の予測可能性により,大規模ハイパーパラメータチューニングの早期停止が可能となる。
最後に、これらの知見を用いて、競争力のあるLLMファミリー*Celerity*をトレーニングし、効率的なLLMを開発する効果的なツールとして崩壊を強調します。
関連論文リスト
- Unveiling the Role of Learning Rate Schedules via Functional Scaling Laws [9.332823269318842]
スケーリング法は、大規模言語モデル(LLM)のトレーニングを導く上で、基礎的な役割を担っている。
本稿では,一般LSSの訓練過程における集団リスクの進化を特徴付ける機能スケーリング法を紹介する。
我々は、データ限定型と計算限定型の両方の条件下で、広く使われている3つのLSS(定数、指数減衰、ウォームアップ安定デカイ(WSD))を分析した。
論文 参考訳(メタデータ) (2025-09-23T16:05:16Z) - The Journey Matters: Average Parameter Count over Pre-training Unifies Sparse and Dense Scaling Laws [51.608402959163925]
本稿では,大規模言語モデルに対する最適スパース事前学習構成の体系的検討を行う。
総トレーニング計算の25%でプルーニングを開始し、75%で終了すると、ほぼ最適の最終評価損失が得られることがわかった。
本稿では,事前学習よりも平均パラメータ数を使用するように,チンチラスケーリング法を修正した新しいスケーリング法を提案する。
論文 参考訳(メタデータ) (2025-01-21T20:23:22Z) - Scaling Law with Learning Rate Annealing [4.121865876406014]
ニューラルネットワークモデルのクロスエントロピー損失曲線は、学習速度(LR)がトレーニングステップを上回り、スケーリング法則に準拠している。
LRアニールによるスケーリング法則の適用により、学習速度(LRS)の任意のステップにおける損失を正確に予測することができる。
論文 参考訳(メタデータ) (2024-08-20T17:30:48Z) - AutoScale: Scale-Aware Data Mixing for Pre-Training LLMs [61.13296177652599]
より小さなスケールで良好に機能するデータ混合物は、大規模なスケールではその利点を保たない可能性があることを示す。
2段階のスケール対応データ合成フレームワークであるAutoScaleを提案する。
論文 参考訳(メタデータ) (2024-07-29T17:06:30Z) - Temporal Scaling Law for Large Language Models [70.74571133406958]
本稿では,LLMの試験損失が,トレーニングステップのスケールアップとともにどのように進展するかを考察する,時間スケーリング法の概念を提案する。
テスト損失全体を粗い粒度でモデル化するのとは対照的に、私たちはそれを分解して、各トークン位置のきめ細かいテスト損失に飛び込みます。
動的双曲法則におけるパラメータの時間的パターンを研究することにより、より正確な時間的スケーリング法則を導出する。
論文 参考訳(メタデータ) (2024-04-27T05:49:11Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。