論文の概要: Training Dynamics Underlying Language Model Scaling Laws: Loss Deceleration and Zero-Sum Learning
- arxiv url: http://arxiv.org/abs/2506.05447v1
- Date: Thu, 05 Jun 2025 15:18:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.17155
- Title: Training Dynamics Underlying Language Model Scaling Laws: Loss Deceleration and Zero-Sum Learning
- Title(参考訳): 言語モデルスケーリング法則に基づくトレーニングダイナミクス:損失減速とゼロサム学習
- Authors: Andrei Mircea, Supriyo Chakraborty, Nima Chitsazan, Irina Rish, Ekaterina Lobacheva,
- Abstract要約: この研究は、スケーリングが言語モデルをどのように改善するか、特にトレーニングダイナミクスの観点から理解することを目的としている。
学習の早い段階では、言語モデルが損失減少を経験し、損失改善率の急激な低下により、ログ空間における損失曲線の分別線形な挙動がもたらされることが判明した。
ゼロサム学習(ZSL)と呼ばれる訓練力学の種類による損失減少の要因について検討する。
ZSLでは、サンプルごとの勾配が体系的に対立し、サンプルごとの損失の変化に破壊的な干渉をもたらす。
- 参考スコア(独自算出の注目度): 13.784193100971287
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work aims to understand how scaling improves language models, specifically in terms of training dynamics. We find that language models undergo loss deceleration early in training; an abrupt slowdown in the rate of loss improvement, resulting in piecewise linear behaviour of the loss curve in log-log space. Scaling up the model mitigates this transition by (1) decreasing the loss at which deceleration occurs, and (2) improving the log-log rate of loss improvement after deceleration. We attribute loss deceleration to a type of degenerate training dynamics we term zero-sum learning (ZSL). In ZSL, per-example gradients become systematically opposed, leading to destructive interference in per-example changes in loss. As a result, improving loss on one subset of examples degrades it on another, bottlenecking overall progress. Loss deceleration and ZSL provide new insights into the training dynamics underlying language model scaling laws, and could potentially be targeted directly to improve language models independent of scale. We make our code and artefacts available at: https://github.com/mirandrom/zsl
- Abstract(参考訳): この研究は、スケーリングが言語モデルをどのように改善するか、特にトレーニングダイナミクスの観点から理解することを目的としている。
学習の早い段階では、言語モデルが損失減少を経験し、損失改善率の急激な低下により、ログ空間における損失曲線の分別線形な挙動が生じることがわかった。
モデルのスケールアップは,(1)減速に伴う損失の低減,(2)減速後の損失改善のログログ化率の向上により,この移行を緩和する。
我々は、ゼロサム学習(ZSL)と呼ばれる退化学習のダイナミクスに損失の減速が寄与しているとみなす。
ZSLでは、サンプルごとの勾配が体系的に対立し、サンプルごとの損失の変化に破壊的な干渉をもたらす。
その結果、ある例のサブセットの損失を改善することは、それを別の例に分解し、全体的な進捗をボトルネックにします。
Loss decelerationとZSLは、言語モデルのスケーリング法則に基づくトレーニングのダイナミクスに関する新たな洞察を提供する。
私たちはコードとアーティファクトをhttps://github.com/mirandrom/zslで公開しています。
関連論文リスト
- To Clip or not to Clip: the Dynamics of SGD with Gradient Clipping in High-Dimensions [6.653325043862049]
ストリーミングSGDにおける最小二乗問題における勾配クリッピングについて検討した。
ガウスノイズクリッピングではSGD性能が向上しないことを示す。
クリッピングしきい値のほぼ最適なスケジューリング法を提案する。
論文 参考訳(メタデータ) (2024-06-17T16:50:22Z) - Heavy-Tailed Class Imbalance and Why Adam Outperforms Gradient Descent on Language Models [23.520679217713685]
Adamは、他のタスクよりも大きなマージンで、大きな言語モデルでの勾配勾配よりも優れていることが示されている。
この性能ギャップの重要な要因は、言語タスクで見られる重み付きクラス不均衡であることを示す。
論文 参考訳(メタデータ) (2024-02-29T18:47:52Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Same Pre-training Loss, Better Downstream: Implicit Bias Matters for
Language Models [46.24479693469042]
本稿では,(1)事前学習損失が下流性能を完全に説明できないこと,(2)事前学習損失がない場合の下流性能とモデルの平坦性はよく相関していることを示す。
論文 参考訳(メタデータ) (2022-10-25T17:45:36Z) - A Mathematical Analysis of Learning Loss for Active Learning in
Regression [2.792030485253753]
本論文では、LearningLoss++と呼ばれる新しい修正を提案するためのLearning Lossの基礎を開発する。
本稿では,学習損失の解釈において,学習損失と学習ロス++との勾配を厳密に分析し比較することで,勾配が重要であることを示す。
また,異なるスケールで機能を組み合わせて損失を予測する畳み込みアーキテクチャを提案する。
learningloss++は、モデルがパフォーマンスの悪いシナリオを特定するのに優れており、モデルリファインメントがオープン世界での信頼性の高いパフォーマンスに繋がることを示している。
論文 参考訳(メタデータ) (2021-04-19T13:54:20Z) - Implicit Bias in Deep Linear Classification: Initialization Scale vs
Training Accuracy [71.25689267025244]
移行がスケールとトレーニング損失の最小化の関係によってどのように制御されるかを示す。
以上の結果から,勾配降下の限界挙動は,ばかげた訓練精度でのみ引き起こされることが示唆された。
論文 参考訳(メタデータ) (2020-07-13T23:49:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。