論文の概要: What Scales in Cross-Entropy Scaling Law?
- arxiv url: http://arxiv.org/abs/2510.04067v1
- Date: Sun, 05 Oct 2025 07:06:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.43758
- Title: What Scales in Cross-Entropy Scaling Law?
- Title(参考訳): クロスエントロピースケーリング法におけるスケールとは?
- Authors: Junxi Yan, Zixi Wei, Jingtao Zhan, Qingyao Ai, Yiqun Liu,
- Abstract要約: 本稿では, クロスエントロピーを, 誤りエントロピー, 自己アライメント, 信頼の3つの部分に分解した。
誤差エントロピーだけがロバストなパワーロースケーリングに従っているのに対し、残りの2つの項はほとんど不変である。
本研究は, モデル挙動のより正確な記述として, 誤差エントロピースケーリング法則を確立した。
- 参考スコア(独自算出の注目度): 28.394154336032756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The cross-entropy scaling law has long served as a key tool for guiding the development of large language models. It shows that cross-entropy loss decreases in a predictable power-law rate as the model size increases. However, recent evidence indicates that this law breaks down at very large scales: the loss decreases more slowly than expected, which causes significant trouble for developing large language models. In this paper, we hypothesize that the root cause lies in the fact that cross-entropy itself does not truly scale; instead, only one of its hidden components does. To investigate this, we introduce a novel decomposition of cross-entropy into three parts: Error-Entropy, Self-Alignment, and Confidence. We show both theoretically and empirically that this decomposition precisely captures the training dynamics and optimization objectives. Through extensive experiments on multiple datasets and 32 models spanning five orders of magnitude in size, we find that only error-entropy follows a robust power-law scaling, while the other two terms remain largely invariant. Moreover, error-entropy constitutes the dominant share of cross-entropy in small models but diminishes in proportion as models grow larger. This explains why the cross-entropy scaling law appears accurate at small scales but fails at very large ones. Our findings establish the error-entropy scaling law as a more accurate description of model behavior. We believe it will have wide applications in the training, understanding, and future development of large language models.
- Abstract(参考訳): クロスエントロピーのスケーリング法則は、長い間、大規模言語モデルの開発を導く重要なツールとして機能してきた。
モデルサイズが大きくなるにつれて,クロスエントロピー損失は予測可能なパワー・ロー・レートで減少することを示す。
しかし、近年の証拠は、この法則が非常に大きな規模で崩壊していることを示している: 損失は予想よりも遅く減少し、大きな言語モデルを開発する上で重大な問題を引き起こす。
本稿では,クロスエントロピー自体が真のスケールではないという事実に根本原因がある,という仮説を立てる。
そこで我々は, クロスエントロピーを, 誤りエントロピー, 自己アライメント, 信頼の3つの部分に分解した。
この分解がトレーニングのダイナミクスと最適化の目的を正確に捉えていることは理論的にも経験的にも示します。
複数のデータセットと5桁の大きさにまたがる32モデルに関する広範な実験により、エラーエントロピーだけがロバストなパワーロースケーリングに従っており、残りの2つの用語はほとんど不変であることがわかった。
さらに、誤差エントロピーは小さなモデルでは交叉エントロピーの多数を占めるが、モデルが大きくなるにつれて比例的に減少する。
これは、クロスエントロピースケーリング法則が小さなスケールでは正確に見えるが、非常に大きなスケールでは失敗する理由を説明する。
本研究は, モデル挙動のより正確な記述として, 誤差エントロピースケーリング法則を確立した。
大規模な言語モデルのトレーニング、理解、そして将来の開発に幅広い応用が期待できる。
関連論文リスト
- Superposition Yields Robust Neural Scaling [9.278468089636547]
我々は、ニューラルネットワークのスケーリング法則の起源について研究する。損失はモデルサイズによる電力法則として減少する。
重畳が弱ければ、最も頻繁な特徴だけが干渉なく表現されることになるが、モデルサイズによる損失のスケーリングは、基礎となる特徴周波数に依存する。
表現重畳は、観測されたニューラルネットワークのスケーリング法則の根底にある重要なメカニズムである、と結論付けている。
論文 参考訳(メタデータ) (2025-05-15T16:18:13Z) - Compute-Optimal LLMs Provably Generalize Better With Scale [102.29926217670926]
我々は,大規模言語モデル(LLM)の事前学習目標に基づく一般化境界を開発する。
損失関数の分散を考慮し, 既存の境界を緩める, 完全経験的フリードマン型マルティンゲール濃度を導入する。
我々は一般化ギャップのスケーリング法則を作成し、その境界はスケールによって予測的に強くなる。
論文 参考訳(メタデータ) (2025-04-21T16:26:56Z) - Do Larger Language Models Generalize Better? A Scaling Law for Implicit Reasoning at Pretraining Time [73.22651918134808]
この研究は、モデルサイズのスケーリングによる直感的効果を示し、言語モデル(LM)におけるスケーリングと推論の関係に関する新たな洞察を提供する。
我々は,実世界の大規模知識グラフの構造と分布を再現する合成暗黙のマルチホップ推論環境において,ゼロからLMを事前学習する。
次に、実世界の事前学習における暗黙的推論の単純化とみなすことができるマルチホップ推論を必要とする、グラフの欠落したエッジを完遂するLMの能力を評価する。
論文 参考訳(メタデータ) (2025-04-04T17:57:22Z) - A Tale of Tails: Model Collapse as a Change of Scaling Laws [11.6055501181235]
私たちは、合成データがトレーニングコーパスに導入される必然的な体制において、スケーリング法はどのように変化するのか?
スケーリング法則のレンズによるモデル崩壊の理論的枠組みを開発する。
我々は、広範囲の崩壊現象を発見し、スケーリングの損失を分析し、世代ごとにスケールをシフトさせ、スキルの「アンラーニング」を行い、人間と合成データを混在させながらグルーキングを行う。
論文 参考訳(メタデータ) (2024-02-10T21:06:34Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Scaling Laws for Autoregressive Generative Modeling [30.051804305320424]
生成画像モデリング,ビデオモデリング,マルチモーダル画像$leftarrow$textモデル,数学的問題解決の4つの領域におけるクロスエントロピー損失に対する経験的スケーリング法則を同定する。
いずれの場合も、モデルのサイズや計算予算が増加するにつれて、自動回帰変換器はパフォーマンスを円滑に改善する。
論文 参考訳(メタデータ) (2020-10-28T02:17:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。