論文の概要: Superposition Yields Robust Neural Scaling
- arxiv url: http://arxiv.org/abs/2505.10465v1
- Date: Thu, 15 May 2025 16:18:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.411689
- Title: Superposition Yields Robust Neural Scaling
- Title(参考訳): 重畳収率のロバストなニューラルスケーリング
- Authors: Yizhou liu, Ziming Liu, Jeff Gore,
- Abstract要約: 我々は、ニューラルネットワークのスケーリング法則の起源について研究する。損失はモデルサイズによる電力法則として減少する。
重畳が弱ければ、最も頻繁な特徴だけが干渉なく表現されることになるが、モデルサイズによる損失のスケーリングは、基礎となる特徴周波数に依存する。
表現重畳は、観測されたニューラルネットワークのスケーリング法則の根底にある重要なメカニズムである、と結論付けている。
- 参考スコア(独自算出の注目度): 9.278468089636547
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The success of today's large language models (LLMs) depends on the observation that larger models perform better. However, the origin of this neural scaling law -- the finding that loss decreases as a power law with model size -- remains unclear. Starting from two empirical principles -- that LLMs represent more things than the model dimensions (widths) they have (i.e., representations are superposed), and that words or concepts in language occur with varying frequencies -- we constructed a toy model to study the loss scaling with model size. We found that when superposition is weak, meaning only the most frequent features are represented without interference, the scaling of loss with model size depends on the underlying feature frequency; if feature frequencies follow a power law, so does the loss. In contrast, under strong superposition, where all features are represented but overlap with each other, the loss becomes inversely proportional to the model dimension across a wide range of feature frequency distributions. This robust scaling behavior is explained geometrically: when many more vectors are packed into a lower dimensional space, the interference (squared overlaps) between vectors scales inversely with that dimension. We then analyzed four families of open-sourced LLMs and found that they exhibit strong superposition and quantitatively match the predictions of our toy model. The Chinchilla scaling law turned out to also agree with our results. We conclude that representation superposition is an important mechanism underlying the observed neural scaling laws. We anticipate that these insights will inspire new training strategies and model architectures to achieve better performance with less computation and fewer parameters.
- Abstract(参考訳): 今日の大きな言語モデル(LLM)の成功は、より大きなモデルはより良いパフォーマンスを示すという観察に依存している。
しかし、このニューラルスケーリング法則(モデルサイズを持つ電力法則として損失が減少するという発見)の起源はいまだ不明である。
LLMはモデル次元(幅)よりも多くのものを表現し(つまり表現が重畳される)、言語における単語や概念は様々な頻度で発生するという2つの経験的原理から始まり、モデルサイズによる損失スケーリングを研究するためのおもちゃモデルを構築した。
重畳が弱く、つまり最も頻繁な特徴だけが干渉なく表現される場合、モデルサイズによる損失のスケーリングは、基礎となる特徴周波数に依存する。
対照的に、全ての特徴が表現されるが重なり合う強い重ね合わせの下では、損失は幅広い特徴周波数分布のモデル次元に逆比例する。
このロバストなスケーリングの振る舞いは幾何学的に説明され、多くのベクトルを低次元空間に詰め込むと、ベクトル間の干渉(二乗重なり)はその次元と逆向きにスケールする。
次に,オープンソースLLMの4つのファミリーを分析し,それらが強い重ね合わせを示し,我々の玩具モデルの予測と定量的に一致していることを発見した。
チンチラスケーリング法も我々の結果と一致していることがわかった。
表現重畳は、観測されたニューラルスケーリング法則の根底にある重要なメカニズムである、と結論付けている。
これらの洞察が新しいトレーニング戦略やモデルアーキテクチャを刺激し、少ない計算と少ないパラメータでより良いパフォーマンスを達成することを期待しています。
関連論文リスト
- Compute-Optimal LLMs Provably Generalize Better With Scale [102.29926217670926]
我々は,大規模言語モデル(LLM)の事前学習目標に基づく一般化境界を開発する。
損失関数の分散を考慮し, 既存の境界を緩める, 完全経験的フリードマン型マルティンゲール濃度を導入する。
我々は一般化ギャップのスケーリング法則を作成し、その境界はスケールによって予測的に強くなる。
論文 参考訳(メタデータ) (2025-04-21T16:26:56Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - The Quantization Model of Neural Scaling [19.057931064238584]
ニューラルスケーリング法則の量子化モデルを提案し、モデルとデータサイズによる損失の観測されたパワー則の減少と、スケールによる新しい機能の突然の出現について説明する。
使用頻度を減少させるために量子が学習されると、使用中の電力法則が観測された損失のスケーリングを説明する。
論文 参考訳(メタデータ) (2023-03-23T17:58:43Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。