論文の概要: Superposition Yields Robust Neural Scaling
- arxiv url: http://arxiv.org/abs/2505.10465v2
- Date: Sun, 18 May 2025 15:54:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 12:45:56.167819
- Title: Superposition Yields Robust Neural Scaling
- Title(参考訳): 重畳収率のロバストなニューラルスケーリング
- Authors: Yizhou Liu, Ziming Liu, Jeff Gore,
- Abstract要約: 我々は、ニューラルネットワークのスケーリング法則の起源について研究する。損失はモデルサイズによる電力法則として減少する。
重畳が弱ければ、最も頻繁な特徴だけが干渉なく表現されることになるが、モデルサイズによる損失のスケーリングは、基礎となる特徴周波数に依存する。
表現重畳は、観測されたニューラルネットワークのスケーリング法則の根底にある重要なメカニズムである、と結論付けている。
- 参考スコア(独自算出の注目度): 9.278468089636547
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The success of today's large language models (LLMs) depends on the observation that larger models perform better. However, the origin of this neural scaling law -- the finding that loss decreases as a power law with model size -- remains unclear. Starting from two empirical principles -- that LLMs represent more things than the model dimensions (widths) they have (i.e., representations are superposed), and that words or concepts in language occur with varying frequencies -- we constructed a toy model to study the loss scaling with model size. We found that when superposition is weak, meaning only the most frequent features are represented without interference, the scaling of loss with model size depends on the underlying feature frequency; if feature frequencies follow a power law, so does the loss. In contrast, under strong superposition, where all features are represented but overlap with each other, the loss becomes inversely proportional to the model dimension across a wide range of feature frequency distributions. This robust scaling behavior is explained geometrically: when many more vectors are packed into a lower dimensional space, the interference (squared overlaps) between vectors scales inversely with that dimension. We then analyzed four families of open-sourced LLMs and found that they exhibit strong superposition and quantitatively match the predictions of our toy model. The Chinchilla scaling law turned out to also agree with our results. We conclude that representation superposition is an important mechanism underlying the observed neural scaling laws. We anticipate that these insights will inspire new training strategies and model architectures to achieve better performance with less computation and fewer parameters.
- Abstract(参考訳): 今日の大きな言語モデル(LLM)の成功は、より大きなモデルはより良いパフォーマンスを示すという観察に依存している。
しかし、このニューラルスケーリング法則(モデルサイズを持つ電力法則として損失が減少するという発見)の起源はいまだ不明である。
LLMはモデル次元(幅)よりも多くのものを表現し(つまり表現が重畳される)、言語における単語や概念は様々な頻度で発生するという2つの経験的原理から始まり、モデルサイズによる損失スケーリングを研究するためのおもちゃモデルを構築した。
重畳が弱く、つまり最も頻繁な特徴だけが干渉なく表現される場合、モデルサイズによる損失のスケーリングは、基礎となる特徴周波数に依存する。
対照的に、全ての特徴が表現されるが重なり合う強い重ね合わせの下では、損失は幅広い特徴周波数分布のモデル次元に逆比例する。
このロバストなスケーリングの振る舞いは幾何学的に説明され、多くのベクトルを低次元空間に詰め込むと、ベクトル間の干渉(二乗重なり)はその次元と逆向きにスケールする。
次に,オープンソースLLMの4つのファミリーを分析し,それらが強い重ね合わせを示し,我々の玩具モデルの予測と定量的に一致していることを発見した。
チンチラスケーリング法も我々の結果と一致していることがわかった。
表現重畳は、観測されたニューラルスケーリング法則の根底にある重要なメカニズムである、と結論付けている。
これらの洞察が新しいトレーニング戦略やモデルアーキテクチャを刺激し、少ない計算と少ないパラメータでより良いパフォーマンスを達成することを期待しています。
関連論文リスト
- Scaling Collapse Reveals Universal Dynamics in Compute-Optimally Trained Neural Networks [59.552873049024775]
計算最適化モデルでは, 極めて高精度な普遍性を示すことを示す。
学習速度が減衰すると、崩壊は非常に厳しくなり、モデル間の正規化曲線の差はノイズフロアより下になる。
これらの現象は、典型的なニューラルスケーリング法則において、崩壊とパワー・ロー構造を結びつけることによって説明される。
論文 参考訳(メタデータ) (2025-07-02T20:03:34Z) - Compute-Optimal LLMs Provably Generalize Better With Scale [102.29926217670926]
我々は,大規模言語モデル(LLM)の事前学習目標に基づく一般化境界を開発する。
損失関数の分散を考慮し, 既存の境界を緩める, 完全経験的フリードマン型マルティンゲール濃度を導入する。
我々は一般化ギャップのスケーリング法則を作成し、その境界はスケールによって予測的に強くなる。
論文 参考訳(メタデータ) (2025-04-21T16:26:56Z) - Scaling Law Phenomena Across Regression Paradigms: Multiple and Kernel Approaches [28.569601803576845]
トランスフォーマーアーキテクチャを持つモデルの場合、テスト損失はモデルサイズ、データセットサイズ、トレーニングで使用される計算量と強力な関係を示す。
我々の分析はスケーリング法則に関する深い洞察を与え、大きな言語モデルに対する理解を深める可能性がある。
論文 参考訳(メタデータ) (2025-03-03T08:57:49Z) - Scaling Laws in Linear Regression: Compute, Parameters, and Data [86.48154162485712]
無限次元線形回帰セットアップにおけるスケーリング法則の理論について検討する。
テストエラーの再現可能な部分は$Theta(-(a-1) + N-(a-1)/a)$であることを示す。
我々の理論は経験的ニューラルスケーリング法則と一致し、数値シミュレーションによって検証される。
論文 参考訳(メタデータ) (2024-06-12T17:53:29Z) - Scaling and renormalization in high-dimensional regression [72.59731158970894]
リッジ回帰に関する最近の結果について統一的な視点を提示する。
我々は、物理とディープラーニングの背景を持つ読者を対象に、ランダム行列理論と自由確率の基本的なツールを使用する。
我々の結果は拡張され、初期のスケーリング法則のモデルについて統一的な視点を提供する。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - The Quantization Model of Neural Scaling [19.057931064238584]
ニューラルスケーリング法則の量子化モデルを提案し、モデルとデータサイズによる損失の観測されたパワー則の減少と、スケールによる新しい機能の突然の出現について説明する。
使用頻度を減少させるために量子が学習されると、使用中の電力法則が観測された損失のスケーリングを説明する。
論文 参考訳(メタデータ) (2023-03-23T17:58:43Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Mind the Gap: Understanding the Modality Gap in Multi-modal Contrastive
Representation Learning [35.25854322376364]
CLIPのようなマルチモーダルモデルにおいて、データモダリティは、その共有表現に腕の長さに埋め込まれていることが示される。
対照的に、学習は、損失関数の温度パラメータの影響を受け、特定の距離で異なるモードを分離する。
実験により, モダリティギャップ距離の変化は, 下流のゼロショット分類性能と公平性を改善する上で大きな影響を与えることが示された。
論文 参考訳(メタデータ) (2022-03-03T22:53:54Z) - On the Role of Optimization in Double Descent: A Least Squares Study [30.44215064390409]
最小二乗対象の降下勾配解に対して過大なリスクを負うことを示す。
ノイズのない回帰の場合、二重降下は最適化関連量によってのみ説明される。
ニューラルネットワークの予測が保たれているかどうかを実証的に調査する。
論文 参考訳(メタデータ) (2021-07-27T09:13:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。