論文の概要: Superposition Yields Robust Neural Scaling
- arxiv url: http://arxiv.org/abs/2505.10465v3
- Date: Thu, 23 Oct 2025 16:06:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:05.733233
- Title: Superposition Yields Robust Neural Scaling
- Title(参考訳): 重畳収率のロバストなニューラルスケーリング
- Authors: Yizhou Liu, Ziming Liu, Jeff Gore,
- Abstract要約: 表現重畳は、LLMが次元よりも多くの特徴を表現していることを意味するが、損失や神経スケーリングの原因となる重要な要因であることを示す。
結果は,表現重畳をニューラルスケーリング法則の中心的要因として認識し,ニューラルスケーリング法則がいつ改善され,いつ崩壊するかといった問題に対する洞察を提供する。
- 参考スコア(独自算出の注目度): 22.05527470952902
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The success of today's large language models (LLMs) depends on the observation that larger models perform better. However, the origin of this neural scaling law, that loss decreases as a power law with model size, remains unclear. We propose that representation superposition, meaning that LLMs represent more features than they have dimensions, can be a key contributor to loss and cause neural scaling. Based on Anthropic's toy model, we use weight decay to control the degree of superposition, allowing us to systematically study how loss scales with model size. When superposition is weak, the loss follows a power law only if data feature frequencies are power-law distributed. In contrast, under strong superposition, the loss generically scales inversely with model dimension across a broad class of frequency distributions, due to geometric overlaps between representation vectors. We confirmed that open-sourced LLMs operate in the strong superposition regime and have loss scaling like one over the model dimension, and that the Chinchilla scaling laws are also consistent with this behavior. Our results identify representation superposition as a central driver of neural scaling laws, providing insights into questions like when neural scaling laws can be improved and when they will break down.
- Abstract(参考訳): 今日の大きな言語モデル(LLM)の成功は、より大きなモデルはより良いパフォーマンスを示すという観察に依存している。
しかし、モデルサイズを持つパワー法則として損失が減少するこのニューラルスケーリング法則の起源はいまだ不明である。
表現重畳は, LLMが次元よりも多くの特徴を表現し, 損失に寄与し, ニューラルスケーリングの原因となることが示唆された。
Anthropicの玩具モデルに基づいて、重み付けの度合いを制御し、モデルサイズによる損失のスケールを体系的に研究することができる。
重ね合わせが弱い場合、損失はデータ特徴周波数が電力則分布である場合に限り電力法則に従う。
対照的に、強い重ね合わせの下では、損失は表現ベクトル間の幾何的な重なり合いにより、幅広い周波数分布のクラスにわたってモデル次元と逆向きにスケールする。
我々は,オープンソースLLMが強力な重ね合わせ方式で動作し,モデル次元を超えるような損失スケーリングが可能であることを確認し,チンチラスケーリング法則もこの挙動と整合性があることを確認した。
結果は,表現重畳をニューラルスケーリング法則の中心的要因として認識し,ニューラルスケーリング法則がいつ改善され,いつ崩壊するかといった問題に対する洞察を提供する。
関連論文リスト
- Scaling Collapse Reveals Universal Dynamics in Compute-Optimally Trained Neural Networks [59.552873049024775]
計算最適化モデルでは, 極めて高精度な普遍性を示すことを示す。
学習速度が減衰すると、崩壊は非常に厳しくなり、モデル間の正規化曲線の差はノイズフロアより下になる。
これらの現象は、典型的なニューラルスケーリング法則において、崩壊とパワー・ロー構造を結びつけることによって説明される。
論文 参考訳(メタデータ) (2025-07-02T20:03:34Z) - Compute-Optimal LLMs Provably Generalize Better With Scale [102.29926217670926]
我々は,大規模言語モデル(LLM)の事前学習目標に基づく一般化境界を開発する。
損失関数の分散を考慮し, 既存の境界を緩める, 完全経験的フリードマン型マルティンゲール濃度を導入する。
我々は一般化ギャップのスケーリング法則を作成し、その境界はスケールによって予測的に強くなる。
論文 参考訳(メタデータ) (2025-04-21T16:26:56Z) - Scaling Law Phenomena Across Regression Paradigms: Multiple and Kernel Approaches [28.569601803576845]
トランスフォーマーアーキテクチャを持つモデルの場合、テスト損失はモデルサイズ、データセットサイズ、トレーニングで使用される計算量と強力な関係を示す。
我々の分析はスケーリング法則に関する深い洞察を与え、大きな言語モデルに対する理解を深める可能性がある。
論文 参考訳(メタデータ) (2025-03-03T08:57:49Z) - Scaling Laws in Linear Regression: Compute, Parameters, and Data [86.48154162485712]
無限次元線形回帰セットアップにおけるスケーリング法則の理論について検討する。
テストエラーの再現可能な部分は$Theta(-(a-1) + N-(a-1)/a)$であることを示す。
我々の理論は経験的ニューラルスケーリング法則と一致し、数値シミュレーションによって検証される。
論文 参考訳(メタデータ) (2024-06-12T17:53:29Z) - Scaling and renormalization in high-dimensional regression [72.59731158970894]
リッジ回帰に関する最近の結果について統一的な視点を提示する。
我々は、物理とディープラーニングの背景を持つ読者を対象に、ランダム行列理論と自由確率の基本的なツールを使用する。
我々の結果は拡張され、初期のスケーリング法則のモデルについて統一的な視点を提供する。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - The Quantization Model of Neural Scaling [19.057931064238584]
ニューラルスケーリング法則の量子化モデルを提案し、モデルとデータサイズによる損失の観測されたパワー則の減少と、スケールによる新しい機能の突然の出現について説明する。
使用頻度を減少させるために量子が学習されると、使用中の電力法則が観測された損失のスケーリングを説明する。
論文 参考訳(メタデータ) (2023-03-23T17:58:43Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Mind the Gap: Understanding the Modality Gap in Multi-modal Contrastive
Representation Learning [35.25854322376364]
CLIPのようなマルチモーダルモデルにおいて、データモダリティは、その共有表現に腕の長さに埋め込まれていることが示される。
対照的に、学習は、損失関数の温度パラメータの影響を受け、特定の距離で異なるモードを分離する。
実験により, モダリティギャップ距離の変化は, 下流のゼロショット分類性能と公平性を改善する上で大きな影響を与えることが示された。
論文 参考訳(メタデータ) (2022-03-03T22:53:54Z) - On the Role of Optimization in Double Descent: A Least Squares Study [30.44215064390409]
最小二乗対象の降下勾配解に対して過大なリスクを負うことを示す。
ノイズのない回帰の場合、二重降下は最適化関連量によってのみ説明される。
ニューラルネットワークの予測が保たれているかどうかを実証的に調査する。
論文 参考訳(メタデータ) (2021-07-27T09:13:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。