論文の概要: Compute-Optimal LLMs Provably Generalize Better With Scale
- arxiv url: http://arxiv.org/abs/2504.15208v1
- Date: Mon, 21 Apr 2025 16:26:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 15:58:38.128884
- Title: Compute-Optimal LLMs Provably Generalize Better With Scale
- Title(参考訳): Compute-Optimal LLMsはおそらくスケールでより一般化される
- Authors: Marc Finzi, Sanyam Kapoor, Diego Granziol, Anming Gu, Christopher De Sa, J. Zico Kolter, Andrew Gordon Wilson,
- Abstract要約: 我々は,大規模言語モデル(LLM)の事前学習目標に基づく一般化境界を開発する。
損失関数の分散を考慮し, 既存の境界を緩める, 完全経験的フリードマン型マルティンゲール濃度を導入する。
我々は一般化ギャップのスケーリング法則を作成し、その境界はスケールによって予測的に強くなる。
- 参考スコア(独自算出の注目度): 102.29926217670926
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Why do larger language models generalize better? To investigate this question, we develop generalization bounds on the pretraining objective of large language models (LLMs) in the compute-optimal regime, as described by the Chinchilla scaling laws. We introduce a novel, fully empirical Freedman-type martingale concentration inequality that tightens existing bounds by accounting for the variance of the loss function. This generalization bound can be decomposed into three interpretable components: the number of parameters per token, the loss variance, and the quantization error at a fixed bitrate. As compute-optimal language models are scaled up, the number of parameters per data point remains constant; however, both the loss variance and the quantization error decrease, implying that larger models should have smaller generalization gaps. We examine why larger models tend to be more quantizable from an information theoretic perspective, showing that the rate at which they can integrate new information grows more slowly than their capacity on the compute-optimal frontier. From these findings we produce a scaling law for the generalization gap, with bounds that become predictably stronger with scale.
- Abstract(参考訳): より大きな言語モデルはなぜより一般化するのか?
そこで本研究では,大規模言語モデル (LLM) の事前学習目標に基づく一般化境界を,Chinchillaスケーリング法で記述した計算最適法則を用いて検討する。
損失関数の分散を考慮し, 既存の境界を緩める, 完全経験的フリードマン型マルティンゲール濃度不等式を導入する。
この一般化境界は、トークン当たりのパラメータの数、損失分散、固定ビットレートでの量子化誤差の3つの解釈可能な成分に分解することができる。
計算最適言語モデルがスケールアップされるにつれて、データポイントあたりのパラメータの数は一定であり続けるが、損失分散と量子化誤差の両方が減少し、より大きなモデルではより小さな一般化ギャップを持つことが示唆される。
情報理論の観点から、なぜより大きなモデルの方が定量化しやすいのかを考察し、新しい情報を統合する速度が計算-最適フロンティアの能力よりも遅くなることを示す。
これらの結果から、一般化ギャップのスケーリング法則を導出し、その境界はスケールによって予測的に強くなる。
関連論文リスト
- The Hidden Influence of Latent Feature Magnitude When Learning with Imbalanced Data [22.521678971526253]
不均衡データを用いた学習における一般化の障害の主な原因の1つは、MLモデルが推論を行う固有の方法であることを示す。
攻撃的データ拡張は一般にマイノリティクラス予測の精度を向上するが、パラメトリックMLモデルはクラスラベルと限られた機能の組み合わせを関連づける。
論文 参考訳(メタデータ) (2024-07-14T11:20:50Z) - Scaling Laws in Linear Regression: Compute, Parameters, and Data [86.48154162485712]
無限次元線形回帰セットアップにおけるスケーリング法則の理論について検討する。
テストエラーの再現可能な部分は$Theta(-(a-1) + N-(a-1)/a)$であることを示す。
我々の理論は経験的ニューラルスケーリング法則と一致し、数値シミュレーションによって検証される。
論文 参考訳(メタデータ) (2024-06-12T17:53:29Z) - Scaling and renormalization in high-dimensional regression [72.59731158970894]
本稿では,様々な高次元リッジ回帰モデルの訓練および一般化性能の簡潔な導出について述べる。
本稿では,物理と深層学習の背景を持つ読者を対象に,これらのトピックに関する最近の研究成果の紹介とレビューを行う。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - Non-Vacuous Generalization Bounds for Large Language Models [78.42762571499061]
事前訓練された大言語モデルに対して、最初の空でない一般化境界を提供する。
より大きいモデルはより優れた一般化バウンダリを持ち、より小さなモデルよりも圧縮可能であることを示す。
論文 参考訳(メタデータ) (2023-12-28T17:58:42Z) - Two Phases of Scaling Laws for Nearest Neighbor Classifiers [18.93620861346151]
高速スケーリング法則は、データとモデルサイズを単純に増やすことで、機械学習の問題を解決することができることを意味している。
第1段階では、一般化誤差はデータ次元に指数関数的に依存し、急速に減少する。
論文 参考訳(メタデータ) (2023-08-16T09:28:55Z) - Just a Matter of Scale? Reevaluating Scale Equivariance in Convolutional
Neural Networks [3.124871781422893]
畳み込みネットワークはスケールの変動に不変ではなく、異なる大きさのオブジェクトに一般化できない。
重みを並列に共有した再スケールカーネルを多数適用し,最も適切なカーネルを選択するモデル群を新たに導入する。
STIRにおける実験結果から,既存の手法と提案手法の両方が,標準的な畳み込みよりもスケール全体の一般化を向上できることが示唆された。
論文 参考訳(メタデータ) (2022-11-18T15:27:05Z) - Instance-Dependent Generalization Bounds via Optimal Transport [51.71650746285469]
既存の一般化境界は、現代のニューラルネットワークの一般化を促進する重要な要因を説明することができない。
データ空間における学習予測関数の局所リプシッツ正則性に依存するインスタンス依存の一般化境界を導出する。
ニューラルネットワークに対する一般化境界を実験的に解析し、有界値が有意義であることを示し、トレーニング中の一般的な正規化方法の効果を捉える。
論文 参考訳(メタデータ) (2022-11-02T16:39:42Z) - Information-Theoretic Generalization Bounds for Iterative
Semi-Supervised Learning [81.1071978288003]
特に,情報理論の原理を用いて,反復型SSLアルゴリズムのエミュレータ一般化誤差の振る舞いを理解することを目的とする。
我々の理論的結果は、クラス条件分散があまり大きくない場合、一般化誤差の上限は反復数とともに単調に減少するが、すぐに飽和することを示している。
論文 参考訳(メタデータ) (2021-10-03T05:38:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。