論文の概要: Pretraining Scaling Laws for Generative Evaluations of Language Models
- arxiv url: http://arxiv.org/abs/2509.24012v1
- Date: Sun, 28 Sep 2025 18:04:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.591222
- Title: Pretraining Scaling Laws for Generative Evaluations of Language Models
- Title(参考訳): 言語モデルの生成的評価のためのスケーリング法則の事前学習
- Authors: Rylan Schaeffer, Noam Levi, Brando Miranda, Sanmi Koyejo,
- Abstract要約: 生成評価にパス-at-k$を適合させ、最も高価なモデルのパス-at-k$を予測するための3つの異なるスケーリング法則を示す。
我々のフレームワークは、研究者や実践者に対して、生成性能を予測するための洞察と方法論を提供します。
- 参考スコア(独自算出の注目度): 30.6654523997984
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural scaling laws have played a central role in modern machine learning, driving the field's ever-expanding scaling of parameters, data and compute. While much research has gone into fitting scaling laws and predicting performance on pretraining losses and on discriminative evaluations such as multiple-choice question-answering, comparatively little research has been done on fitting scaling laws and predicting performance on generative evaluations such as mathematical problem-solving or software engineering. We propose and evaluate three different pretraining scaling laws for fitting pass-at-$k$ on generative evaluations and for predicting pass-at-$k$ of the most expensive model using the performance of cheaper models. Our three scaling laws differ in the covariates used: (1) compute, (2) model parameters and tokens, (3) log likelihoods of gold reference solutions. We make four main contributions: (1) We show how generative evaluations offer new hyperparameters (in our setting, $k$) that researchers can use to control the scaling laws parameters and the predictability of performance. (2) In terms of scaling law parameters, we find that the compute scaling law and parameters\,+\,tokens scaling law stabilize for the last ~$1.5{-}2.5$ orders of magnitude, whereas the gold reference likelihood scaling law stabilizes for the last ~$5$ orders of magnitude. (3) In terms of predictive performance, we find all three scaling laws perform comparably, although the compute scaling law predicts slightly worse for small $k$ and the log likelihoods of gold reference solutions predicts slightly worse for large $k$. (4) We establish a theoretical connection that the compute scaling law emerges as the compute-optimal envelope of the parameters-and-tokens scaling law. Our framework provides researchers and practitioners with insights and methodologies to forecast generative performance.
- Abstract(参考訳): ニューラルネットワークのスケーリング法則は、現代の機械学習において中心的な役割を担い、パラメータやデータ、計算の拡大を続ける分野のスケーリングを推進してきた。
スケーリング法則の適合や事前学習損失の予測、複数選択質問回答などの差別的評価など、多くの研究が行われているが、スケーリング法則の適合や数学的問題解決やソフトウェア工学のような生成的評価のパフォーマンスの予測については、比較的研究がほとんど行われていない。
本稿では,3種類の事前学習スケーリング法則を提案し,より安価なモデルの性能を用いて,パス・アット・ドルを生成的評価に適用し,パス・アット・ドル・ドルを最も高価なモデルの予測を行う。
この3つのスケーリング法則は,(1)計算,(2)モデルパラメータとトークン,(3)ゴールド基準解のログ可能性の3つの共変量で異なる。
1) 生成的評価が新しいハイパーパラメータ(この設定では$k$)を提供することで、研究者がスケーリング法則パラメータと性能の予測可能性を制御することができることを示す。
2) 法則のスケーリングでは, 計算スケーリング法則とパラメータ\,+\,tokensスケーリング法則が最終1.5{-}2.5$のオーダーで安定化するのに対し, ゴールド基準のスケーリング法則は最終1.5$のオーダーで安定化する。
(3) 予測性能の面では,3つのスケーリング法則が相容れないが,計算スケーリング法則は小さい$k$ではわずかに悪いと予測し,大きな$k$では,ゴールドレファレンスソリューションのログ確率はわずかに悪いと予測する。
(4) パラメータ・アンド・トークンスケーリング法則の計算最適エンベロープとして計算スケーリング法則が出現する理論接続を確立する。
我々のフレームワークは、研究者や実践者に対して、生成性能を予測するための洞察と方法論を提供します。
関連論文リスト
- Bayesian Neural Scaling Law Extrapolation with Prior-Data Fitted Networks [100.13335639780415]
スケーリング法則は、しばしばパワーローに従っており、より大きなスケールでのスケーリングの振る舞いを予測するために、パワーロー関数のいくつかの変種を提案した。
既存の手法は主に点推定に依存しており、現実のアプリケーションにとって欠かせない不確実性を定量化しない。
本研究では,ニューラルスケーリング法外挿のためのPFNに基づくベイズフレームワークについて検討する。
論文 参考訳(メタデータ) (2025-05-29T03:19:17Z) - ScaMo: Exploring the Scaling Law in Autoregressive Motion Generation Model [27.532993606576152]
本稿では,モーショントークン機構であるMotionQ-VAEと,テキストFS-VAE変換器を備えるスケーラブルなモーション生成フレームワークを提案する。
運動生成の文脈におけるスケーリング法則の存在を初めて確認する。
計算予算が1e18$である場合、最適なトランスフォーマーサイズ、語彙サイズ、およびデータ要求を予測する。
論文 参考訳(メタデータ) (2024-12-19T06:22:19Z) - Resolving Discrepancies in Compute-Optimal Scaling of Language Models [42.82944266028316]
2つのデータセット上でKaplanスケーリング法則を再現することにより、その相違を説明できる。
注意深い学習率の低下は、そのスケーリング法則の妥当性に欠かせないものである。
論文 参考訳(メタデータ) (2024-06-27T13:02:43Z) - Language models scale reliably with over-training and on downstream tasks [121.69867718185125]
スケーリング法則は、高価なトレーニング実行を引き出すための有用なガイドである。
しかし、現在の研究と言語モデルがどのように訓練されているかには差がある。
対照的に、スケーリング法則は主に推論における損失を予測するが、モデルは通常下流のタスクのパフォーマンスで比較される。
論文 参考訳(メタデータ) (2024-03-13T13:54:00Z) - Predicting Emergent Abilities with Infinite Resolution Evaluation [85.89911520190711]
本稿では,デコードフェーズにおける大規模なサンプリングを通じて,理論的に無限の分解能を持つ評価戦略であるPassUntilを紹介する。
トレーニング開始前に0.05%の偏差でコード生成における2.4Bモデルの性能を予測する。
スケーリング曲線が標準スケーリング法則関数に適合できないような,高速化された出現の種を同定する。
論文 参考訳(メタデータ) (2023-10-05T02:35:00Z) - A Solvable Model of Neural Scaling Laws [72.8349503901712]
大量のパラメータを持つ大規模な言語モデルは、インターネットに近い数のトークンで訓練されると、ニューラルネットワークのスケーリング法則に従うことが実証的に示されている。
我々は,このニューラルスケーリング現象を捉える統計モデル(共同生成データモデルとランダム特徴モデル)を提案する。
主な発見は、自然データセットの統計に現れる電力法則が非線形ランダムな特徴写像によって拡張される方法である。
論文 参考訳(メタデータ) (2022-10-30T15:13:18Z) - Scaling Laws Under the Microscope: Predicting Transformer Performance
from Small Scale Experiments [42.793379799720434]
本稿では,スケーリング法則がモデル開発の促進に有効かどうかを考察する。
スケーリング法則は、いくつかのNLPタスクにおいて微調整時に現れる。
スケーリング法則が存在するタスクに対しては、より大きなモデルのパフォーマンスを予測するために使用することができる。
論文 参考訳(メタデータ) (2022-02-13T19:13:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。