論文の概要: Evaluating the Robustness of Chinchilla Compute-Optimal Scaling
- arxiv url: http://arxiv.org/abs/2509.23963v1
- Date: Sun, 28 Sep 2025 16:41:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.557857
- Title: Evaluating the Robustness of Chinchilla Compute-Optimal Scaling
- Title(参考訳): チンチラCompute-Optimal Scalingのロバスト性評価
- Authors: Rylan Schaeffer, Noam Levi, Andreas Kirsch, Theo Guenais, Brando Miranda, Elyas Obbad, Sanmi Koyejo,
- Abstract要約: Hoffman et al (2022)のChinchilla論文は、計算最適スケーリングの原則を導入した。
開業医はいまだにチンチラの処方薬を頼りにできるのか?
意外なことに、分析にどのモデルパラメータが使われているかは、重要な結果に有意に影響を与えていない。
- 参考スコア(独自算出の注目度): 27.80623613251178
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hoffman et al (2022)'s Chinchilla paper introduced the principle of compute-optimal scaling, laying a foundation for future scaling of language models. In the years since, however, valid concerns about Chinchilla have been raised: wide confidence intervals, discrepancies between its three approaches, and incongruities with other scaling laws. This raises a critical question for the field: Can practitioners still rely on Chinchilla's prescriptions? Our work demonstrates the answer is yes. We begin by uncovering that the model parameters central to Chinchilla's analyses were ambiguous: three interpretations are possible, with relative differences between different interpretations of model parameters as high as 15.2%. We find that, perhaps surprisingly, which model parameters are used for the analyses do not meaningfully affect key results: the scaling law estimates and the compute-optimal tokens-to-parameter ratio. Indeed, under one interpretation, the tokens-to-parameter ratio becomes more constant with the target compute budget. We then ask how distorted the Chinchilla model parameters could have been without meaningfully affecting the key results. By deliberately perturbing model parameters in four structured ways, we find that key Chinchilla results are most sensitive to additive or systematic errors, which can alter the otherwise flat trend of the optimal tokens-to-parameter ratio, but overall, Chinchilla's key results withstand sizable perturbations. Altogether, our findings offer the field renewed confidence in Chinchilla as a durable guide for scaling language models.
- Abstract(参考訳): Hoffman et al (2022) の Chinchilla 論文は計算最適スケーリングの原則を導入し、将来の言語モデルのスケーリング基盤を構築した。
しかし、それ以来、チンチラに関する有効な懸念が高まっている: 広範囲の信頼区間、その3つのアプローチの相違、および他のスケーリング法と矛盾する点である。
これは、この分野にとって重要な疑問を提起する: 実践者は依然として、チチラの処方薬を頼りにできるだろうか?
私たちの研究は答えがイエスであることを証明している。
3つの解釈が可能であり、モデルパラメータの異なる解釈と最大15.2%の相対的な差異がある。
解析にどのモデルパラメータが使用されるかは、スケーリング法則の推定値や計算-最適トークン-パラメータ比など、重要な結果に有意に影響を与えない。
実際、1つの解釈の下では、トークンとパラメータの比率は、目標の計算予算よりも一定になる。
次に、キーとなる結果に意味のある影響を与えずに、どうやってChinchillaモデルのパラメータが歪んだのかを尋ねます。
モデルパラメータを4つの構造化された方法で意図的に摂動することにより、キーチンチラの結果は、最適トークンとパラメータ比の非平坦な傾向を変化させることのできる、追加的または体系的なエラーに対して最も敏感であることが分かるが、全体としては、チチラの重要な結果は、大きな摂動に耐える。
さらに、我々の発見は、言語モデルを拡張するための耐久性のあるガイドとして、Chinchillaを再び信頼する場を提供する。
関連論文リスト
- Variational Reasoning for Language Models [93.08197299751197]
本稿では,思考トレースを潜在変数として扱う言語モデルのための変分推論フレームワークを提案する。
GRPOを含むリジェクションサンプリングとバイナリリワードRLは局所的なフォワードKLの目的と解釈できることを示す。
論文 参考訳(メタデータ) (2025-09-26T17:58:10Z) - Scaling Exponents Across Parameterizations and Optimizers [94.54718325264218]
本稿では,先行研究における重要な仮定を考察し,パラメータ化の新たな視点を提案する。
私たちの経験的調査には、3つの組み合わせでトレーニングされた数万のモデルが含まれています。
最高の学習率のスケーリング基準は、以前の作業の仮定から除外されることがよくあります。
論文 参考訳(メタデータ) (2024-07-08T12:32:51Z) - Reconciling Kaplan and Chinchilla Scaling Laws [2.6238635410101443]
本稿では,カプランの当初の過大評価の主な原因を説明することによって,チンチラのスケーリング係数を再確認する。
第2のコントリビューションとして、報告された損失と計算の関係の相違について説明する。
論文 参考訳(メタデータ) (2024-06-12T13:30:48Z) - Beyond Chinchilla-Optimal: Accounting for Inference in Language Model Scaling Laws [14.546425605156578]
我々は,所与の品質と予測要求のモデルをトレーニングし,展開するために,最適LLMパラメータ数と事前学習データサイズを計算するために,Chinchillaスケーリング法を変更した。
我々は,パラメータ単位のトークンを極端な範囲にスケールするにつれて,モデルの品質が向上し続けることを確認するために,さまざまなサイズとパラメータ数の47モデルを訓練する。
論文 参考訳(メタデータ) (2023-12-31T10:53:58Z) - An Investigation of Why Overparameterization Exacerbates Spurious
Correlations [98.3066727301239]
この動作を駆動するトレーニングデータの2つの重要な特性を特定します。
モデルの"記憶"に対する帰納的バイアスが,パラメータ化の超過を損なう可能性を示す。
論文 参考訳(メタデータ) (2020-05-09T01:59:13Z) - SUMO: Unbiased Estimation of Log Marginal Probability for Latent
Variable Models [80.22609163316459]
無限級数のランダム化トランケーションに基づく潜在変数モデルに対して、ログ境界確率の非バイアス推定器とその勾配を導入する。
推定器を用いてトレーニングしたモデルは、同じ平均計算コストに対して、標準的な重要度サンプリングに基づくアプローチよりも優れたテストセット確率を与えることを示す。
論文 参考訳(メタデータ) (2020-04-01T11:49:30Z) - Censored Quantile Regression Forest [81.9098291337097]
我々は、検閲に適応し、データが検閲を示さないときに量子スコアをもたらす新しい推定方程式を開発する。
提案手法は, パラメトリックなモデリング仮定を使わずに, 時間単位の定量を推定することができる。
論文 参考訳(メタデータ) (2020-01-08T23:20:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。