論文の概要: Tokens-per-Parameter Coverage Is Critical for Robust LLM Scaling Law Extrapolation
- arxiv url: http://arxiv.org/abs/2605.08541v2
- Date: Tue, 12 May 2026 22:27:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 17:13:58.811773
- Title: Tokens-per-Parameter Coverage Is Critical for Robust LLM Scaling Law Extrapolation
- Title(参考訳): ロバストLLM法外挿法には1パラメータあたりのトークン被覆が不可欠である
- Authors: Joshua Shay Kricheli, Alexander Lawrence Reid, Soumajyoti Sarkar, Venkata Gandikota, Paulo Shakarian,
- Abstract要約: ニューラルスケーリング法則は、パラメータカウント$N$とトークンカウント$D$のパワーロー関数として、言語モデルの損失を近似する。
本稿では,コリニア設計がガウス・ニュートン最小二乗問題に固有の不条件を生じさせることを示す。
これを4つのスケーリング法則形式に対して証明し、十分に条件付き推定に十分必要な閉形式TPP多様性閾値を導出する。
- 参考スコア(独自算出の注目度): 45.56738584872585
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural scaling laws approximate a language model's loss as a power-law function of parameter count $N$ and token count $D$. Following Chinchilla-style compute-optimal training, many studies fit scaling laws from runs performed under a fixed tokens-per-parameter (TPP) ratio $k$ and set $D = kN$. We show that this collinear design, combined with the empirically common near-equality of the exponents governing $N$ and $D$, induces an inherent ill-conditioning in the Gauss-Newton least-squares problem: the condition number of the design grows as the inverse square of the gap between the $N$ and $D$-exponents. The scale coefficients become practically unidentifiable, with confidence intervals inflating by an order of magnitude or more, yielding a ``sloppy'' model whose extrapolations degrade sharply off the training ray. We prove this for four scaling-law formalisms and derive a closed-form TPP-diversity threshold that is necessary and sufficient for well-conditioned estimation. Empirically, non-collinear designs outperform collinear ones on held-out splits with a 97.3\% win rate across four laws, five corpora, multiple floating point precision modes. We further show the degeneracy is rooted in Jacobian geometry and is not an artifact of the loss function: any smooth estimation objective whose curvature involves the Jacobian inherits the same ill-conditioning.
- Abstract(参考訳): ニューラルスケーリング法則は、パラメータカウント$N$とトークンカウント$D$のパワーロー関数として、言語モデルの損失を近似する。
チンチラ型計算最適トレーニングの後、多くの研究は、固定トークン毎パラメータ(TPP)比$k$とセット$D = kN$で実行される実行のスケーリング法則に適合する。
このコリニア設計は、経験的に一般的な$N$と$D$の近等式と組み合わさって、ガウス・ニュートン最小二乗問題において固有の悪条件を誘導することを示し、その条件数は、$N$と$D$のギャップの逆二乗として増加する。
尺度係数は事実上識別不能となり、信頼区間が等級数以上膨らみ、外挿がトレーニング線から急激にずれる「スロッピー」モデルが得られる。
これを4つのスケーリング法則形式に対して証明し、十分に条件付き推定に十分必要な閉形式TPP多様性閾値を導出する。
実証的には、コリナー以外の設計は、ホールトアウトスプリットでコリナーよりも97.3倍の勝利率で、4つの法則、5つのコーパス、複数の浮動小数点精度モードで優れている。
さらに、縮退性はヤコビアン幾何学に根付いており、損失関数のアーチファクトではないことを示す。
関連論文リスト
- Effective Frontiers: A Unification of Neural Scaling Laws [19.808117554175013]
本稿では,学習課題を長期分布(Zipfian)のパターンのプログレッシブカバレッジとして抽象化する統合フレームワークを提案する。
我々は、$N$、$D$、$C$の正確なスケーリング法則を導き、それらがキャパシティ、カバレッジ、最適化のボトルネックに起因する。
論文 参考訳(メタデータ) (2026-02-01T10:44:46Z) - Newton-Puiseux Analysis for Interpretability and Calibration of Complex-Valued Neural Networks [0.0]
複雑なニューラルネットワーク(CVNN)は、心電図(ECG)、レーダー/ソナー、無線の位相/四分法(I/Q)ストリームなどの位相感受性信号を扱うのに適している。
訓練されたCVNNの局所的決定幾何を,小型のキンク対応サロゲートに適合させて検討するNewton-Puiseuxフレームワークを提案する。
我々のフェーズアウェア分析は、制御された$C2$合成ベンチマークを超える2つのケーススタディにおいて、センシティブな方向を特定し、予測エラーを強化する。
論文 参考訳(メタデータ) (2025-04-27T09:37:07Z) - Convergence Rate Analysis of LION [54.28350823319057]
LION は、勾配カルシュ=クーン=T (sqrtdK-)$で測定された $cal(sqrtdK-)$ の反復を収束する。
従来のSGDと比較して,LIONは損失が小さく,性能も高いことを示す。
論文 参考訳(メタデータ) (2024-11-12T11:30:53Z) - Multivariate root-n-consistent smoothing parameter free matching estimators and estimators of inverse density weighted expectations [51.000851088730684]
我々は、パラメトリックな$sqrt n $-rateで収束する、最も近い隣人の新しい修正とマッチング推定器を開発する。
我々は,非パラメトリック関数推定器は含まないこと,特に標本サイズ依存パラメータの平滑化には依存していないことを強調する。
論文 参考訳(メタデータ) (2024-07-11T13:28:34Z) - Universal Online Learning with Gradient Variations: A Multi-layer Online Ensemble Approach [57.92727189589498]
本稿では,2段階の適応性を持つオンライン凸最適化手法を提案する。
我々は$mathcalO(log V_T)$, $mathcalO(d log V_T)$, $hatmathcalO(sqrtV_T)$ regret bounds for strong convex, exp-concave and convex loss function。
論文 参考訳(メタデータ) (2023-07-17T09:55:35Z) - Reduced Contraction Costs of Corner-Transfer Methods for PEPS [0.0]
無限に投影された絡み合ったペア状態の収縮を抑えるための最優先計算コストを削減できる近似法を提案する。
計算コストの改善により、大きな結合次元の計算が可能となり、そのポテンシャルを拡大して課題を解決することができる。
論文 参考訳(メタデータ) (2023-06-14T02:54:12Z) - Robust Implicit Networks via Non-Euclidean Contractions [63.91638306025768]
暗黙のニューラルネットワークは、精度の向上とメモリ消費の大幅な削減を示す。
彼らは不利な姿勢と収束の不安定さに悩まされる。
本論文は,ニューラルネットワークを高機能かつ頑健に設計するための新しい枠組みを提供する。
論文 参考訳(メタデータ) (2021-06-06T18:05:02Z) - Estimation in Tensor Ising Models [5.161531917413708]
N$ノード上の分布から1つのサンプルを与えられた$p$-tensor Isingモデルの自然パラメータを推定する問題を考える。
特に、$sqrt N$-consistency of the MPL estimate in the $p$-spin Sherrington-Kirkpatrick (SK) model。
我々は、$p$-tensor Curie-Weiss モデルの特別な場合における MPL 推定の正確なゆらぎを導出する。
論文 参考訳(メタデータ) (2020-08-29T00:06:58Z) - A Precise High-Dimensional Asymptotic Theory for Boosting and
Minimum-$\ell_1$-Norm Interpolated Classifiers [3.167685495996986]
本稿では,分離可能なデータの強化に関する高精度な高次元理論を確立する。
統計モデルのクラスでは、ブースティングの普遍性誤差を正確に解析する。
また, 推力試験誤差と最適ベイズ誤差の関係を明示的に説明する。
論文 参考訳(メタデータ) (2020-02-05T00:24:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。