論文の概要: Neural Neural Scaling Laws
- arxiv url: http://arxiv.org/abs/2601.19831v1
- Date: Tue, 27 Jan 2026 17:38:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.421983
- Title: Neural Neural Scaling Laws
- Title(参考訳): ニューラル・ニューラル・スケーリング法則
- Authors: Michael Y. Hu, Jane Pan, Ayush Rajesh Jhaveri, Nicholas Lourie, Kyunghyun Cho,
- Abstract要約: 我々は,時系列外挿としてスケール法則を予測するニューラルネットワークであるNeuNeu(NeuNeu)を提案する。
NeuNeuは66の下流タスクでモデル精度を予測する場合、2.04%の平均絶対誤差を達成している。
我々の研究は、データから直接下流のスケーリング法則を予測することはパラメトリックな代替法よりも優れていることを示唆している。
- 参考スコア(独自算出の注目度): 40.38002195911611
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural scaling laws predict how language model performance improves with increased compute. While aggregate metrics like validation loss can follow smooth power-law curves, individual downstream tasks exhibit diverse scaling behaviors: some improve monotonically, others plateau, and some even degrade with scale. We argue that predicting downstream performance from validation perplexity suffers from two limitations: averaging token-level losses obscures signal, and no simple parametric family can capture the full spectrum of scaling behaviors. To address this, we propose Neural Neural Scaling Laws (NeuNeu), a neural network that frames scaling law prediction as time-series extrapolation. NeuNeu combines temporal context from observed accuracy trajectories with token-level validation losses, learning to predict future performance without assuming any bottleneck or functional form. Trained entirely on open-source model checkpoints from HuggingFace, NeuNeu achieves 2.04% mean absolute error in predicting model accuracy on 66 downstream tasks -- a 38% reduction compared to logistic scaling laws (3.29% MAE). Furthermore, NeuNeu generalizes zero-shot to unseen model families, parameter counts, and downstream tasks. Our work suggests that predicting downstream scaling laws directly from data outperforms parametric alternatives.
- Abstract(参考訳): ニューラルスケーリング法則は、計算量の増加によって言語モデルのパフォーマンスが向上するかを予測する。
検証損失のような集約されたメトリクスはスムーズなパワールール曲線に従うことができるが、下流の個々のタスクは様々なスケーリングの振る舞いを示す。
我々は、検証の難易度から下流のパフォーマンスを予測するには、平均的なトークンレベルの損失がシグナルを隠蔽し、単純なパラメトリックファミリがスケーリング行動の全スペクトルをキャプチャできないという2つの制限があると主張している。
これを解決するために、時系列外挿としてスケーリング法則を予測するニューラルネットワークであるNeuNeu(NeuNeu)を提案する。
NeuNeuは、観測された精度軌道からの時間的コンテキストとトークンレベルの検証損失を組み合わせ、ボトルネックや機能形式を仮定することなく、将来のパフォーマンスを予測することを学習する。
HuggingFaceのオープンソースモデルチェックポイントで完全にトレーニングされたNeuNeuは、66の下流タスクでモデル精度を予測する際の平均的な絶対誤差を2.04%達成している。
さらに、NeuNeuはゼロショットを、目に見えないモデルファミリ、パラメータカウント、下流タスクに一般化する。
我々の研究は、データから直接下流のスケーリング法則を予測することはパラメトリックな代替法よりも優れていることを示唆している。
関連論文リスト
- Why Machine Learning Models Systematically Underestimate Extreme Values II: How to Fix It with LatentNN [0.2700171473617699]
減衰バイアスは、天文学的なデータ駆動モデルに影響を与える。
ニューラルネットワークは同じ減衰バイアスに悩まされていることを示す。
ネットワークパラメータと潜時入力値を協調的に最適化するLatentNNを提案する。
論文 参考訳(メタデータ) (2025-12-29T01:59:10Z) - Scaling Laws Are Unreliable for Downstream Tasks: A Reality Check [44.088564825871345]
下流のスケーリング法則は、より大規模なタスクパフォーマンスを、より小さなスケールでモデルのパフォーマンスから予測することを目的としている。
予測可能なスケーリングは少数のケースでのみ発生します。
明らかに実験的な設定の変更は、スケーリングの振る舞いを完全に変えます。
論文 参考訳(メタデータ) (2025-07-01T15:52:55Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Predicting Emergent Abilities with Infinite Resolution Evaluation [85.89911520190711]
本稿では,デコードフェーズにおける大規模なサンプリングを通じて,理論的に無限の分解能を持つ評価戦略であるPassUntilを紹介する。
トレーニング開始前に0.05%の偏差でコード生成における2.4Bモデルの性能を予測する。
スケーリング曲線が標準スケーリング法則関数に適合できないような,高速化された出現の種を同定する。
論文 参考訳(メタデータ) (2023-10-05T02:35:00Z) - Broken Neural Scaling Laws [9.020652910657931]
ブロークニューラルスケーリング法(BNSL)は、ディープニューラルネットワークのスケーリング挙動を正確にモデル化し、外挿する。
このセットには、大規模ビジョン、言語、オーディオ、ビデオ、拡散、生成モデリング、マルチモーダル学習、コントラスト学習、AIアライメント、ロボット工学、アウト・オブ・ディストリビューション(OOD)一般化が含まれる。
論文 参考訳(メタデータ) (2022-10-26T17:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。