論文の概要: Deriving Neural Scaling Laws from the statistics of natural language
- arxiv url: http://arxiv.org/abs/2602.07488v1
- Date: Sat, 07 Feb 2026 10:40:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.647493
- Title: Deriving Neural Scaling Laws from the statistics of natural language
- Title(参考訳): 自然言語の統計に基づくニューラルスケーリング法則の導出
- Authors: Francesco Cagnetta, Allan Raventós, Surya Ganguli, Matthieu Wyart,
- Abstract要約: データ制限スケーリング法則の場合、最初の理論を提供する。
ニューラルスケーリング指数を予測できる言語の2つの重要な統計特性を分離する。
本理論は, GPT-2およびLLaMAスタイルモデルのトレーニングから得られた, 実験的に測定されたニューラルスケーリング法則と有意な一致を示した。
- 参考スコア(独自算出の注目度): 23.701814586453654
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the fact that experimental neural scaling laws have substantially guided empirical progress in large-scale machine learning, no existing theory can quantitatively predict the exponents of these important laws for any modern LLM trained on any natural language dataset. We provide the first such theory in the case of data-limited scaling laws. We isolate two key statistical properties of language that alone can predict neural scaling exponents: (i) the decay of pairwise token correlations with time separation between token pairs, and (ii) the decay of the next-token conditional entropy with the length of the conditioning context. We further derive a simple formula in terms of these statistics that predicts data-limited neural scaling exponents from first principles without any free parameters or synthetic data models. Our theory exhibits a remarkable match with experimentally measured neural scaling laws obtained from training GPT-2 and LLaMA style models from scratch on two qualitatively different benchmarks, TinyStories and WikiText.
- Abstract(参考訳): 実験的なニューラルスケーリング法則が大規模な機械学習における経験的進歩を実質的に導くという事実にもかかわらず、これらの重要な法則の指数を、いかなる自然言語データセットで訓練された現代のLLMに対して定量的に予測する理論は存在しない。
データ制限スケーリング法則の場合、このような理論を最初に提示する。
ニューラルスケーリング指数を予測できる言語の重要な2つの統計特性を分離する。
(i)トークンペア間の時間的分離とペアワイズトークン相関の崩壊
(ii)条件付き文脈の長さの次トーケン条件エントロピーの崩壊。
さらに、自由パラメータや合成データモデルなしで、第一原理からデータ制限されたニューラルスケーリング指数を予測する、これらの統計量の観点から単純な公式を導出する。
この理論は,2つの定性的なベンチマークであるTinyStoriesとWikiTextを用いて,GPT-2とLLaMAスタイルのモデルをスクラッチからトレーニングすることで得られる,実験的に測定されたニューラルスケーリング法則と顕著な一致を示した。
関連論文リスト
- On the origin of neural scaling laws: from random graphs to natural language [10.425020020850402]
可変複雑性グラフ上でランダムウォーク(ビグラム)を予測することを訓練したトランスフォーマーのスケーリング法則について検討した。
より単純化された生成言語モデルからサンプリングされたシーケンスをトレーニングすることで、自然言語の複雑さを体系的に減らすことを検討する。
また、エルドス・レニイ(Erds-Renyi)やバラブシ・アルベルト(Barabsi-Albert)のアンサンブルから引き出されたランダムなグラフのランダムウォークのトレーニングから得られるスケーリング法則も含む。
論文 参考訳(メタデータ) (2026-01-15T18:46:09Z) - I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data? [76.15163242945813]
大規模言語モデル (LLM) は、多くの人が知能の形式を示すと結論づけている。
本稿では,潜在離散変数として表現される人間解釈可能な概念に基づいてトークンを生成する新しい生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-12T01:21:17Z) - Neural Scaling Laws Rooted in the Data Distribution [0.0]
ディープニューラルネットワークは経験的なニューラルスケーリング法則を示し、誤差はモデルやデータサイズの増加とともにパワー法則として減少する。
パーコレーション理論を用いて,自然データセットを記述する数学的モデルを構築した。
パーコレーション理論シミュレーションから導かれたおもちゃのデータセット上で回帰モデルを訓練して理論を検証した。
論文 参考訳(メタデータ) (2024-12-10T22:01:38Z) - Information-Theoretic Foundations for Neural Scaling Laws [20.617552198581024]
我々は、ニューラルスケーリング法則のための情報理論の基礎を開発する。
データとモデルサイズの間の最適関係は、対数的要因まで線形であることが観察された。
論文 参考訳(メタデータ) (2024-06-28T02:20:54Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - An Information-Theoretic Analysis of Compute-Optimal Neural Scaling Laws [24.356906682593532]
大規模ニューラルネットワークにおけるモデルとトレーニングデータセットサイズ間の計算-最適トレードオフについて検討する。
以上の結果から, チンチラの実証分析で裏付けられる線形関係が示唆された。
論文 参考訳(メタデータ) (2022-12-02T18:46:41Z) - A Solvable Model of Neural Scaling Laws [72.8349503901712]
大量のパラメータを持つ大規模な言語モデルは、インターネットに近い数のトークンで訓練されると、ニューラルネットワークのスケーリング法則に従うことが実証的に示されている。
我々は,このニューラルスケーリング現象を捉える統計モデル(共同生成データモデルとランダム特徴モデル)を提案する。
主な発見は、自然データセットの統計に現れる電力法則が非線形ランダムな特徴写像によって拡張される方法である。
論文 参考訳(メタデータ) (2022-10-30T15:13:18Z) - Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。
我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。
実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文 参考訳(メタデータ) (2020-09-27T02:13:38Z) - Parsimonious neural networks learn interpretable physical laws [77.34726150561087]
本稿では、ニューラルネットワークと進化的最適化を組み合わせたパシモニクスニューラルネットワーク(PNN)を提案し、精度とパシモニクスのバランスをとるモデルを求める。
アプローチのパワーと汎用性は、古典力学のモデルを開発し、基本特性から材料の融解温度を予測することによって実証される。
論文 参考訳(メタデータ) (2020-05-08T16:15:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。