論文の概要: On the origin of neural scaling laws: from random graphs to natural language
- arxiv url: http://arxiv.org/abs/2601.10684v1
- Date: Thu, 15 Jan 2026 18:46:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.272444
- Title: On the origin of neural scaling laws: from random graphs to natural language
- Title(参考訳): ニューラルスケーリング法則の起源--ランダムグラフから自然言語へ
- Authors: Maissam Barkeshli, Alberto Alfarano, Andrey Gromov,
- Abstract要約: 可変複雑性グラフ上でランダムウォーク(ビグラム)を予測することを訓練したトランスフォーマーのスケーリング法則について検討した。
より単純化された生成言語モデルからサンプリングされたシーケンスをトレーニングすることで、自然言語の複雑さを体系的に減らすことを検討する。
また、エルドス・レニイ(Erds-Renyi)やバラブシ・アルベルト(Barabsi-Albert)のアンサンブルから引き出されたランダムなグラフのランダムウォークのトレーニングから得られるスケーリング法則も含む。
- 参考スコア(独自算出の注目度): 10.425020020850402
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling laws have played a major role in the modern AI revolution, providing practitioners predictive power over how the model performance will improve with increasing data, compute, and number of model parameters. This has spurred an intense interest in the origin of neural scaling laws, with a common suggestion being that they arise from power law structure already present in the data. In this paper we study scaling laws for transformers trained to predict random walks (bigrams) on graphs with tunable complexity. We demonstrate that this simplified setting already gives rise to neural scaling laws even in the absence of power law structure in the data correlations. We further consider dialing down the complexity of natural language systematically, by training on sequences sampled from increasingly simplified generative language models, from 4,2,1-layer transformer language models down to language bigrams, revealing a monotonic evolution of the scaling exponents. Our results also include scaling laws obtained from training on random walks on random graphs drawn from Erdös-Renyi and scale-free Barabási-Albert ensembles. Finally, we revisit conventional scaling laws for language modeling, demonstrating that several essential results can be reproduced using 2 layer transformers with context length of 50, provide a critical analysis of various fits used in prior literature, demonstrate an alternative method for obtaining compute optimal curves as compared with current practice in published literature, and provide preliminary evidence that maximal update parameterization may be more parameter efficient than standard parameterization.
- Abstract(参考訳): スケーリング法則は、現代のAI革命において重要な役割を果たしており、データ、計算、モデルパラメータの数の増加によって、モデルパフォーマンスがどのように改善されるかについて、実践者が予測力を提供する。
このことがニューラルスケーリング法の起源に強い関心を喚起し、データにすでに存在する電力法構造から生じるという共通の提案がなされた。
本稿では,変更可能な複雑性を持つグラフ上でランダムウォーク(ビグラム)を予測するために訓練されたトランスフォーマーのスケーリング法則について検討する。
我々は、この単純化された設定が、データ相関に電力法則構造が存在しない場合でも、既にニューラルスケーリング法則を生じさせていることを実証した。
さらに,4,2,1層トランスフォーマー言語モデルから言語ビッグラムまで,より単純化された生成言語モデルから抽出されたシーケンスをトレーニングすることにより,自然言語の複雑さを体系的に解消することを検討する。
我々の結果には、エルデシュ=レニイから引き出されたランダムグラフ上のランダムウォークのトレーニングから得られるスケーリング法則や、スケールフリーなバラバーシ=アルベルトアンサンブルも含まれている。
最後に、従来の言語モデリングのスケーリング法則を再検討し、文脈長50の2層トランスフォーマーを用いていくつかの本質的な結果を再現できることを実証し、先行文献で用いられる様々な適合点を批判的に分析し、現在出版されている文献と比較して計算最適曲線を求める代替手法を実証し、最大更新パラメタライゼーションが標準パラメタライゼーションよりもパラメータ効率が高いことを実証する。
関連論文リスト
- Neural Scaling Laws Rooted in the Data Distribution [0.0]
ディープニューラルネットワークは経験的なニューラルスケーリング法則を示し、誤差はモデルやデータサイズの増加とともにパワー法則として減少する。
パーコレーション理論を用いて,自然データセットを記述する数学的モデルを構築した。
パーコレーション理論シミュレーションから導かれたおもちゃのデータセット上で回帰モデルを訓練して理論を検証した。
論文 参考訳(メタデータ) (2024-12-10T22:01:38Z) - Understanding Scaling Laws with Statistical and Approximation Theory for Transformer Neural Networks on Intrinsically Low-dimensional Data [4.481230230086981]
ディープニューラルネットワークでは、モデルのサイズとデータサイズの両方に依存するパワースケーリング法則に従うために、モデルの一般化誤差がしばしば観察される。
本理論は, 一般化誤差とトレーニングデータサイズと変圧器のネットワークサイズとの間のパワー則を予測する。
多様体仮説の下で低次元のデータ構造を利用することにより、データ幾何学を尊重する方法でトランスフォーマースケーリング法則を説明することができる。
論文 参考訳(メタデータ) (2024-11-11T01:05:28Z) - Scaling and renormalization in high-dimensional regression [72.59731158970894]
リッジ回帰に関する最近の結果について統一的な視点を提示する。
我々は、物理とディープラーニングの背景を持つ読者を対象に、ランダム行列理論と自由確率の基本的なツールを使用する。
我々の結果は拡張され、初期のスケーリング法則のモデルについて統一的な視点を提供する。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - A Tale of Tails: Model Collapse as a Change of Scaling Laws [11.6055501181235]
私たちは、合成データがトレーニングコーパスに導入される必然的な体制において、スケーリング法はどのように変化するのか?
スケーリング法則のレンズによるモデル崩壊の理論的枠組みを開発する。
我々は、広範囲の崩壊現象を発見し、スケーリングの損失を分析し、世代ごとにスケールをシフトさせ、スキルの「アンラーニング」を行い、人間と合成データを混在させながらグルーキングを行う。
論文 参考訳(メタデータ) (2024-02-10T21:06:34Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - A Solvable Model of Neural Scaling Laws [72.8349503901712]
大量のパラメータを持つ大規模な言語モデルは、インターネットに近い数のトークンで訓練されると、ニューラルネットワークのスケーリング法則に従うことが実証的に示されている。
我々は,このニューラルスケーリング現象を捉える統計モデル(共同生成データモデルとランダム特徴モデル)を提案する。
主な発見は、自然データセットの統計に現れる電力法則が非線形ランダムな特徴写像によって拡張される方法である。
論文 参考訳(メタデータ) (2022-10-30T15:13:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。