論文の概要: From Zipf's Law to Neural Scaling through Heaps' Law and Hilberg's Hypothesis
- arxiv url: http://arxiv.org/abs/2512.13491v1
- Date: Mon, 15 Dec 2025 16:25:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.746478
- Title: From Zipf's Law to Neural Scaling through Heaps' Law and Hilberg's Hypothesis
- Title(参考訳): Zipfの法則からHapsの法則とHilbergの仮説によるニューラルスケーリングへ
- Authors: Łukasz Dębowski,
- Abstract要約: ニューラルスケーリング法則は、ある広い仮定の下でのZipfの法則の結果であることを示す。
我々は、 Zipf の法則から語彙成長に関するヘップスの法則、Hilberg の法則からエントロピースケーリングに関する仮説、Hilberg の法則からニューラルスケーリングを導出した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We inspect the deductive connection between the neural scaling law and Zipf's law -- two statements discussed in machine learning and quantitative linguistics. The neural scaling law describes how the cross entropy rate of a foundation model -- such as a large language model -- changes with respect to the amount of training tokens, parameters, and compute. By contrast, Zipf's law posits that the distribution of tokens exhibits a power law tail. Whereas similar claims have been made in more specific settings, we show that the neural scaling law is a consequence of Zipf's law under certain broad assumptions that we reveal systematically. The derivation steps are as follows: We derive Heaps' law on the vocabulary growth from Zipf's law, Hilberg's hypothesis on the entropy scaling from Heaps' law, and the neural scaling from Hilberg's hypothesis. We illustrate these inference steps by a toy example of the Santa Fe process that satisfies all the four statistical laws.
- Abstract(参考訳): ニューラルスケーリング法則とZipfの法則(機械学習と量的言語学で議論された2つのステートメント)の導出的な関係を検査する。ニューラルスケーリング法則は、トレーニングトークン、パラメータ、計算量に関して、基礎モデルのクロスエントロピー率(例えば大きな言語モデル)がどのように変化するかを記述する。
対照的に、Zipfの法則はトークンの分配は権力法尾を示すと仮定している。
同様の主張はより具体的な設定でなされているが、神経スケーリング法則は、体系的に明らかにする特定の広い仮定の下で、Zipfの法則の結果であることを示す。
我々は Zipf の法則からの語彙成長に関するヘップスの法則、Hilberg の法則からのエントロピースケーリングに関する仮説、Hilberg の法則からのニューラルスケーリングを導出する。
これらの推論ステップを,4つの統計法則をすべて満たすサンタフェ法則のおもちゃの例で説明する。
関連論文リスト
- Scaling Laws are Redundancy Laws [18.923595971721344]
スケーリング法則は、冗長法則として正式に説明できることを示す。
この研究は、スケーリング法則を有限サンプル冗長法則として初めて厳密な数学的説明を提供する。
論文 参考訳(メタデータ) (2025-09-25T03:48:51Z) - Bayesian Neural Scaling Law Extrapolation with Prior-Data Fitted Networks [100.13335639780415]
スケーリング法則は、しばしばパワーローに従っており、より大きなスケールでのスケーリングの振る舞いを予測するために、パワーロー関数のいくつかの変種を提案した。
既存の手法は主に点推定に依存しており、現実のアプリケーションにとって欠かせない不確実性を定量化しない。
本研究では,ニューラルスケーリング法外挿のためのPFNに基づくベイズフレームワークについて検討する。
論文 参考訳(メタデータ) (2025-05-29T03:19:17Z) - AlphaZero Neural Scaling and Zipf's Law: a Tale of Board Games and Power Laws [3.437656066916039]
我々は,言語モデルスケーリングのモデルを用いて,強化学習アルゴリズムAlphaZeroのパワーロースケーリングについて検討した。
学習と推論データにおけるゲーム状態は,環境のツリー構造から生じることが知られているZipfの法則と一致している。
また、逆スケーリング(逆スケーリング)は、サイズを改良するモデルの失敗は、エンドゲーム状態が最も頻繁な状態である特異なZipf曲線と相関していることも見出した。
論文 参考訳(メタデータ) (2024-12-16T16:59:55Z) - Bayesian scaling laws for in-context learning [85.34114399339741]
In-context Learning(ICL)は、言語モデルをトレーニング更新なしで複雑なタスクを実行するための強力なテクニックである。
我々は、ICCがベイズ学習者に近似していることを示し、ICCの新しいベイズスケーリング法を生み出した。
我々のスケーリング法則は既存のスケーリング法則と精度で一致し、タスクの優先順位、学習効率、サンプルごとの確率の解釈可能な用語も提供します。
論文 参考訳(メタデータ) (2024-10-21T21:45:22Z) - The Quantization Model of Neural Scaling [19.057931064238584]
ニューラルスケーリング法則の量子化モデルを提案し、モデルとデータサイズによる損失の観測されたパワー則の減少と、スケールによる新しい機能の突然の出現について説明する。
使用頻度を減少させるために量子が学習されると、使用中の電力法則が観測された損失のスケーリングを説明する。
論文 参考訳(メタデータ) (2023-03-23T17:58:43Z) - A Solvable Model of Neural Scaling Laws [72.8349503901712]
大量のパラメータを持つ大規模な言語モデルは、インターネットに近い数のトークンで訓練されると、ニューラルネットワークのスケーリング法則に従うことが実証的に示されている。
我々は,このニューラルスケーリング現象を捉える統計モデル(共同生成データモデルとランダム特徴モデル)を提案する。
主な発見は、自然データセットの統計に現れる電力法則が非線形ランダムな特徴写像によって拡張される方法である。
論文 参考訳(メタデータ) (2022-10-30T15:13:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。