論文の概要: Scaling Laws are Redundancy Laws
- arxiv url: http://arxiv.org/abs/2509.20721v1
- Date: Thu, 25 Sep 2025 03:48:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.684371
- Title: Scaling Laws are Redundancy Laws
- Title(参考訳): スケーリング法則は冗長性法則である
- Authors: Yuda Bi, Vince D Calhoun,
- Abstract要約: スケーリング法則は、冗長法則として正式に説明できることを示す。
この研究は、スケーリング法則を有限サンプル冗長法則として初めて厳密な数学的説明を提供する。
- 参考スコア(独自算出の注目度): 18.923595971721344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling laws, a defining feature of deep learning, reveal a striking power-law improvement in model performance with increasing dataset and model size. Yet, their mathematical origins, especially the scaling exponent, have remained elusive. In this work, we show that scaling laws can be formally explained as redundancy laws. Using kernel regression, we show that a polynomial tail in the data covariance spectrum yields an excess risk power law with exponent alpha = 2s / (2s + 1/beta), where beta controls the spectral tail and 1/beta measures redundancy. This reveals that the learning curve's slope is not universal but depends on data redundancy, with steeper spectra accelerating returns to scale. We establish the law's universality across boundedly invertible transformations, multi-modal mixtures, finite-width approximations, and Transformer architectures in both linearized (NTK) and feature-learning regimes. This work delivers the first rigorous mathematical explanation of scaling laws as finite-sample redundancy laws, unifying empirical observations with theoretical foundations.
- Abstract(参考訳): ディープラーニングの明確な特徴であるスケーリング法則は、データセットとモデルサイズの増加によるモデルパフォーマンスの大幅な改善を明らかにしている。
しかし、それらの数学的起源、特にスケーリング指数は、いまだに解明されていない。
本研究では,スケーリング法則を冗長法則として公式に説明できることを示す。
カーネル回帰を用いて、データ共分散スペクトルの多項式テールは指数α = 2s / (2s + 1/beta) の余剰リスクパワー則となり、ベータはスペクトルテールを制御し、1/betaは冗長性を測定する。
これは学習曲線の傾きが普遍的ではないが、データの冗長性に依存しており、スペクトルの急激な増大は回帰を加速させることを示している。
我々は、有界可逆変換、多モード混合、有限幅近似、および線形化(NTK)および特徴学習体制におけるトランスフォーマーアーキテクチャの普遍性を確立する。
この研究は、スケーリング法則を有限サンプル冗長法則として初めて厳密に数学的に説明し、理論的基礎と経験的観察を統一する。
関連論文リスト
- Compute-Optimal LLMs Provably Generalize Better With Scale [102.29926217670926]
我々は,大規模言語モデル(LLM)の事前学習目標に基づく一般化境界を開発する。
損失関数の分散を考慮し, 既存の境界を緩める, 完全経験的フリードマン型マルティンゲール濃度を導入する。
我々は一般化ギャップのスケーリング法則を作成し、その境界はスケールによって予測的に強くなる。
論文 参考訳(メタデータ) (2025-04-21T16:26:56Z) - Scaling Law Phenomena Across Regression Paradigms: Multiple and Kernel Approaches [28.569601803576845]
トランスフォーマーアーキテクチャを持つモデルの場合、テスト損失はモデルサイズ、データセットサイズ、トレーニングで使用される計算量と強力な関係を示す。
我々の分析はスケーリング法則に関する深い洞察を与え、大きな言語モデルに対する理解を深める可能性がある。
論文 参考訳(メタデータ) (2025-03-03T08:57:49Z) - Understanding Scaling Laws with Statistical and Approximation Theory for Transformer Neural Networks on Intrinsically Low-dimensional Data [4.481230230086981]
ディープニューラルネットワークでは、モデルのサイズとデータサイズの両方に依存するパワースケーリング法則に従うために、モデルの一般化誤差がしばしば観察される。
本理論は, 一般化誤差とトレーニングデータサイズと変圧器のネットワークサイズとの間のパワー則を予測する。
多様体仮説の下で低次元のデータ構造を利用することにより、データ幾何学を尊重する方法でトランスフォーマースケーリング法則を説明することができる。
論文 参考訳(メタデータ) (2024-11-11T01:05:28Z) - Bayesian scaling laws for in-context learning [85.34114399339741]
In-context Learning(ICL)は、言語モデルをトレーニング更新なしで複雑なタスクを実行するための強力なテクニックである。
我々は、ICCがベイズ学習者に近似していることを示し、ICCの新しいベイズスケーリング法を生み出した。
我々のスケーリング法則は既存のスケーリング法則と精度で一致し、タスクの優先順位、学習効率、サンプルごとの確率の解釈可能な用語も提供します。
論文 参考訳(メタデータ) (2024-10-21T21:45:22Z) - Analyzing Neural Scaling Laws in Two-Layer Networks with Power-Law Data Spectra [0.0]
ニューラルスケーリング法則は、深層ニューラルネットワークのパフォーマンスが、トレーニングデータサイズ、モデルの複雑さ、トレーニング時間などの重要な要因とどのようにスケールするかを記述する。
我々は, 統計力学の手法を用いて, 生徒-教員間の一パス勾配勾配を解析する。
論文 参考訳(メタデータ) (2024-10-11T17:21:42Z) - Scaling and renormalization in high-dimensional regression [72.59731158970894]
リッジ回帰に関する最近の結果について統一的な視点を提示する。
我々は、物理とディープラーニングの背景を持つ読者を対象に、ランダム行列理論と自由確率の基本的なツールを使用する。
我々の結果は拡張され、初期のスケーリング法則のモデルについて統一的な視点を提供する。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - A Solvable Model of Neural Scaling Laws [72.8349503901712]
大量のパラメータを持つ大規模な言語モデルは、インターネットに近い数のトークンで訓練されると、ニューラルネットワークのスケーリング法則に従うことが実証的に示されている。
我々は,このニューラルスケーリング現象を捉える統計モデル(共同生成データモデルとランダム特徴モデル)を提案する。
主な発見は、自然データセットの統計に現れる電力法則が非線形ランダムな特徴写像によって拡張される方法である。
論文 参考訳(メタデータ) (2022-10-30T15:13:18Z) - Explaining Neural Scaling Laws [17.115592382420626]
訓練されたディープニューラルネットワークの人口減少は、しばしば正確なパワー-ロースケーリング関係に従う。
本稿では、これらのスケーリング法則の起源を説明し、接続する理論を提案する。
データセットとモデルサイズの両方に対する分散制限と分解能制限のスケーリング挙動を同定する。
論文 参考訳(メタデータ) (2021-02-12T18:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。