論文の概要: Unifying Learning Dynamics and Generalization in Transformers Scaling Law
- arxiv url: http://arxiv.org/abs/2512.22088v1
- Date: Fri, 26 Dec 2025 17:20:09 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 11:53:14.669725
- Title: Unifying Learning Dynamics and Generalization in Transformers Scaling Law
- Title(参考訳): 変圧器スケーリング法における学習ダイナミクスと一般化の統一化
- Authors: Chiwun Yang,
- Abstract要約: 大規模言語モデル(LLM)開発の基盤であるスケーリング法則は,計算資源の増加に伴うモデル性能の向上を予測している。
この研究は、変圧器に基づく言語モデルの学習力学を常微分方程式(ODE)システムとして定式化する。
本分析では,データによる計算資源のスケールとして,一般化誤差と既約リスクの収束を特徴付ける。
- 参考スコア(独自算出の注目度): 1.5229257192293202
- License:
- Abstract: The scaling law, a cornerstone of Large Language Model (LLM) development, predicts improvements in model performance with increasing computational resources. Yet, while empirically validated, its theoretical underpinnings remain poorly understood. This work formalizes the learning dynamics of transformer-based language models as an ordinary differential equation (ODE) system, then approximates this process to kernel behaviors. Departing from prior toy-model analyses, we rigorously analyze stochastic gradient descent (SGD) training for multi-layer transformers on sequence-to-sequence data with arbitrary data distribution, closely mirroring real-world conditions. Our analysis characterizes the convergence of generalization error to the irreducible risk as computational resources scale with data, especially during the optimization process. We establish a theoretical upper bound on excess risk characterized by a distinct phase transition. In the initial optimization phase, the excess risk decays exponentially relative to the computational cost ${\sf C}$. However, once a specific resource allocation threshold is crossed, the system enters a statistical phase, where the generalization error follows a power-law decay of $Θ(\mathsf{C}^{-1/6})$. Beyond this unified framework, our theory derives isolated scaling laws for model size, training time, and dataset size, elucidating how each variable independently governs the upper bounds of generalization.
- Abstract(参考訳): 大規模言語モデル(LLM)開発の基盤であるスケーリング法則は,計算資源の増加に伴うモデル性能の向上を予測している。
しかし、実証的に検証されているものの、理論的な基盤はいまだに理解されていない。
この研究は、変圧器に基づく言語モデルの学習力学を通常の微分方程式(ODE)システムとして定式化し、その過程をカーネルの挙動に近似する。
従来の玩具モデル解析とは別に,任意のデータ分布を持つシーケンス・ツー・シーケンスデータに基づいて,マルチ層トランスフォーマーの確率勾配降下(SGD)訓練を厳密に分析し,実世界の条件を忠実に反映する。
我々の分析は、特に最適化過程において、データを用いて計算資源をスケールするので、一般化誤差と既約リスクの収束を特徴付ける。
相転移を特徴とする超過リスクの理論的上限を確立する。
最初の最適化段階では、過剰リスクは計算コスト${\sf C}$に対して指数関数的に崩壊する。
しかし、ある特定のリソース割り当てしきい値が交差すると、この系は統計段階に入り、一般化誤差は(\mathsf{C}^{-1/6})$のパワー-ロー崩壊に従う。
この統合された枠組みを超えて、我々の理論は、モデルのサイズ、トレーニング時間、データセットサイズに関する独立したスケーリング法則を導出し、各変数が一般化の上界を独立に支配するかを解明する。
関連論文リスト
- Scaling Law for Stochastic Gradient Descent in Quadratically Parameterized Linear Regression [5.801904710149222]
機械学習において、スケーリング法則は、モデルとデータサイズをスケールアップすることで、モデルパフォーマンスがどのように改善されるかを記述する。
本稿では,2次パラメータ化モデルを用いた線形回帰のスケーリング法則について検討する。
その結果、正準線形回帰では、特徴学習による一般化と不要な曲線と、パラメトリゼーション法とアルゴリズムに対する情報理論の下界との明確な分離が提供される。
論文 参考訳(メタデータ) (2025-02-13T09:29:04Z) - Scaling and renormalization in high-dimensional regression [72.59731158970894]
リッジ回帰に関する最近の結果について統一的な視点を提示する。
我々は、物理とディープラーニングの背景を持つ読者を対象に、ランダム行列理論と自由確率の基本的なツールを使用する。
我々の結果は拡張され、初期のスケーリング法則のモデルについて統一的な視点を提供する。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - Koopman Kernel Regression [6.116741319526748]
クープマン作用素理論は線形時間不変(LTI)ODEによる予測のキャラクタリゼーションに有効なパラダイムであることを示す。
我々は、LTI力学系への変換のみにまたがる、普遍的なクープマン不変核再生ヒルベルト空間(RKHS)を導出する。
実験では、Koopman演算子やシーケンシャルデータ予測器と比較して予測性能が優れていることを示した。
論文 参考訳(メタデータ) (2023-05-25T16:22:22Z) - Towards Data-Algorithm Dependent Generalization: a Case Study on
Overparameterized Linear Regression [19.047997113063147]
本稿では,データ依存学習軌跡全体の一般化挙動を考察したデータ-アルゴリズム整合性の概念を提案する。
我々は、データ依存軌道解析を行い、そのような環境での互換性に十分な条件を導出する。
論文 参考訳(メタデータ) (2022-02-12T12:42:36Z) - Fractal Structure and Generalization Properties of Stochastic
Optimization Algorithms [71.62575565990502]
最適化アルゴリズムの一般化誤差は、その一般化尺度の根底にあるフラクタル構造の複雑性'にバウンドできることを示す。
さらに、特定の問題(リニア/ロジスティックレグレッション、隠れ/層ニューラルネットワークなど)とアルゴリズムに対して、結果をさらに専門化します。
論文 参考訳(メタデータ) (2021-06-09T08:05:36Z) - Out-of-Distribution Generalization in Kernel Regression [21.958028127426196]
トレーニングとテストの分布が異なる場合のカーネル回帰の一般化について検討する。
与えられたカーネルの分布間のミスマッチを定量化する重なり行列を同定する。
本研究では,データ予算に対するトレーニングとテストの配分を最適化する手法を開発し,そのシフトの下で最良のケースと最悪のケースの一般化を求める。
論文 参考訳(メタデータ) (2021-06-04T04:54:25Z) - Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文 参考訳(メタデータ) (2020-06-11T09:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。