論文の概要: Scaling Laws for Gradient Descent and Sign Descent for Linear Bigram Models under Zipf's Law
- arxiv url: http://arxiv.org/abs/2505.19227v1
- Date: Sun, 25 May 2025 16:43:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.990982
- Title: Scaling Laws for Gradient Descent and Sign Descent for Linear Bigram Models under Zipf's Law
- Title(参考訳): ジグフの法則に基づく線形ビグラムモデルの勾配日射と符号日射のスケーリング法則
- Authors: Frederik Kunstner, Francis Bach,
- Abstract要約: 最近の研究は、トランスフォーマーベースの言語モデルの最初の層と最後の層を訓練する際の勾配降下による困難を浮き彫りにした。
これらの研究は、テキストデータ中の単語の重み付き分布に、難易度が関係していることを示唆している。
データが重い尾を持つ場合、問題はより困難であることを示す。
- 参考スコア(独自算出の注目度): 4.6193503399184275
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent works have highlighted optimization difficulties faced by gradient descent in training the first and last layers of transformer-based language models, which are overcome by optimizers such as Adam. These works suggest that the difficulty is linked to the heavy-tailed distribution of words in text data, where the frequency of the $k$th most frequent word $\pi_k$ is proportional to $1/k$, following Zipf's law. To better understand the impact of the data distribution on training performance, we study a linear bigram model for next-token prediction when the tokens follow a power law $\pi_k \propto 1/k^\alpha$ parameterized by the exponent $\alpha > 0$. We derive optimization scaling laws for deterministic gradient descent and sign descent as a proxy for Adam as a function of the exponent $\alpha$. Existing theoretical investigations in scaling laws assume that the eigenvalues of the data decay as a power law with exponent $\alpha > 1$. This assumption effectively makes the problem ``finite dimensional'' as most of the loss comes from a few of the largest eigencomponents. In comparison, we show that the problem is more difficult when the data have heavier tails. The case $\alpha = 1$ as found in text data is ``worst-case'' for gradient descent, in that the number of iterations required to reach a small relative error scales almost linearly with dimension. While the performance of sign descent also depends on the dimension, for Zipf-distributed data the number of iterations scales only with the square-root of the dimension, leading to a large improvement for large vocabularies.
- Abstract(参考訳): 最近の研究は、Adamのようなオプティマイザが克服したトランスフォーマーベースの言語モデルの最初の層と最後の層をトレーニングする際の勾配降下による最適化の難しさを強調している。
これらの研究は、この困難さがテキストデータ中の単語の重み付き分布と関連していることを示唆しており、ここでは、$k$thの頻繁な単語である$\pi_k$の頻度はZipfの法則に従って1/k$に比例する。
トレーニング性能に対するデータ分散の影響をよりよく理解するため, 指数$\alpha > 0$ でパラメータ化されたパワー則 $\pi_k \propto 1/k^\alpha$ に従えば, 次トーケン予測のための線形ビッグラムモデルについて検討する。
我々は、指数$\alpha$の関数としてAdamの代用として、決定論的勾配降下と符号降下の最適化スケーリング法則を導出した。
既存のスケール法則に関する理論的研究は、データ固有値は指数$\alpha > 1$のパワー法則として崩壊していると仮定している。
この仮定は、ほとんどの損失は、最も大きな固有成分のごく一部から生じるので、「有限次元」という問題を効果的に解決する。
比較すると、データが重い尾を持つ場合、問題はより困難である。
テキストデータに見られる $\alpha = 1$ の場合、勾配降下の ``worst-case'' であり、小さな相対誤差に到達するのに必要なイテレーションの数は、ほぼ次元とともに線形にスケールする。
符号降下の性能は次元にも依存するが、Zipf分散データの場合、繰り返しの数は次元の平方根でしかスケールしないため、大きな語彙が大幅に改善される。
関連論文リスト
- Nearly Optimal Differentially Private ReLU Regression [18.599299269974498]
微分プライバシ(DP)モデルにおいて、最も基本的な非学習問題の1つ、ReLU回帰について検討する。
TildeO(fracd2N2 varepsilon2N2 varepsilon2N2 varepsilon2N2 varepsilon2N2 varepsilon2N2 varepsilon2N2 varepsilon2N2 varepsilon2N2
論文 参考訳(メタデータ) (2025-03-08T02:09:47Z) - Solving Empirical Bayes via Transformers [18.654470796004265]
この研究は、最も古い統計問題の1つを解決するために、現代のAIツール(トランスフォーマー)を適用している。
トランスモデルは、合成生成されたペアのセット$(X,theta)$で事前訓練され、未知の$pi$に適応することで、コンテキスト内学習(ICL)を学習する。
論文 参考訳(メタデータ) (2025-02-14T01:06:15Z) - Scaling Laws in Linear Regression: Compute, Parameters, and Data [86.48154162485712]
無限次元線形回帰セットアップにおけるスケーリング法則の理論について検討する。
テストエラーの再現可能な部分は$Theta(-(a-1) + N-(a-1)/a)$であることを示す。
我々の理論は経験的ニューラルスケーリング法則と一致し、数値シミュレーションによって検証される。
論文 参考訳(メタデータ) (2024-06-12T17:53:29Z) - Language models scale reliably with over-training and on downstream tasks [121.69867718185125]
スケーリング法則は、高価なトレーニング実行を引き出すための有用なガイドである。
しかし、現在の研究と言語モデルがどのように訓練されているかには差がある。
対照的に、スケーリング法則は主に推論における損失を予測するが、モデルは通常下流のタスクのパフォーマンスで比較される。
論文 参考訳(メタデータ) (2024-03-13T13:54:00Z) - A Law of Robustness beyond Isoperimetry [84.33752026418045]
我々は、任意の分布上でニューラルネットワークパラメータを補間する頑健性の低い$Omega(sqrtn/p)$を証明した。
次に、$n=mathrmpoly(d)$のとき、スムーズなデータに対する過度なパラメータ化の利点を示す。
我々は、$n=exp(omega(d))$ のとき、$O(1)$-Lipschitz の頑健な補間関数の存在を否定する。
論文 参考訳(メタデータ) (2022-02-23T16:10:23Z) - Hybrid Stochastic-Deterministic Minibatch Proximal Gradient:
Less-Than-Single-Pass Optimization with Nearly Optimal Generalization [83.80460802169999]
HSDMPGは、学習モデル上で過大なエラーの順序である$mathcalObig(1/sttnbig)$を達成可能であることを示す。
損失係数について、HSDMPGは学習モデル上で過大なエラーの順序である$mathcalObig(1/sttnbig)$を達成できることを示す。
論文 参考訳(メタデータ) (2020-09-18T02:18:44Z) - A Neural Scaling Law from the Dimension of the Data Manifold [8.656787568717252]
データが豊富であれば、よく訓練されたニューラルネットワークによって達成される損失は、ネットワークパラメータの数でN-alpha$のパワーロープロットとしてスケールする。
スケーリングの法則は、ニューラルモデルが本質的に内在次元$d$のデータ多様体上で回帰を行えば説明できる。
この単純な理論は、スケーリング指数が、クロスエントロピーと平均二乗誤差損失に対して$alpha approx 4/d$となることを予測している。
論文 参考訳(メタデータ) (2020-04-22T19:16:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。