論文の概要: Larger Datasets Can Be Repeated More: A Theoretical Analysis of Multi-Epoch Scaling in Linear Regression
- arxiv url: http://arxiv.org/abs/2511.13421v1
- Date: Mon, 17 Nov 2025 14:34:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:25.307175
- Title: Larger Datasets Can Be Repeated More: A Theoretical Analysis of Multi-Epoch Scaling in Linear Regression
- Title(参考訳): 大規模データセットの繰り返し - 線形回帰におけるマルチエポックスケーリングの理論解析
- Authors: Tingkai Yan, Haodong Wen, Binghui Li, Kairong Luo, Wenguang Chen, Kaifeng Lyu,
- Abstract要約: 本稿では,線形回帰学習における一般的な回避策,エポックトレーニング,リマプショントレーニングの理論的解析について述べる。
我々は、データセットが成長しなければならない乗算因子として定義するデータのテキスト有効再利用率である$E(K, N)$を用いてこれを定量化する。
以上の結果から,K$が$E(K, N)の近似値である最大$K$は,データサイズと分布に依存することが明らかとなった。
- 参考スコア(独自算出の注目度): 18.692159157168803
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While data scaling laws of large language models (LLMs) have been widely examined in the one-pass regime with massive corpora, their form under limited data and repeated epochs remains largely unexplored. This paper presents a theoretical analysis of how a common workaround, training for multiple epochs on the same dataset, reshapes the data scaling laws in linear regression. Concretely, we ask: to match the performance of training on a dataset of size $N$ for $K$ epochs, how much larger must a dataset be if the model is trained for only one pass? We quantify this using the \textit{effective reuse rate} of the data, $E(K, N)$, which we define as the multiplicative factor by which the dataset must grow under one-pass training to achieve the same test loss as $K$-epoch training. Our analysis precisely characterizes the scaling behavior of $E(K, N)$ for SGD in linear regression under either strong convexity or Zipf-distributed data: (1) When $K$ is small, we prove that $E(K, N) \approx K$, indicating that every new epoch yields a linear gain; (2) As $K$ increases, $E(K, N)$ plateaus at a problem-dependent value that grows with $N$ ($Θ(\log N)$ for the strongly-convex case), implying that larger datasets can be repeated more times before the marginal benefit vanishes. These theoretical findings point out a neglected factor in a recent empirical study (Muennighoff et al. (2023)), which claimed that training LLMs for up to $4$ epochs results in negligible loss differences compared to using fresh data at each step, \textit{i.e.}, $E(K, N) \approx K$ for $K \le 4$ in our notation. Supported by further empirical validation with LLMs, our results reveal that the maximum $K$ value for which $E(K, N) \approx K$ in fact depends on the data size and distribution, and underscore the need to explicitly model both factors in future studies of scaling laws with data reuse.
- Abstract(参考訳): 大規模言語モデル (LLM) のデータスケーリング法則は, 大量のコーパスを持つワンパス方式で広く検討されているが, 限られたデータと繰り返しのエポックの形式は未解明のままである。
本稿では,同じデータセット上で複数のエポックのトレーニングを行う共通の回避方法に関する理論的解析を行い,線形回帰におけるデータスケーリングの法則を再検討する。
具体的には、サイズが$N$ for $K$ epochsのデータセットでのトレーニングのパフォーマンスと一致するために、モデルが1回のパスでトレーニングされた場合、データセットはどの程度の大きさでなければならないか?
このことは、データセットが1パスのトレーニングで成長し、$K$-epochのトレーニングと同じテスト損失を達成するための乗算因子として定義するデータである$E(K, N)$を用いて定量化する。
我々は,(1)$K$が小さければ,すべての新しいエポックが線形ゲインをもたらすことを示す。(2)$K$が増加すると,$E(K, N)$高原は$N$で成長する問題依存値で,強凸の場合,$N$で増大する。
これらの理論的な結果は、最近の実証研究 (Muennighoff et al (2023)) において、LLMを最大4ドルのエポックで訓練すると、各ステップで新しいデータを使用する場合と比較して、無視できない損失が生じると主張している。
LLMによるさらなる実証的検証によって、我々の結果は、$E(K, N) \approx K$が実際にデータサイズと分布に依存している最大$K$値が明らかとなり、データ再利用による法則のスケーリングに関する将来の研究において、両方の要因を明示的にモデル化する必要性が浮き彫りになった。
関連論文リスト
- Improved Scaling Laws in Linear Regression via Data Reuse [36.110514249309254]
データの再利用は線形回帰における既存のスケーリング法則を改善することができることを示す。
これはデータ再利用によるスケーリング法則の改善(すなわち、データ制約されたレシエーションで$L>N$を選択する)を示唆している。
論文 参考訳(メタデータ) (2025-06-10T03:39:29Z) - Data Selection for ERMs [67.57726352698933]
我々は、$mathcalA$が、少なくとも$nll N$のデータポイントで訓練された時に、いかにうまく機能するかを研究する。
結果は,平均推定,線形分類,線形回帰に対する最適データ選択境界を含む。
論文 参考訳(メタデータ) (2025-04-20T11:26:01Z) - One-Bit Quantization and Sparsification for Multiclass Linear Classification with Strong Regularization [18.427215139020625]
最高の分類は、$f(cdot) = |cdot|2$ と $lambda to infty$ によって達成されることを示す。
f(cdot) = |cdot|_infty$ とほぼ同等に機能するスパースと1ビットの解を見つけることは、大きめの $lambda$ regime においてしばしば可能である。
論文 参考訳(メタデータ) (2024-02-16T06:39:40Z) - Scaling Up Differentially Private LASSO Regularized Logistic Regression
via Faster Frank-Wolfe Iterations [51.14495595270775]
我々は,Frank-Wolfeアルゴリズムを$L_1$のペナル化線形回帰に適応させ,スパース入力を認識し,有効利用する。
この方法では,プライバシパラメータ$epsilon$の値とデータセットの分散度に応じて,最大2,200times$の係数でランタイムを削減できることを示す。
論文 参考訳(メタデータ) (2023-10-30T19:52:43Z) - You can't pick your neighbors, or can you? When and how to rely on
retrieval in the $k$NN-LM [65.74934004876914]
Retrieval-enhanced Language Model (LM) は、大規模な外部データストアから取得したテキストにそれらの予測を条件付ける。
そのようなアプローチの1つ、$k$NN-LMは、既存のLMの予測を$k$-nearest近くのモデルの出力と補間する。
本研究では,2つの英語モデルデータセットに対するアプローチの有効性を実証的に測定する。
論文 参考訳(メタデータ) (2022-10-28T02:57:40Z) - Easy Differentially Private Linear Regression [16.325734286930764]
本研究では,指数関数機構を用いて,非プライベート回帰モデルの集合からタキー深度の高いモデルを選択するアルゴリズムについて検討する。
このアルゴリズムは、データリッチな設定において、強い経験的性能を得る。
論文 参考訳(メタデータ) (2022-08-15T17:42:27Z) - $p$-Generalized Probit Regression and Scalable Maximum Likelihood
Estimation via Sketching and Coresets [74.37849422071206]
本稿では, 2次応答に対する一般化線形モデルである,$p$一般化プロビット回帰モデルについて検討する。
p$の一般化されたプロビット回帰に対する最大可能性推定器は、大容量データ上で$(1+varepsilon)$の係数まで効率的に近似できることを示す。
論文 参考訳(メタデータ) (2022-03-25T10:54:41Z) - Datamodels: Predicting Predictions from Training Data [86.66720175866415]
本稿では,モデルクラスの振る舞いを学習データの観点から分析するための概念的枠組みであるデータモデリングについて述べる。
単純な線形データモデルであっても、モデル出力をうまく予測できることが示される。
論文 参考訳(メタデータ) (2022-02-01T18:15:24Z) - Dynamics of Local Elasticity During Training of Neural Nets [7.9140338281956835]
局所弾性」は、サンプルデータポイントが他のデータでの予測に与える影響の伝播を定量化しようとする。
今回提案した$S_rm rel$は,従来の定義とは対照的に,重み更新の特性をはるかに強く検出する。
論文 参考訳(メタデータ) (2021-11-01T18:00:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。