論文の概要: Improved Scaling Laws in Linear Regression via Data Reuse
- arxiv url: http://arxiv.org/abs/2506.08415v1
- Date: Tue, 10 Jun 2025 03:39:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:41.363812
- Title: Improved Scaling Laws in Linear Regression via Data Reuse
- Title(参考訳): データ再利用による線形回帰のスケーリング法則の改善
- Authors: Licong Lin, Jingfeng Wu, Peter L. Bartlett,
- Abstract要約: データの再利用は線形回帰における既存のスケーリング法則を改善することができることを示す。
これはデータ再利用によるスケーリング法則の改善(すなわち、データ制約されたレシエーションで$L>N$を選択する)を示唆している。
- 参考スコア(独自算出の注目度): 30.68341507745991
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural scaling laws suggest that the test error of large language models trained online decreases polynomially as the model size and data size increase. However, such scaling can be unsustainable when running out of new data. In this work, we show that data reuse can improve existing scaling laws in linear regression. Specifically, we derive sharp test error bounds on $M$-dimensional linear models trained by multi-pass stochastic gradient descent (multi-pass SGD) on $N$ data with sketched features. Assuming that the data covariance has a power-law spectrum of degree $a$, and that the true parameter follows a prior with an aligned power-law spectrum of degree $b-a$ (with $a > b > 1$), we show that multi-pass SGD achieves a test error of $\Theta(M^{1-b} + L^{(1-b)/a})$, where $L \lesssim N^{a/b}$ is the number of iterations. In the same setting, one-pass SGD only attains a test error of $\Theta(M^{1-b} + N^{(1-b)/a})$ (see e.g., Lin et al., 2024). This suggests an improved scaling law via data reuse (i.e., choosing $L>N$) in data-constrained regimes. Numerical simulations are also provided to verify our theoretical findings.
- Abstract(参考訳): ニューラルスケーリング法則は、オンライントレーニングされた大規模言語モデルのテストエラーが、モデルのサイズとデータサイズが増加するにつれて多項式的に減少することを示している。
しかし、新しいデータを使い果たしても、そのようなスケーリングは持続不可能である。
本研究では,データ再利用が線形回帰における既存のスケーリング法則を改善することを示す。
具体的には,マルチパス確率勾配勾配(マルチパスSGD)で訓練した$M$次元線形モデルに対して,スケッチ付き特徴を持つ$N$データに対して,シャープなテスト誤差境界を導出する。
データ共分散が次数$a$のパワー-ロースペクトルを持ち、真パラメータが次数$b-a$($a > b > 1$)のアライメントされたパワー-ロースペクトルに従うと仮定すると、マルチパス SGD が $\Theta(M^{1-b} + L^{(1-b)/a})$ のテスト誤差を達成し、$L \lesssim N^{a/b}$ が反復数であることを示す。
同じ設定で、ワンパスのSGDはテスト誤差が$\Theta(M^{1-b} + N^{(1-b)/a})$(e g , Lin et al , 2024)となる。
これはデータ再利用によるスケーリング法則の改善(すなわち、データ制約されたレシエーションで$L>N$を選択する)を示唆している。
また,我々の理論的知見を検証するための数値シミュレーションも行った。
関連論文リスト
- Nearly Optimal Differentially Private ReLU Regression [18.599299269974498]
微分プライバシ(DP)モデルにおいて、最も基本的な非学習問題の1つ、ReLU回帰について検討する。
我々は,1パスのミニバッチ一般化モデルパーセプトロンアルゴリズムを提案し,解析することで,$epsilon$と公開データの要求を緩和する。
論文 参考訳(メタデータ) (2025-03-08T02:09:47Z) - Scaling Laws in Linear Regression: Compute, Parameters, and Data [86.48154162485712]
無限次元線形回帰セットアップにおけるスケーリング法則の理論について検討する。
テストエラーの再現可能な部分は$Theta(-(a-1) + N-(a-1)/a)$であることを示す。
我々の理論は経験的ニューラルスケーリング法則と一致し、数値シミュレーションによって検証される。
論文 参考訳(メタデータ) (2024-06-12T17:53:29Z) - Turnstile $\ell_p$ leverage score sampling with applications [56.403488578703865]
我々は,行列$AinmathbbRntimes d$の行をサンプリングする新しいアルゴリズムを開発した。
我々のアルゴリズムはサンプル行インデックスのセットを返すだけでなく、わずかに乱れた行を $tildea_i approx a_i$ で返却し、サンプリング確率を $varepsilon$ の相対誤差に近似する。
ロジスティック回帰のために、我々のフレームワークは$を達成した最初のアルゴリズムを得る。
論文 参考訳(メタデータ) (2024-06-01T07:33:41Z) - Scaling Up Differentially Private LASSO Regularized Logistic Regression
via Faster Frank-Wolfe Iterations [51.14495595270775]
我々は,Frank-Wolfeアルゴリズムを$L_1$のペナル化線形回帰に適応させ,スパース入力を認識し,有効利用する。
この方法では,プライバシパラメータ$epsilon$の値とデータセットの分散度に応じて,最大2,200times$の係数でランタイムを削減できることを示す。
論文 参考訳(メタデータ) (2023-10-30T19:52:43Z) - Piecewise Linear Regression via a Difference of Convex Functions [50.89452535187813]
本稿では,データに対する凸関数(DC関数)の差を利用した線形回帰手法を提案する。
実際に実装可能であることを示すとともに,実世界のデータセット上で既存の回帰/分類手法に匹敵する性能を有することを実証的に検証した。
論文 参考訳(メタデータ) (2020-07-05T18:58:47Z) - Online Robust Regression via SGD on the l1 loss [19.087335681007477]
ストリーミング方式でデータにアクセス可能なオンライン環境において、ロバストな線形回帰問題を考察する。
この研究で、$ell_O( 1 / (1 - eta)2 n )$損失の降下は、汚染された測定値に依存しない$tildeO( 1 / (1 - eta)2 n )$レートで真のパラメータベクトルに収束することを示した。
論文 参考訳(メタデータ) (2020-07-01T11:38:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。