論文の概要: From One-Pass SGD to Data Reuse: Mini-Batch Scaling Laws in Sketched Linear Regression
- arxiv url: http://arxiv.org/abs/2605.24316v1
- Date: Sat, 23 May 2026 00:48:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:17.927922
- Title: From One-Pass SGD to Data Reuse: Mini-Batch Scaling Laws in Sketched Linear Regression
- Title(参考訳): ワンパスSGDからデータ再利用へ:スケッチリニア回帰におけるミニバッチスケーリング法則
- Authors: Ziyan Chen, Ding-Xuan Zhou,
- Abstract要約: 本研究では,1パスのバッチSGD,複数パスのバッチSGD,複数パスのバッチSGDを置換せずに解析する。
1パスのバッチSGDはバイアスと分散に分割される一方、2つのマルチパス法はGDバイアス、GD分散、および揺らぎ項に分割される。
我々は,ワンパスおよびマルチパスのミニバッチ手法のソース条件スケーリング法を証明した。
- 参考スコア(独自算出の注目度): 13.325673179579818
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling laws provide compact descriptions of how prediction error varies with compute, model size, and data, but existing theory mainly treats single-sample SGD or full data reuse, leaving the role of mini-batching unclear. We study batch scaling laws for sketched linear regression under a power-law covariance spectrum and a source condition on the target parameter. We analyze one-pass batch SGD, multi-pass batch SGD with replacement, and multi-pass batch SGD without replacement. Our first result is a risk decomposition: all three procedures share the same irreducible and approximation terms, while their stochastic terms depend on the sampling protocol. One-pass batch SGD splits into bias and variance, whereas the two multi-pass methods split into GD bias, GD variance, and a fluctuation term around a common GD reference trajectory. We then prove source-condition scaling laws for one-pass and multi-pass mini-batch methods. For one-pass batch SGD, mini-batching preserves the approximation and optimization-bias exponents, while the variance scales as $O(\min(M,(T_{\mathrm{eff}}γ)^{1/a})/(B T_{\mathrm{eff}}))$. Thus the usual $1/B$ covariance reduction holds at fixed update count $T$, but in the one-pass regime $T=N/B$ it is partly offset by the shorter optimization horizon. For multi-pass batch SGD, with- and without-replacement sampling have identical approximation and GD bias/variance terms; they differ only in the fluctuation covariance prefactor, which is $1/B$ with replacement and $ρ_{N,B}=(N-B)/(B(N-1))$ without replacement. Hence without-replacement sampling is less noisy for $B>1$, and when $B=N$ the fluctuation vanishes, recovering deterministic gradient descent. These results place batch size on the same theoretical footing as compute, data, and model dimension in sketched linear regression.
- Abstract(参考訳): スケーリング法則は、予測エラーが計算、モデルサイズ、データによってどのように変化するかのコンパクトな記述を提供するが、既存の理論は主に単一サンプルのSGDまたは完全なデータ再利用を扱い、ミニバッチの役割は不明確である。
提案手法は,パワーロー共分散スペクトルとターゲットパラメータのソース条件に基づいて,スケッチされた線形回帰のバッチスケーリング法について検討する。
本研究では,1パスのバッチSGD,複数パスのバッチSGD,複数パスのバッチSGDを置換せずに解析する。
最初の結果はリスク分解であり、3つの手順は同じ既約項と近似項を共有し、その確率項はサンプリングプロトコルに依存している。
一方、2つのマルチパス法はGDバイアス、GD分散、および共通のGD参照軌道の周りのゆらぎ項に分けられる。
次に,ワンパスおよびマルチパスのミニバッチ法に対して,ソース条件のスケーリング法則を証明した。
1パスのバッチSGDの場合、ミニバッチは近似と最適化バイアス指数を保ち、分散は$O(\min(M,(T_{\mathrm{eff}}γ)^{1/a})/(B T_{\mathrm{eff}})$である。
したがって、通常の1/B$共分散還元は、固定更新数$T$で保持されるが、ワンパス方式$T=N/B$では、短い最適化水平線によって部分的にオフセットされる。
マルチパスバッチSGDの場合、非置換型サンプリングと非置換型サンプリングは同じ近似とGDバイアス/分散項を持ち、置換した1/B$と置き換えた$ρ_{N,B}=(N-B)/(B(N-1))$のゆらぎ共分散プレファクタでのみ異なる。
したがって,非置換サンプリングは$B>1$ではノイズが少なく,$B=N$ではゆらぎが消え,決定論的勾配降下が回復する。
これらの結果は、スケッチされた線形回帰における計算、データ、モデル次元と同じ理論的基盤上にバッチサイズを配置する。
関連論文リスト
- The Value of Covariance Matching in Gaussian DDPMs and the Lanczos Sampler [4.538165276831438]
ガウスのDDPMにおける中心誤差測度は、正確な逆鎖と学習されたガウスの逆過程の間の経路空間 KL のばらつきである。
完全後続共分散のマッチングはこの障壁を破り、KLを$O(1/T2)$に下げるオーダーワイズの改善をもたらすことを示す。
我々はLGS近似誤差がランツォスステップの数で指数関数的に減衰することを証明し、各ランツォスステップは1つのヤコビアンベクトル積を必要とする。
論文 参考訳(メタデータ) (2026-05-21T16:57:27Z) - Online Covariance Estimation in Averaged SGD: Improved Batch-Mean Rates and Minimax Optimality via Trajectory Regression [12.805268849262243]
我々はPolyak-Ruppert averaged gradient descent (SGD)のオンライン共分散行列推定について検討した。
この構造は、このボトルネックがSGDドリフトからヘッセンの情報をサブ線形に蓄積していることを明らかにする。
論文 参考訳(メタデータ) (2026-04-12T20:49:33Z) - Information Hidden in Gradients of Regression with Target Noise [2.8911861322232686]
勾配だけでヘッセンが明らかになることを示す。
我々はガウス以下の入力の下で非漸近作用素ノルム保証を提供する。
論文 参考訳(メタデータ) (2026-01-26T14:50:16Z) - FedSVD: Adaptive Orthogonalization for Private Federated Learning with LoRA [68.44043212834204]
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
論文 参考訳(メタデータ) (2025-05-19T07:32:56Z) - From Continual Learning to SGD and Back: Better Rates for Continual Linear Models [50.11453013647086]
以前見られたタスクの損失を、$k$の繰り返しの後、忘れること、すなわち、分析する。
実現可能な最小二乗の設定において、新しい最上界を創出する。
我々は、タスクを繰り返しないランダム化だけで、十分に長いタスクシーケンスで破滅的な事態を防げることを初めて証明した。
論文 参考訳(メタデータ) (2025-04-06T18:39:45Z) - TIC-TAC: A Framework for Improved Covariance Estimation in Deep Heteroscedastic Regression [109.69084997173196]
奥行き回帰は、予測分布の平均と共分散を負の対数類似度を用いて共同最適化する。
近年の研究では, 共分散推定に伴う課題により, 準最適収束が生じる可能性が示唆されている。
1)予測共分散は予測平均のランダム性を真に捉えているか?
その結果, TICは共分散を正確に学習するだけでなく, 負の対数類似性の収束性の向上も促進することがわかった。
論文 参考訳(メタデータ) (2023-10-29T09:54:03Z) - (Nearly) Optimal Private Linear Regression via Adaptive Clipping [22.639650869444395]
固定されたガウス型分布から各データ点をサンプリングする微分プライベート線形回帰問題について検討する。
本稿では,各イテレーションの点を置換せずにサンプリングする1パスのミニバッチ勾配勾配法(DP-AMBSSGD)を提案し,解析する。
論文 参考訳(メタデータ) (2022-07-11T08:04:46Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z) - Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。
本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。
ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文 参考訳(メタデータ) (2020-12-13T03:41:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。