論文の概要: Scaling Laws of SignSGD in Linear Regression: When Does It Outperform SGD?
- arxiv url: http://arxiv.org/abs/2603.02069v1
- Date: Mon, 02 Mar 2026 16:58:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.98431
- Title: Scaling Laws of SignSGD in Linear Regression: When Does It Outperform SGD?
- Title(参考訳): 線形回帰におけるSignSGDのスケーリング法則:それがSGDを上回るのはいつか?
- Authors: Jihwan Kim, Dogyoon Song, Chulhee Yun,
- Abstract要約: 本稿では,PRO(Power-law random features)モデルを用いて,SingSGDのスケーリング法則について検討する。
本研究では,1パス符号SGDで訓練した線形モデルの集団リスクをガウス的特徴量に基づいて解析する。
- 参考スコア(独自算出の注目度): 35.79321975718977
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study scaling laws of signSGD under a power-law random features (PLRF) model that accounts for both feature and target decay. We analyze the population risk of a linear model trained with one-pass signSGD on Gaussian-sketched features. We express the risk as a function of model size, training steps, learning rate, and the feature and target decay parameters. Comparing against the SGD risk analyzed by Paquette et al. (2024), we identify a drift-normalization effect and a noise-reshaping effect unique to signSGD. We then obtain compute-optimal scaling laws under the optimal choice of learning rate. Our analysis shows that the noise-reshaping effect can make the compute-optimal slope of signSGD steeper than that of SGD in regimes where noise is dominant. Finally, we observe that the widely used warmup-stable-decay (WSD) schedule further reduces the noise term and sharpens the compute-optimal slope, when feature decay is fast but target decay is slow.
- Abstract(参考訳): 我々は,特徴量と目標減衰量の両方を考慮に入れたPLRFモデルを用いて,SingSGDのスケーリング法則について検討した。
本研究では,1パス符号SGDで訓練した線形モデルの集団リスクをガウス的特徴量に基づいて解析する。
リスクをモデルサイズ、トレーニングステップ、学習率、特徴および目標減衰パラメータの関数として表現する。
Paquette et al (2024) が分析したSGDリスクと比較し, ドリフト正規化効果と, signSGDに特有のノイズリフォーミング効果を同定した。
次に、学習速度の最適選択の下で、計算最適スケーリング法則を得る。
分析の結果,ノイズが支配的な政権では,SGDよりもSGDの計算最適勾配が急勾配となることがわかった。
最後に、広く使われているウォームアップ・安定デカイ(WSD)スケジュールは、特徴減衰が速いが目標減衰が遅い場合に、さらにノイズ項を減らし、計算最適勾配を鋭くする。
関連論文リスト
- Robust Stochastic Gradient Posterior Sampling with Lattice Based Discretisation [20.44428092865608]
MCMC法は拡張性のある後方サンプリングを可能にするが、しばしばミニバッチサイズや勾配ノイズに対する感度に悩まされる。
格子ランダムウォークの離散化の拡張であるグラディエントランダムウォーク(SGLRW)を提案する。
論文 参考訳(メタデータ) (2026-02-17T18:09:49Z) - Learning Curves of Stochastic Gradient Descent in Kernel Regression [7.063108005500741]
我々は、ソース条件下でのカーネル回帰において、シングルパスグラディエントDescent (SGD) を解析する。
驚くべきことに、SGD はすべてのスケールで最大 min-max の最適速度を達成する。
SGDが飽和の呪いを克服する主な理由は、指数関数的に減衰するステップサイズスケジュールである。
論文 参考訳(メタデータ) (2025-05-28T07:16:11Z) - Exact Risk Curves of signSGD in High-Dimensions: Quantifying Preconditioning and Noise-Compression Effects [6.653325043862049]
本稿では,高次元限界における符号SGDの解析について述べる。
我々は,実効学習率,雑音圧縮,対角前処理,勾配,雑音再構成の4つの効果を定量化する。
これらの結果はAdamにどのように拡張されるかという予想で締めくくります。
論文 参考訳(メタデータ) (2024-11-19T00:24:50Z) - Distributed Stochastic Gradient Descent with Staleness: A Stochastic Delay Differential Equation Based Framework [56.82432591933544]
分散勾配降下(SGD)は、計算リソースのスケーリング、トレーニング時間の短縮、マシンラーニングにおけるユーザのプライバシ保護の支援などにより、近年注目されている。
本稿では,遅延微分方程式(SDDE)と勾配到着の近似に基づく分散SGDの実行時間と安定化について述べる。
活性化作業員の増加は, 安定度による分散SGDを必ずしも加速させるものではないことが興味深い。
論文 参考訳(メタデータ) (2024-06-17T02:56:55Z) - Risk-Sensitive Diffusion: Robustly Optimizing Diffusion Models with Noisy Samples [58.68233326265417]
非画像データは実際のアプリケーションで広く使われており、ノイズが多い傾向にある。
リスク感受性SDEは、リスクベクトルによってパラメータ化された微分方程式(SDE)の一種である。
我々はガウス雑音分布と非ガウス雑音分布の両方について系統的研究を行う。
論文 参考訳(メタデータ) (2024-02-03T08:41:51Z) - Butterfly Effects of SGD Noise: Error Amplification in Behavior Cloning
and Autoregression [70.78523583702209]
深層ニューラルネットワークを用いた行動クローニングの訓練不安定性について検討した。
トレーニング中のSGD更新の最小化は,長期的報奨の急激な振動をもたらすことが観察された。
論文 参考訳(メタデータ) (2023-10-17T17:39:40Z) - On Convergence of Incremental Gradient for Non-Convex Smooth Functions [63.51187646914962]
機械学習とネットワーク最適化では、ミスの数と優れたキャッシュを最小化するため、シャッフルSGDのようなアルゴリズムが人気である。
本稿では任意のデータ順序付けによる収束特性SGDアルゴリズムについて述べる。
論文 参考訳(メタデータ) (2023-05-30T17:47:27Z) - Doubly Stochastic Models: Learning with Unbiased Label Noises and
Inference Stability [85.1044381834036]
勾配降下のミニバッチサンプリング設定におけるラベル雑音の暗黙的正則化効果について検討した。
そのような暗黙的正則化器は、パラメータの摂動に対してモデル出力を安定化できる収束点を好んでいる。
我々の研究は、SGDをオルンシュタイン-ウレンベック類似の過程とはみなせず、近似の収束によってより一般的な結果を得る。
論文 参考訳(メタデータ) (2023-04-01T14:09:07Z) - Robustness to Unbounded Smoothness of Generalized SignSGD [25.07411035728305]
本稿では,SignSGD-typeおよびAdamtypeアルゴリズムの解析において,モーメントが重要な役割を果たすことを示す。
我々はこれらのアルゴリズムを一般的なタスクと比較し、他のタスクを叩きながらAdamのパフォーマンスにマッチできることを観察した。
論文 参考訳(メタデータ) (2022-08-23T21:11:19Z) - Last Iterate Risk Bounds of SGD with Decaying Stepsize for
Overparameterized Linear Regression [122.70478935214128]
勾配降下(SGD)は、多くのディープラーニングアプリケーションでよく一般化されている。
本稿では, 崩壊段階のSGDの最終反復リスク境界に関する問題依存解析を行う。
論文 参考訳(メタデータ) (2021-10-12T17:49:54Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。