Fugu-MT 論文翻訳(概要): SGD Convergence under Stepsize Shrinkage in Low-Precision Training

論文の概要: SGD Convergence under Stepsize Shrinkage in Low-Precision Training

arxiv url: http://arxiv.org/abs/2508.07142v2
Date: Sun, 24 Aug 2025 09:22:59 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-26 14:31:50.822675
Title: SGD Convergence under Stepsize Shrinkage in Low-Precision Training
Title（参考訳）: 低精度訓練におけるステップサイズ収縮下のSGD収束
Authors: Vincent-Daniel Yun,
Abstract要約: 量子化勾配の縮退は等級の縮退をもたらし、勾配の傾きが収束する方法を変える。この収縮は, 有効段数 (mu_k q_k ) の通常の段数 (mu_k q_k ) に影響を及ぼすことを示す。精度の低いSGDは依然として収束するが, (q_min ) で設定した速度は遅く, 量子化効果による誤差も高い。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Low-precision training has become crucial for reducing the computational and memory costs of large-scale deep learning. However, quantizing gradients introduces magnitude shrinkage, which can change how stochastic gradient descent (SGD) converges. In this study, we explore SGD convergence under a gradient shrinkage model, where each stochastic gradient is scaled by a factor $ q_k \in (0,1] $. We show that this shrinkage affect the usual stepsize $ \mu_k $ with an effective stepsize $ \mu_k q_k $, slowing convergence when $ q_{\min} < 1 $. With typical smoothness and bounded-variance assumptions, we prove that low-precision SGD still converges, but at a slower pace set by $ q_{\min} $, and with a higher steady error level due to quantization effects. We analyze theoretically how lower numerical precision slows training by treating it as gradient shrinkage within the standard SGD convergence setup.
Abstract（参考訳）: 大規模ディープラーニングの計算コストとメモリコストを削減するためには,低精度トレーニングが重要である。しかし、量子化勾配はマグニチュード収縮をもたらすため、確率勾配降下(SGD)の収束の仕方を変えることができる。本研究では、各確率勾配を因子 $ q_k \in (0,1] $ でスケールする勾配縮退モデルの下でSGD収束について検討する。この縮退は、有効段数 $ \mu_k q_k $ を持つ通常の段数 $ \mu_k $ に影響し、 $ q_{\min} < 1 $ の収束が遅くなることを示す。典型的な滑らかさと有界分散仮定により、低精度の SGD は依然として収束するが、(q_{\min} \) によって設定された遅い速度で、量子化効果によるより安定した誤差レベルを持つことが証明される。本研究では,SGDコンバージェンス設定の勾配縮小として扱うことにより,より低い数値精度でトレーニングが遅くなるかを理論的に解析する。

関連論文リスト

Gradient Normalization Provably Benefits Nonconvex SGD under Heavy-Tailed Noise [60.92029979853314]
重み付き雑音下でのグラディエントDescence(SGD)の収束を確実にする上での勾配正規化とクリッピングの役割について検討する。我々の研究は、重尾雑音下でのSGDの勾配正規化の利点を示す最初の理論的証拠を提供する。我々は、勾配正規化とクリッピングを取り入れた加速SGD変種を導入し、さらに重み付き雑音下での収束率を高めた。
論文参考訳（メタデータ） (2024-10-21T22:40:42Z)
Large Stepsize Gradient Descent for Logistic Loss: Non-Monotonicity of the Loss Improves Optimization Efficiency [47.8739414267201]
線形分離可能なデータを用いたロジスティック回帰に一定の段差を持つ勾配降下(GD)を考える。 GD はこの初期振動位相を急速に終了し、$mathcalO(eta)$ steps となり、その後$tildemathcalO (1 / (eta t) )$ convergence rate が得られることを示す。我々の結果は、予算が$T$ ステップであれば、GD は攻撃的なステップサイズで $tildemathcalO (1/T2)$ の加速損失を達成できることを示している。
論文参考訳（メタデータ） (2024-02-24T23:10:28Z)
Provably Accelerating Ill-Conditioned Low-rank Estimation via Scaled Gradient Descent, Even with Overparameterization [48.65416821017865]
この章では、スケールドグラデーション(ScaledGD)と呼ばれる新しいアルゴリズムアプローチを紹介します。低ランク物体の条件数に依存しない定数速度で直線的に収束する。様々なタスクに対して、勾配降下の低い摂動コストを維持できる。
論文参考訳（メタデータ） (2023-10-09T21:16:57Z)
Aiming towards the minimizers: fast convergence of SGD for overparametrized problems [25.077446336619378]
本稿では,勾配法と同一のケース複雑性を有する勾配法を提案する。既存の保証は全て勾配法で小さなステップを踏む必要があり、結果として収束速度ははるかに遅くなる。我々は,線形出力層を用いた十分に広いフィードフォワードニューラルネットワークのトレーニングにおいて,この条件が成り立つことを実証した。
論文参考訳（メタデータ） (2023-06-05T05:21:01Z)
Implicit Bias of Gradient Descent for Logistic Regression at the Edge of Stability [69.01076284478151]
機械学習の最適化において、勾配降下(GD)はしばしば安定性の端(EoS)で動く本稿では,EoS系における線形分離可能なデータに対するロジスティック回帰のための定数段差GDの収束と暗黙バイアスについて検討する。
論文参考訳（メタデータ） (2023-05-19T16:24:47Z)
Faster One-Sample Stochastic Conditional Gradient Method for Composite Convex Minimization [61.26619639722804]
滑らかで非滑らかな項の和として形成される凸有限サム目標を最小化するための条件勾配法(CGM)を提案する。提案手法は, 平均勾配 (SAG) 推定器を備え, 1回に1回のサンプルしか必要としないが, より高度な分散低減技術と同等の高速収束速度を保証できる。
論文参考訳（メタデータ） (2022-02-26T19:10:48Z)
Towards Noise-adaptive, Problem-adaptive Stochastic Gradient Descent [7.176107039687231]
雑音に対して勾配降下(SGD)を適応させるステップサイズスキームを設計する。我々は、Nesterov反復によるSGDの$T$反復がほぼ最適であることを示す。他のステップサイズスキームと比較して、新しい指数的なステップサイズスキームの有効性を実証する。
論文参考訳（メタデータ） (2021-10-21T19:22:14Z)
Differentiable Annealed Importance Sampling and the Perils of Gradient Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文参考訳（メタデータ） (2021-07-21T17:10:14Z)
On the Convergence of Stochastic Extragradient for Bilinear Games with Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文参考訳（メタデータ） (2021-06-30T17:51:36Z)
A Variance Controlled Stochastic Method with Biased Estimation for Faster Non-convex Optimization [0.0]
減少勾配(SVRG)の性能を向上させるために, 分散制御勾配(VCSG)という新しい手法を提案する。ラムダ$はVCSGで導入され、SVRGによる分散の過剰還元を避ける。 $mathcalO(min1/epsilon3/2,n1/4/epsilon)$ 勾配評価の数。
論文参考訳（メタデータ） (2021-02-19T12:22:56Z)
On the Origin of Implicit Regularization in Stochastic Gradient Descent [22.802683068658897]
勾配降下(SGD)は全バッチ損失関数上の勾配流の経路に従う。ランダムシャッフルを伴うSGDの場合、学習速度が小さく有限であれば、平均SGDは勾配流の経路に近づいたままである。損失に暗黙の正則化器を明示的に含めれば、学習率が小さい場合にテスト精度が向上することを確認した。
論文参考訳（メタデータ） (2021-01-28T18:32:14Z)
Faster Convergence of Stochastic Gradient Langevin Dynamics for Non-Log-Concave Sampling [110.88857917726276]
我々は,非log-concaveとなる分布のクラスからサンプリングするために,勾配ランゲヴィンダイナミクス(SGLD)の新たな収束解析を行う。我々のアプローチの核心は、補助的時間反転型マルコフ連鎖を用いたSGLDのコンダクタンス解析である。
論文参考訳（メタデータ） (2020-10-19T15:23:18Z)
Balancing Rates and Variance via Adaptive Batch-Size for Stochastic Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文参考訳（メタデータ） (2020-07-02T16:02:02Z)
On the Almost Sure Convergence of Stochastic Gradient Descent in Non-Convex Problems [75.58134963501094]
本稿では,勾配降下(SGD)の軌跡を解析する。我々はSGDが厳格なステップサイズポリシーのために1ドルでサドルポイント/マニフォールドを避けることを示す。
論文参考訳（メタデータ） (2020-06-19T14:11:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。