論文の概要: On the Convergence of Stochastic Gradient Descent with Perturbed Forward-Backward Passes
- arxiv url: http://arxiv.org/abs/2602.20646v1
- Date: Tue, 24 Feb 2026 07:47:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.655899
- Title: On the Convergence of Stochastic Gradient Descent with Perturbed Forward-Backward Passes
- Title(参考訳): 前向き逆方向の摂動を有する確率勾配の収束性について
- Authors: Boao Kong, Hengrui Zhang, Kun Yuan,
- Abstract要約: 我々はこの勾配カスケード設定に関する最初の包括的な理論的解析を提示する。
摂動が勾配収束順序を悪化させない条件を特定する。
- 参考スコア(独自算出の注目度): 15.63629978994481
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study stochastic gradient descent (SGD) for composite optimization problems with $N$ sequential operators subject to perturbations in both the forward and backward passes. Unlike classical analyses that treat gradient noise as additive and localized, perturbations to intermediate outputs and gradients cascade through the computational graph, compounding geometrically with the number of operators. We present the first comprehensive theoretical analysis of this setting. Specifically, we characterize how forward and backward perturbations propagate and amplify within a single gradient step, derive convergence guarantees for both general non-convex objectives and functions satisfying the Polyak--Łojasiewicz condition, and identify conditions under which perturbations do not deteriorate the asymptotic convergence order. As a byproduct, our analysis furnishes a theoretical explanation for the gradient spiking phenomenon widely observed in deep learning, precisely characterizing the conditions under which training recovers from spikes or diverges. Experiments on logistic regression with convex and non-convex regularization validate our theories, illustrating the predicted spike behavior and the asymmetric sensitivity to forward versus backward perturbations.
- Abstract(参考訳): 確率勾配勾配(SGD)を,前と後の両方の摂動を受ける$N$連続演算子による合成最適化問題に対して検討した。
勾配ノイズを加法および局所化として扱う古典的な解析とは異なり、中間出力への摂動と勾配のカスケードは、演算子数と幾何学的に合成される。
本稿は、この設定に関する最初の包括的理論的分析について述べる。
具体的には、1つの勾配ステップで前方および後方の摂動が伝播し増幅し、一般の非凸目的とポリアック-ジョジャシエヴィチ条件を満たす関数の収束保証を導出し、摂動が漸近収束順序を悪化しない条件を特定する。
副産物として,本研究では,深層学習において広く見られる勾配スパイク現象を理論的に説明し,トレーニングがスパイクや分岐から回復する条件を正確に特徴づける。
凸および非凸正則化によるロジスティック回帰の実験は、予測スパイク挙動と前方と後方の摂動に対する非対称感度を説明して、我々の理論を検証する。
関連論文リスト
- Revisiting Zeroth-Order Optimization: Minimum-Variance Two-Point Estimators and Directionally Aligned Perturbations [57.179679246370114]
乱摂動の分布は, 摂動段差がゼロになる傾向にあるため, 推定子の分散を最小限に抑える。
以上の結果から, 一定の長さを維持するのではなく, 真の勾配に方向を合わせることが可能であることが示唆された。
論文 参考訳(メタデータ) (2025-10-22T19:06:39Z) - Global Convergence Analysis of Vanilla Gradient Descent for Asymmetric Matrix Completion [21.544089013107392]
本稿では,非対称な低ランク行列補完問題について検討する。
非線形最小二乗完備関数を持つ非拘束的最適化問題として定式化することができる。
勾配降下法は通常、収束を保証するために正規化項を目的関数に組み込む。
論文 参考訳(メタデータ) (2025-08-13T10:23:32Z) - Controlling the Flow: Stability and Convergence for Stochastic Gradient Descent with Decaying Regularization [5.582101184758528]
我々は、余分な有界性仮定を伴わない元の問題の最小ノルム解に対して、reg-SGDの強い収束性を証明する。
分析の結果,Tikhonov正則化がSGDの流れを制御し,安定した学習力学が得られることがわかった。
論文 参考訳(メタデータ) (2025-05-16T16:53:49Z) - Asymptotics of Non-Convex Generalized Linear Models in High-Dimensions: A proof of the replica formula [17.036996839737828]
非次元ガウス正規化モデルの最適性を証明するために,アルゴリズムをどのように利用できるかを示す。
また, 負の正則化モデルの最適性を証明するために, テューキー損失を用いる方法を示す。
論文 参考訳(メタデータ) (2025-02-27T11:29:43Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Last-Iterate Convergence of Adaptive Riemannian Gradient Descent for Equilibrium Computation [52.73824786627612]
本稿では,テクスト幾何学的強単調ゲームに対する新たな収束結果を確立する。
我々のキーとなる結果は、RGDがテクスト幾何学的手法で最終定位線形収束を実現することを示しています。
全体として、ユークリッド設定を超えるゲームに対して、幾何学的に非依存な最終点収束解析を初めて提示する。
論文 参考訳(メタデータ) (2023-06-29T01:20:44Z) - Convex and Non-convex Optimization Under Generalized Smoothness [69.69521650503431]
凸法と非最適化法の分析は、しばしばリプシッツ勾配を必要とし、この軌道による解析を制限する。
最近の研究は、非一様滑らか性条件を通した勾配設定を一般化している。
論文 参考訳(メタデータ) (2023-06-02T04:21:59Z) - Nonconvex Stochastic Scaled-Gradient Descent and Generalized Eigenvector
Problems [98.34292831923335]
オンライン相関解析の問題から,emphStochastic Scaled-Gradient Descent (SSD)アルゴリズムを提案する。
我々はこれらのアイデアをオンライン相関解析に適用し、局所収束率を正規性に比例した最適な1時間スケールのアルゴリズムを初めて導いた。
論文 参考訳(メタデータ) (2021-12-29T18:46:52Z) - On Convergence of Training Loss Without Reaching Stationary Points [62.41370821014218]
ニューラルネットワークの重み変数は、損失関数の勾配が消える定常点に収束しないことを示す。
エルゴード理論の力学系に基づく新しい視点を提案する。
論文 参考訳(メタデータ) (2021-10-12T18:12:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。