論文の概要: Suspicious Alignment of SGD: A Fine-Grained Step Size Condition Analysis
- arxiv url: http://arxiv.org/abs/2601.11789v1
- Date: Fri, 16 Jan 2026 21:32:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.323201
- Title: Suspicious Alignment of SGD: A Fine-Grained Step Size Condition Analysis
- Title(参考訳): SGDの必然的アライメント:細粒度ステップサイズ解析
- Authors: Shenyang Deng, Boyao Liao, Zhuoli Ouyang, Tianyu Pang, Minhak Song, Yaoqing Yang,
- Abstract要約: 本稿では,不調な最適化条件下での勾配降下(SGD)における不審なアライメント現象について検討する。
具体的には、SGD更新の初期段階では、勾配と支配部分空間のアライメントが減少する傾向にある。
十分な条件下では、SGD更新をバルク空間に投影すると損失が減少し、支配空間に投影すると損失が増大するステップサイズ間隔が存在することを示す。
- 参考スコア(独自算出の注目度): 30.6120085647449
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper explores the suspicious alignment phenomenon in stochastic gradient descent (SGD) under ill-conditioned optimization, where the Hessian spectrum splits into dominant and bulk subspaces. This phenomenon describes the behavior of gradient alignment in SGD updates. Specifically, during the initial phase of SGD updates, the alignment between the gradient and the dominant subspace tends to decrease. Subsequently, it enters a rising phase and eventually stabilizes in a high-alignment phase. The alignment is considered ``suspicious'' because, paradoxically, the projected gradient update along this highly-aligned dominant subspace proves ineffective at reducing the loss. The focus of this work is to give a fine-grained analysis in a high-dimensional quadratic setup about how step size selection produces this phenomenon. Our main contribution can be summarized as follows: We propose a step-size condition revealing that in low-alignment regimes, an adaptive critical step size $η_t^*$ separates alignment-decreasing ($η_t < η_t^*$) from alignment-increasing ($η_t > η_t^*$) regimes, whereas in high-alignment regimes, the alignment is self-correcting and decreases regardless of the step size. We further show that under sufficient ill-conditioning, a step size interval exists where projecting the SGD updates to the bulk space decreases the loss while projecting them to the dominant space increases the loss, which explains a recent empirical observation that projecting gradient updates to the dominant subspace is ineffective. Finally, based on this adaptive step-size theory, we prove that for a constant step size and large initialization, SGD exhibits this distinct two-phase behavior: an initial alignment-decreasing phase, followed by stabilization at high alignment.
- Abstract(参考訳): 本稿では,不飽和条件下での確率勾配勾配降下(SGD)における不確実なアライメント現象について検討し,ヘッセンスペクトルを支配部分空間とバルク部分空間に分割する。
この現象はSGD更新における勾配アライメントの挙動を記述している。
具体的には、SGD更新の初期段階では、勾配と支配部分空間のアライメントが減少する傾向にある。
その後、上昇相に入り、最終的に高配向相で安定化する。
このアライメントは `suspicious' と見なされるが、これはパラドックス的に、この高度に整列された支配部分空間に沿った射影勾配の更新は損失を減らすのに効果がないことを証明しているからである。
この研究の焦点は、ステップサイズの選択がこの現象をいかに生み出すかについて、高次元の二次的な構成においてきめ細かい分析を行うことである。
低配向系では、適応臨界ステップサイズ$η_t^*$がアライメント増加(η_t < η_t^*$)とアライメント増加(η_t > η_t^*$)とを分離するのに対し、高配向系では、アライメントが自己修正され、ステップサイズに関係なく減少することを示すステップサイズ条件を提案する。
さらに、十分な条件下では、バルク空間にSGD更新を投影すると損失が減少し、支配空間に投影すると損失が増大するステップサイズ間隔が存在することを示す。
最後に、この適応的なステップサイズ理論に基づいて、SGDは、一定のステップサイズと大きな初期化に対して、この異なる2相の挙動を示す。
関連論文リスト
- SPINAL -- Scaling-law and Preference Integration in Neural Alignment Layers [16.976750197698063]
本研究では,深度にまたがってアライメントが表現にどう影響するかを測定する診断手法であるSPINALを紹介する。
モデルファミリ全体で、DPOは最終デコーダブロックに集中する層ワイドキャリブレーション効果を生成する。
調整されたチェックポイントは、収縮の後期層の増加と輸送の円滑な減少を示し、厳密で安定した政策質量と一致している。
論文 参考訳(メタデータ) (2026-01-08T17:47:12Z) - SGD Convergence under Stepsize Shrinkage in Low-Precision Training [0.0]
量子化勾配の縮退は等級の縮退をもたらし、勾配の傾きが収束する方法を変える。
この収縮は, 有効段数 (mu_k q_k ) の通常の段数 (mu_k q_k ) に影響を及ぼすことを示す。
精度の低いSGDは依然として収束するが, (q_min ) で設定した速度は遅く, 量子化効果による誤差も高い。
論文 参考訳(メタデータ) (2025-08-10T02:25:48Z) - Accelerating Neural Network Training Along Sharp and Flat Directions [6.576051895863941]
本研究では、Dminant部分空間の補集合への更新を制限するSGDの変種であるBulk-SGDについて検討する。
損失ランドスケープにおける平坦な方向に対応するバルク部分空間に沿った更新は収束を加速するが、安定性を損なう可能性があることを示す。
本研究は,曲率認識設計における原則的アプローチを示唆するものである。
論文 参考訳(メタデータ) (2025-05-17T12:13:05Z) - On the Convergence of Gradient Descent for Large Learning Rates [55.33626480243135]
固定ステップサイズを使用すると収束が不可能であることを示す。
正方形損失を持つ線形ニューラルネットワークの場合,これを証明した。
また、勾配に対するリプシッツ連続性のような強い仮定を必要とせず、より一般的な損失に対する収束の不可能性も証明する。
論文 参考訳(メタデータ) (2024-02-20T16:01:42Z) - Implicit Bias of Gradient Descent for Logistic Regression at the Edge of
Stability [69.01076284478151]
機械学習の最適化において、勾配降下(GD)はしばしば安定性の端(EoS)で動く
本稿では,EoS系における線形分離可能なデータに対するロジスティック回帰のための定数段差GDの収束と暗黙バイアスについて検討する。
論文 参考訳(メタデータ) (2023-05-19T16:24:47Z) - Beyond the Edge of Stability via Two-step Gradient Updates [49.03389279816152]
Gradient Descent(GD)は、現代の機械学習の強力な仕事場である。
GDが局所最小値を見つける能力は、リプシッツ勾配の損失に対してのみ保証される。
この研究は、2段階の勾配更新の分析を通じて、単純だが代表的でありながら、学習上の問題に焦点をあてる。
論文 参考訳(メタデータ) (2022-06-08T21:32:50Z) - On the Convergence of Stochastic Extragradient for Bilinear Games with
Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。
平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文 参考訳(メタデータ) (2021-06-30T17:51:36Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。