論文の概要: Designing Preconditioners for SGD: Local Conditioning, Noise Floors, and Basin Stability
- arxiv url: http://arxiv.org/abs/2511.19716v1
- Date: Mon, 24 Nov 2025 21:24:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.167056
- Title: Designing Preconditioners for SGD: Local Conditioning, Noise Floors, and Basin Stability
- Title(参考訳): SGDのためのプレコンディショナーの設計:ローカルコンディショニング、騒音床、盆地安定性
- Authors: Mitchell Scott, Tianshi Xu, Ziyuan Tang, Alexandra Pichette-Emmons, Qiang Ye, Yousef Saad, Yuanzhe Xi,
- Abstract要約: SGD(Gradient Descent)は、異方性曲率と勾配雑音により訓練後期に遅くなることが多い。
対称正行列$mathbfM$により誘導される幾何学におけるSGDを解析し、収束率とノイズフロアの両方が$mathbfM$依存量でバウンドされる境界を導出する。
診断と3つのSciMLベンチマークの実験は、予測フロアの挙動を検証する。
- 参考スコア(独自算出の注目度): 38.75338802679837
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stochastic Gradient Descent (SGD) often slows in the late stage of training due to anisotropic curvature and gradient noise. We analyze preconditioned SGD in the geometry induced by a symmetric positive definite matrix $\mathbf{M}$, deriving bounds in which both the convergence rate and the stochastic noise floor are governed by $\mathbf{M}$-dependent quantities: the rate through an effective condition number in the $\mathbf{M}$-metric, and the floor through the product of that condition number and the preconditioned noise level. For nonconvex objectives, we establish a preconditioner-dependent basin-stability guarantee: when smoothness and basin size are measured in the $\mathbf{M}$-norm, the probability that the iterates remain in a well-behaved local region admits an explicit lower bound. This perspective is particularly relevant in Scientific Machine Learning (SciML), where achieving small training loss under stochastic updates is closely tied to physical fidelity, numerical stability, and constraint satisfaction. The framework applies to both diagonal/adaptive and curvature-aware preconditioners and yields a simple design principle: choose $\mathbf{M}$ to improve local conditioning while attenuating noise. Experiments on a quadratic diagnostic and three SciML benchmarks validate the predicted rate-floor behavior.
- Abstract(参考訳): SGD(Stochastic Gradient Descent)は、異方性曲率と勾配雑音により訓練後期に遅くなることが多い。
我々は、対称正定行列$\mathbf{M}$によって誘導される幾何学における事前条件付きSGDを解析し、収束率と確率的ノイズフロアの両方が$\mathbf{M}$依存量で支配される境界を導出する。
非凸目的に対して、プレコンディショナー依存の盆地安定性を保証する:$\mathbf{M}$-norm で滑らかさと盆地サイズが測定されたとき、イテレートがよく定義された局所領域に留まる確率は、明示的な下界を許容する。
この観点はSciML(SciML)において特に重要であり、確率的更新の下で小さなトレーニング損失を達成することは、物理的忠実さ、数値安定性、制約満足度と密接に結びついている。
このフレームワークは対角型/適応型および曲率対応プリコンディショナーの両方に適用され、ノイズを減衰させながら局所条件を改善するために$\mathbf{M}$を選択するという単純な設計原則が与えられる。
2次診断と3つのSciMLベンチマークの実験は、予測されたレート-フロアの挙動を検証する。
関連論文リスト
- SGD Convergence under Stepsize Shrinkage in Low-Precision Training [0.0]
量子化勾配の縮退は等級の縮退をもたらし、勾配の傾きが収束する方法を変える。
この収縮は, 有効段数 (mu_k q_k ) の通常の段数 (mu_k q_k ) に影響を及ぼすことを示す。
精度の低いSGDは依然として収束するが, (q_min ) で設定した速度は遅く, 量子化効果による誤差も高い。
論文 参考訳(メタデータ) (2025-08-10T02:25:48Z) - Optimal High-probability Convergence of Nonlinear SGD under Heavy-tailed Noise via Symmetrization [50.49466204159458]
雑音対称性に基づく2つの新しい推定器を提案する。
よりシャープな分析と改善されたレートを提供します。
モーメントと対称雑音を仮定する作業と比較して、よりシャープな解析と改善率を提供する。
論文 参考訳(メタデータ) (2025-07-12T00:31:13Z) - Accelerated zero-order SGD under high-order smoothness and overparameterized regime [79.85163929026146]
凸最適化問題を解くための新しい勾配のないアルゴリズムを提案する。
このような問題は医学、物理学、機械学習で発生する。
両種類の雑音下で提案アルゴリズムの収束保証を行う。
論文 参考訳(メタデータ) (2024-11-21T10:26:17Z) - Provable Complexity Improvement of AdaGrad over SGD: Upper and Lower Bounds in Stochastic Non-Convex Optimization [18.47705532817026]
適応勾配法は、最も成功したニューラルネットワークトレーニングアルゴリズムの一つである。
これらの手法は凸SGD-ノルマリティよりも次元依存性が優れていることが知られている。
本稿では,構造物の滑らかさと勾配雑音の分散に関する新しい仮定を紹介する。
論文 参考訳(メタデータ) (2024-06-07T02:55:57Z) - Breaking the Heavy-Tailed Noise Barrier in Stochastic Optimization Problems [56.86067111855056]
構造密度の重み付き雑音によるクリップ最適化問題を考察する。
勾配が有限の順序モーメントを持つとき、$mathcalO(K-(alpha - 1)/alpha)$よりも高速な収束率が得られることを示す。
得られた推定値が無視可能なバイアスと制御可能な分散を持つことを示す。
論文 参考訳(メタデータ) (2023-11-07T17:39:17Z) - Generalization Bounds for Label Noise Stochastic Gradient Descent [0.0]
非測定条件でのラベルノイズを伴う勾配降下(SGD)の一般化誤差境界について検討する。
我々の分析はラベルノイズの影響についての洞察を与える。
論文 参考訳(メタデータ) (2023-11-01T03:51:46Z) - Towards Noise-adaptive, Problem-adaptive Stochastic Gradient Descent [7.176107039687231]
雑音に対して勾配降下(SGD)を適応させるステップサイズスキームを設計する。
我々は、Nesterov反復によるSGDの$T$反復がほぼ最適であることを示す。
他のステップサイズスキームと比較して、新しい指数的なステップサイズスキームの有効性を実証する。
論文 参考訳(メタデータ) (2021-10-21T19:22:14Z) - On the Convergence of Stochastic Extragradient for Bilinear Games with
Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。
平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文 参考訳(メタデータ) (2021-06-30T17:51:36Z) - Bayesian Sparse learning with preconditioned stochastic gradient MCMC
and its applications [5.660384137948734]
提案アルゴリズムは, 温和な条件下で, 制御可能なバイアスで正しい分布に収束する。
提案アルゴリズムは, 温和な条件下で, 制御可能なバイアスで正しい分布に収束可能であることを示す。
論文 参考訳(メタデータ) (2020-06-29T20:57:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。