論文の概要: Accelerating Neural Network Training Along Sharp and Flat Directions
- arxiv url: http://arxiv.org/abs/2505.11972v1
- Date: Sat, 17 May 2025 12:13:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.965783
- Title: Accelerating Neural Network Training Along Sharp and Flat Directions
- Title(参考訳): シャープ方向とフラット方向に沿ったニューラルネットワークトレーニングの高速化
- Authors: Daniyar Zakarin, Sidak Pal Singh,
- Abstract要約: 本研究では、Dminant部分空間の補集合への更新を制限するSGDの変種であるBulk-SGDについて検討する。
損失ランドスケープにおける平坦な方向に対応するバルク部分空間に沿った更新は収束を加速するが、安定性を損なう可能性があることを示す。
本研究は,曲率認識設計における原則的アプローチを示唆するものである。
- 参考スコア(独自算出の注目度): 6.576051895863941
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent work has highlighted a surprising alignment between gradients and the top eigenspace of the Hessian -- termed the Dominant subspace -- during neural network training. Concurrently, there has been growing interest in the distinct roles of sharp and flat directions in the Hessian spectrum. In this work, we study Bulk-SGD, a variant of SGD that restricts updates to the orthogonal complement of the Dominant subspace. Through ablation studies, we characterize the stability properties of Bulk-SGD and identify critical hyperparameters that govern its behavior. We show that updates along the Bulk subspace, corresponding to flatter directions in the loss landscape, can accelerate convergence but may compromise stability. To balance these effects, we introduce interpolated gradient methods that unify SGD, Dom-SGD, and Bulk-SGD. Finally, we empirically connect this subspace decomposition to the Generalized Gauss-Newton and Functional Hessian terms, showing that curvature energy is largely concentrated in the Dominant subspace. Our findings suggest a principled approach to designing curvature-aware optimizers.
- Abstract(参考訳): 最近の研究は、ニューラルネットワークトレーニング中に、勾配とヘッセンの上位固有空間(ドミナント部分空間と呼ばれる)が驚くほど一致していることを強調している。
同時に、ヘッセンスペクトルにおける鋭く平坦な方向の役割に対する関心が高まっている。
本研究では、Dminant部分空間の直交補空間への更新を制限するSGDの変種であるBulk-SGDについて検討する。
アブレーション研究を通じて、バルク-SGDの安定性特性を特徴づけ、その挙動を管理する臨界ハイパーパラメータを同定する。
損失ランドスケープにおける平坦な方向に対応するバルク部分空間に沿った更新は収束を加速するが、安定性を損なう可能性があることを示す。
これらの効果のバランスをとるために、SGD, Dom-SGD, Bulk-SGDを統一する補間勾配法を導入する。
最後に、この部分空間分解を一般化されたガウス・ニュートン項と関数的ヘッセン項に経験的に結び付け、曲率エネルギーが支配部分空間に大きく集中していることを示す。
本研究は、曲率対応最適化器の設計における原則的アプローチを示唆する。
関連論文リスト
- On the Convergence of (Stochastic) Gradient Descent for Kolmogorov--Arnold Networks [56.78271181959529]
Kolmogorov--Arnold Networks (KAN) はディープラーニングコミュニティで注目されている。
実験により、勾配降下(SGD)により最適化されたカンが、ほぼゼロに近い訓練損失を達成できることが示された。
論文 参考訳(メタデータ) (2024-10-10T15:34:10Z) - Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Momentum Does Not Reduce Stochastic Noise in Stochastic Gradient Descent [0.6906005491572401]
ニューラルディープネットワークでは、運動量を持つ勾配降下(SGD)は、運動量を持たないSGDよりも速く収束し、より一般化できると言われている。
特に、運動量を加えることでこのバッチノイズが減少すると考えられている。
探索方向と最急降下方向の誤差として定義される雑音である探索方向雑音の効果を解析した。
論文 参考訳(メタデータ) (2024-02-04T02:48:28Z) - Convergence of mean-field Langevin dynamics: Time and space
discretization, stochastic gradient, and variance reduction [49.66486092259376]
平均場ランゲヴィンダイナミクス(英: mean-field Langevin dynamics、MFLD)は、分布依存のドリフトを含むランゲヴィン力学の非線形一般化である。
近年の研究では、MFLDは測度空間で機能するエントロピー規則化された凸関数を地球規模で最小化することが示されている。
有限粒子近似,時間分散,勾配近似による誤差を考慮し,MFLDのカオスの均一時間伝播を示す枠組みを提供する。
論文 参考訳(メタデータ) (2023-06-12T16:28:11Z) - Machine learning in and out of equilibrium [58.88325379746631]
我々の研究は、統計物理学から適応したフォッカー・プランク法を用いて、これらの平行線を探索する。
我々は特に、従来のSGDでは平衡が切れている長期的限界におけるシステムの定常状態に焦点を当てる。
本稿では,ミニバッチの置き換えを伴わない新しいランゲヴィンダイナミクス(SGLD)を提案する。
論文 参考訳(メタデータ) (2023-06-06T09:12:49Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - Beyond the Edge of Stability via Two-step Gradient Updates [49.03389279816152]
Gradient Descent(GD)は、現代の機械学習の強力な仕事場である。
GDが局所最小値を見つける能力は、リプシッツ勾配の損失に対してのみ保証される。
この研究は、2段階の勾配更新の分析を通じて、単純だが代表的でありながら、学習上の問題に焦点をあてる。
論文 参考訳(メタデータ) (2022-06-08T21:32:50Z) - The Limiting Dynamics of SGD: Modified Loss, Phase Space Oscillations,
and Anomalous Diffusion [29.489737359897312]
勾配降下法(SGD)を訓練した深部ニューラルネットワークの限界ダイナミクスについて検討する。
これらのダイナミクスを駆動する重要な要素は、本来のトレーニング損失ではなく、位相空間の振動を引き起こす速度と確率電流を暗黙的に規則化する修正損失の組み合わせであることを示す。
論文 参考訳(メタデータ) (2021-07-19T20:18:57Z) - Do Not Escape From the Manifold: Discovering the Local Coordinates on
the Latent Space of GANs [7.443321740418409]
本稿では,GAN(Generative Adversarial Networks)の中間潜伏空間上での局所幾何学的軌道方向を求める手法を提案する。
潜在空間の内在的な間隔によって動機づけられた基礎は、部分ネットワークの微分の低ランク近似問題を解くことによって発見される。
論文 参考訳(メタデータ) (2021-06-13T10:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。