論文の概要: Adaptive Heavy-Tailed Stochastic Gradient Descent
- arxiv url: http://arxiv.org/abs/2508.21353v1
- Date: Fri, 29 Aug 2025 06:32:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:10.936198
- Title: Adaptive Heavy-Tailed Stochastic Gradient Descent
- Title(参考訳): アダプティブ・ヘビータイル・確率的グラディエント・ディフレッシュ
- Authors: Bodu Gong, Gustavo Enrique Batista, Pierre Lafaye de Micheaux,
- Abstract要約: AHTSGDは、安定性のエッジに基づく一般化に注入されたノイズの性質を調整した最初のアルゴリズムである。
AHTSGDは、MNISTやCIFAR-10のようなベンチマークでSGDと他のノイズベースの手法を一貫して上回り、SVHNのようなノイズの多いデータセットでは顕著に上昇している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the era of large-scale neural network models, optimization algorithms often struggle with generalization due to an overreliance on training loss. One key insight widely accepted in the machine learning community is the idea that wide basins (regions around a local minimum where the loss increases gradually) promote better generalization by offering greater stability to small changes in input data or model parameters. In contrast, sharp minima are typically more sensitive and less stable. Motivated by two key empirical observations - the inherent heavy-tailed distribution of gradient noise in stochastic gradient descent and the Edge of Stability phenomenon during neural network training, in which curvature grows before settling at a plateau, we introduce Adaptive Heavy Tailed Stochastic Gradient Descent (AHTSGD). The algorithm injects heavier-tailed noise into the optimizer during the early stages of training to enhance exploration and gradually transitions to lighter-tailed noise as sharpness stabilizes. By dynamically adapting to the sharpness of the loss landscape throughout training, AHTSGD promotes accelerated convergence to wide basins. AHTSGD is the first algorithm to adjust the nature of injected noise into an optimizer based on the Edge of Stability phenomenon. AHTSGD consistently outperforms SGD and other noise-based methods on benchmarks like MNIST and CIFAR-10, with marked gains on noisy datasets such as SVHN. It ultimately accelerates early training from poor initializations and improves generalization across clean and noisy settings, remaining robust to learning rate choices.
- Abstract(参考訳): 大規模ニューラルネットワークモデルの時代、最適化アルゴリズムはトレーニング損失の過度な信頼性のために一般化に苦慮することが多い。
機械学習コミュニティで広く受け入れられている重要な洞察の1つは、広い盆地(損失が徐々に増加する局所的な最小領域)が、入力データやモデルパラメータの小さな変化に対してより安定性を提供することで、より良い一般化を促進するという考えである。
対照的に、鋭いミニマは一般的により敏感で安定ではない。
確率勾配降下における勾配雑音の固有重み付き分布と,高原に沈着する前に曲率が増大するニューラルネットワークトレーニング中の安定性現象のエッジという2つの重要な経験的観測により,我々は適応重み付き確率勾配降下(AHTSGD)を紹介した。
このアルゴリズムは、訓練の初期段階に重い尾のノイズをオプティマイザに注入し、探索を強化し、鋭さが安定するにつれて徐々に明るい尾のノイズに遷移する。
AHTSGDはトレーニングを通して損失景観の鋭さに動的に適応することにより、広い流域への加速収束を促進する。
AHTSGDは、安定性のエッジに基づく最適化器に注入されたノイズの性質を調整した最初のアルゴリズムである。
AHTSGDは、MNISTやCIFAR-10のようなベンチマークでSGDや他のノイズベースの手法を一貫して上回り、SVHNのようなノイズの多いデータセットでは顕著に上昇している。
最終的には、未熟な初期化から早期トレーニングを加速し、クリーンでノイズの多い設定における一般化を改善し、学習率の選択に頑健なままである。
関連論文リスト
- Gradient Normalization Provably Benefits Nonconvex SGD under Heavy-Tailed Noise [60.92029979853314]
重み付き雑音下でのグラディエントDescence(SGD)の収束を確実にする上での勾配正規化とクリッピングの役割について検討する。
我々の研究は、重尾雑音下でのSGDの勾配正規化の利点を示す最初の理論的証拠を提供する。
我々は、勾配正規化とクリッピングを取り入れた加速SGD変種を導入し、さらに重み付き雑音下での収束率を高めた。
論文 参考訳(メタデータ) (2024-10-21T22:40:42Z) - Improved Noise Schedule for Diffusion Training [51.849746576387375]
本稿では,拡散モデルのトレーニングを強化するため,ノイズスケジュールを設計するための新しい手法を提案する。
我々は,標準のコサインスケジュールよりもノイズスケジュールの方が優れていることを実証的に示す。
論文 参考訳(メタデータ) (2024-07-03T17:34:55Z) - The Marginal Value of Momentum for Small Learning Rate SGD [20.606430391298815]
モーメントは、勾配雑音のない強い凸条件下での勾配降下の収束を加速することが知られている。
実験により、最適学習率があまり大きくない実践訓練において、運動量には最適化と一般化の両方の利点があることがわかった。
論文 参考訳(メタデータ) (2023-07-27T21:01:26Z) - Latent Class-Conditional Noise Model [54.56899309997246]
本稿では,ベイズ的枠組みの下での雑音遷移をパラメータ化するためのLatent Class-Conditional Noise Model (LCCN)を提案する。
次に、Gibs sampler を用いて遅延真のラベルを効率的に推測できる LCCN の動的ラベル回帰法を導出する。
提案手法は,サンプルのミニバッチから事前の任意チューニングを回避するため,ノイズ遷移の安定な更新を保護している。
論文 参考訳(メタデータ) (2023-02-19T15:24:37Z) - Noise Injection Node Regularization for Robust Learning [0.0]
ノイズインジェクションノード規則化(NINR)は、トレーニング期間中に、構造化されたノイズをディープニューラルネットワーク(DNN)に注入する手法である。
本研究は、NINRの下で訓練されたフィードフォワードDNNに対する各種試験データ摂動に対するロバスト性を大幅に改善する理論的および実証的な証拠を示す。
論文 参考訳(メタデータ) (2022-10-27T20:51:15Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。