論文の概要: Insights from Gradient Dynamics: Gradient Autoscaled Normalization
- arxiv url: http://arxiv.org/abs/2509.03677v2
- Date: Mon, 08 Sep 2025 06:17:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.374825
- Title: Insights from Gradient Dynamics: Gradient Autoscaled Normalization
- Title(参考訳): Gradient Dynamicsからの洞察: Gradient Autoscaled Normalization
- Authors: Vincent-Daniel Yun,
- Abstract要約: 勾配力学は、ディープニューラルネットワークの安定性と一般化を決定する上で中心的な役割を果たす。
本研究では,階層間の一貫した変化と畳み込みネットワークのグローバルスケールを示すため,学習中に勾配のばらつきと標準偏差がどのように進化するかを実証的に分析する。
これらの観測により、勾配のスケーリングと自然進化を整合させる超パラメータフリー勾配正規化法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Gradient dynamics play a central role in determining the stability and generalization of deep neural networks. In this work, we provide an empirical analysis of how variance and standard deviation of gradients evolve during training, showing consistent changes across layers and at the global scale in convolutional networks. Motivated by these observations, we propose a hyperparameter-free gradient normalization method that aligns gradient scaling with their natural evolution. This approach prevents unintended amplification, stabilizes optimization, and preserves convergence guarantees. Experiments on the challenging CIFAR-100 benchmark with ResNet-20, ResNet-56, and VGG-16-BN demonstrate that our method maintains or improves test accuracy even under strong generalization. Beyond practical performance, our study highlights the importance of directly tracking gradient dynamics, aiming to bridge the gap between theoretical expectations and empirical behaviors, and to provide insights for future optimization research.
- Abstract(参考訳): 勾配力学は、ディープニューラルネットワークの安定性と一般化を決定する上で中心的な役割を果たす。
本研究では,階層間の一貫した変化と畳み込みネットワークのグローバルスケールを示すため,学習中に勾配のばらつきと標準偏差がどのように進化するかを実証的に分析する。
これらの観測により,勾配スケーリングと自然進化を一致させるハイパーパラメータフリー勾配正規化法を提案する。
このアプローチは意図しない増幅を防止し、最適化を安定化し、収束を保証する。
ResNet-20, ResNet-56, VGG-16-BN を用いた CIFAR-100 ベンチマーク実験では, 強い一般化の下でも, テスト精度を維持・改善することを示した。
本研究は, 実用性能以外にも, 勾配力学を直接追跡することの重要性を強調し, 理論的期待と経験的行動のギャップを埋めること, 将来の最適化研究への洞察を提供することを目的としている。
関連論文リスト
- Hindsight-Guided Momentum (HGM) Optimizer: An Approach to Adaptive Learning Rate [0.0]
直近のアップデートに基づいて学習率を適応的にスケールする一階最適化アルゴリズムであるHindsight-Guided Momentumを導入する。
HGMは、コヒーレントな方向と矛盾する方向の学習速度を加速する後向きのメカニズムによってこの問題に対処する。
論文 参考訳(メタデータ) (2025-06-22T08:02:19Z) - Gradient-Variation Online Learning under Generalized Smoothness [56.38427425920781]
勾配変分オンライン学習は、オンライン関数の勾配の変化とともにスケールする後悔の保証を達成することを目的としている。
ニューラルネットワーク最適化における最近の取り組みは、一般化された滑らかさ条件を示唆し、滑らかさは勾配ノルムと相関する。
ゲームにおける高速収束と拡張逆最適化への応用について述べる。
論文 参考訳(メタデータ) (2024-08-17T02:22:08Z) - Hallmarks of Optimization Trajectories in Neural Networks: Directional Exploration and Redundancy [75.15685966213832]
最適化トラジェクトリのリッチな方向構造をポイントワイズパラメータで解析する。
トレーニング中のスカラーバッチノルムパラメータは,ネットワーク全体のトレーニング性能と一致していることを示す。
論文 参考訳(メタデータ) (2024-03-12T07:32:47Z) - Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Momentum Does Not Reduce Stochastic Noise in Stochastic Gradient Descent [0.6906005491572401]
ニューラルディープネットワークでは、運動量を持つ勾配降下(SGD)は、運動量を持たないSGDよりも速く収束し、より一般化できると言われている。
特に、運動量を加えることでこのバッチノイズが減少すると考えられている。
探索方向と最急降下方向の誤差として定義される雑音である探索方向雑音の効果を解析した。
論文 参考訳(メタデータ) (2024-02-04T02:48:28Z) - Signal Processing Meets SGD: From Momentum to Filter [6.751292200515355]
ディープラーニングでは、勾配降下(SGD)とその運動量に基づく変種が最適化に広く利用されている。
本稿では,信号処理レンズを用いて勾配挙動を解析し,更新に影響を与える重要な要因を分離する。
本稿では,ワイナーフィルタの原理に基づく新しいSGDF手法を提案する。
論文 参考訳(メタデータ) (2023-11-06T01:41:46Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - SGD with Large Step Sizes Learns Sparse Features [22.959258640051342]
本稿では、ニューラルネットワークのトレーニングにおいて、グラディエント・ディフレッシュ(SGD)のダイナミクスの重要な特徴を紹介する。
より長いステップサイズでは、損失ランドスケープにおいてSGDは高く保たれ、暗黙の正規化がうまく機能し、スパース表現を見つけることができる。
論文 参考訳(メタデータ) (2022-10-11T11:00:04Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - Implicit Bias of SGD for Diagonal Linear Networks: a Provable Benefit of
Stochasticity [24.428843425522107]
直交線形ネットワーク上の勾配降下の力学を,その連続時間,すなわち勾配流を用いて研究する。
トレーニング損失の収束速度がバイアス効果の大きさを制御することを示し,収束速度が遅くなるほどバイアスが良くなることを示した。
論文 参考訳(メタデータ) (2021-06-17T14:16:04Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。