論文の概要: An Adaptive Gradient Regularization Method
- arxiv url: http://arxiv.org/abs/2407.16944v2
- Date: Wed, 31 Jul 2024 00:37:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-01 13:07:45.662858
- Title: An Adaptive Gradient Regularization Method
- Title(参考訳): 適応的勾配正規化法
- Authors: Huixiu Jiang, Ling Yang, Yu Bao, Rutong Si,
- Abstract要約: 適応勾配正規化(AGR)と呼ばれる勾配ベクトルの等級に基づく新しい最適化手法を提案する。
AGRはすべての次元の勾配ベクトルを係数ベクトルとして正規化し、バニラ勾配によって勾配とその係数ベクトルの積を減算する。
AGRは、より安定したトレーニングプロセスとより良いパフォーマンスで、損失関数リプシッツネスを改善することができることを示す。
- 参考スコア(独自算出の注目度): 5.15851432798899
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optimizer plays an important role in neural network training with high efficiency and performance. Weight update based on its gradient is the central part of the optimizer. It has been shown that normalization and standardization operation on weight and gradient can accelerate the training process and improve performance such as Weight Standardization (WS), weight normalization (WN) and gradient normalization (GN); there is also gradient centralization (GC). In this work, we introduce a new optimization technique based on the gradient magnitude in a gradient vector named adaptive gradient regularization (AGR), which normalizes the gradient vector in all dimensions as a coefficient vector and subtracts the product of the gradient and its coefficient vector by the vanilla gradient. It can be viewed as an adaptive gradient clipping method. We show that the AGR can improve the loss function Lipschitzness with a more stable training process and better generalization performance. AGR is very simple to be embedded into vanilla optimizers such as Adan and AdamW with only three lines of code. Our experiments are conducted in image generation, image classification and language representation, which shows that our AGR improves the training result.
- Abstract(参考訳): 最適化は、高い効率とパフォーマンスを持つニューラルネットワークトレーニングにおいて重要な役割を果たす。
勾配に基づく重み更新は、オプティマイザの中心部分である。
重みと勾配の正規化および標準化操作は、トレーニングプロセスを加速し、ウェイト標準化(WS)、ウェイト正規化(WN)、勾配正規化(GN)などの性能を向上させることが示されている。
本研究では,任意の次元の勾配ベクトルを係数ベクトルとして正規化し,バニラ勾配によって勾配とその係数ベクトルの積を減算する勾配ベクトルの勾配等級に基づく新しい最適化手法を提案する。
これは適応的な勾配クリッピング法と見なすことができる。
AGRは、より安定したトレーニングプロセスとより優れた一般化性能により、損失関数リプシッツネスを改善することができることを示す。
AGRは3行のコードだけで、AdanやAdamWといったバニラオプティマイザに組み込むことができる。
実験は画像生成,画像分類,言語表現において行われ,AGRがトレーニング結果を改善することを示す。
関連論文リスト
- Neural Gradient Learning and Optimization for Oriented Point Normal
Estimation [53.611206368815125]
本研究では,3次元点雲から勾配ベクトルを一貫した向きで学習し,正規推定を行うためのディープラーニング手法を提案する。
局所平面幾何に基づいて角距離場を学習し、粗勾配ベクトルを洗練する。
本手法は,局所特徴記述の精度と能力の一般化を図りながら,グローバル勾配近似を効率的に行う。
論文 参考訳(メタデータ) (2023-09-17T08:35:11Z) - Gradient Correction beyond Gradient Descent [63.33439072360198]
勾配補正は明らかに、ニューラルネットワークのトレーニングにおいて、最も重要な側面である。
勾配補正を行うためのフレームワーク(textbfGCGD)を導入する。
実験結果から, 勾配補正フレームワークは, トレーニングエポックスを$sim$20%削減し, ネットワーク性能を向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-03-16T01:42:25Z) - Adapting Stepsizes by Momentumized Gradients Improves Optimization and
Generalization [89.66571637204012]
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
論文 参考訳(メタデータ) (2021-06-22T03:13:23Z) - AdaDGS: An adaptive black-box optimization method with a nonlocal
directional Gaussian smoothing gradient [3.1546318469750196]
方向性ガウススムースティング(DGS)アプローチは(Zhang et al., 2020)で最近提案され、高次元ブラックボックス最適化のためにDGS勾配と呼ばれる真の非局所勾配を定義するために使用された。
DGSグラデーションを用いた簡易かつ創発的かつ効率的な最適化手法を提案し,超パラメータ微調整の必要性を排除した。
論文 参考訳(メタデータ) (2020-11-03T21:20:25Z) - Channel-Directed Gradients for Optimization of Convolutional Neural
Networks [50.34913837546743]
本稿では,畳み込みニューラルネットワークの最適化手法を提案する。
出力チャネル方向に沿って勾配を定義することで性能が向上し,他の方向が有害となることを示す。
論文 参考訳(メタデータ) (2020-08-25T00:44:09Z) - Gradient Centralization: A New Optimization Technique for Deep Neural
Networks [74.935141515523]
勾配集中(GC)は、勾配ベクトルをゼロ平均とする集中化によって、勾配を直接操作する。
GCは、制約された損失関数を持つ射影勾配降下法とみなすことができる。
GCは実装が非常に簡単で、1行のコードだけで既存のグラデーションベースのDNNに簡単に組み込める。
論文 参考訳(メタデータ) (2020-04-03T10:25:00Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。