論文の概要: Adaptive Gradient Regularization: A Faster and Generalizable Optimization Technique for Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2407.16944v4
- Date: Tue, 20 Aug 2024 01:21:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 19:15:20.112963
- Title: Adaptive Gradient Regularization: A Faster and Generalizable Optimization Technique for Deep Neural Networks
- Title(参考訳): Adaptive Gradient Regularization: ディープニューラルネットワークの高速で一般化可能な最適化手法
- Authors: Huixiu Jiang, Ling Yang, Yu Bao, Rutong Si, Sikun Yang,
- Abstract要約: 本稿では、勾配ベクトルの和正規化を係数として、ディープニューラルネットワークの新しい最適化手法を研究するための最初の試みである。
提案手法は適応勾配正規化 (Adaptive gradient regularization, AGR) と呼ばれる。
- 参考スコア(独自算出の注目度): 5.507301894089302
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic optimization plays a crucial role in the advancement of deep learning technologies. Over the decades, significant effort has been dedicated to improving the training efficiency and robustness of deep neural networks, via various strategies including gradient normalization (GN) and gradient centralization (GC). Nevertheless, to the best of our knowledge, no one has considered to capture the optimal gradient descent trajectory, by adaptively controlling gradient descent direction. To address this concern, this paper is the first attempt to study a new optimization technique for deep neural networks, using the sum normalization of a gradient vector as coefficients, to dynamically regularize gradients and thus to effectively control optimization direction. The proposed technique is hence named as the adaptive gradient regularization (AGR). It can be viewed as an adaptive gradient clipping method. The theoretical analysis reveals that the AGR can effectively smooth the loss landscape, and hence can significantly improve the training efficiency and model generalization performance. We note that AGR can greatly improve the training efficiency of vanilla optimizers' including Adan and AdamW, by adding only three lines of code. The final experiments conducted on image generation, image classification, and language representation, demonstrate that the AGR method can not only improve the training efficiency but also enhance the model generalization performance.
- Abstract(参考訳): 確率最適化は、ディープラーニング技術の進歩において重要な役割を果たす。
何十年もの間、勾配正規化(GN)や勾配集中化(GC)といった様々な戦略を通じて、ディープニューラルネットワークのトレーニング効率と堅牢性を改善するための重要な努力が続けられてきた。
それにもかかわらず、我々の知る限りでは、勾配降下方向を適応的に制御することで、最適勾配降下軌道を捉えることを誰も考えていない。
そこで本研究では,勾配ベクトルの和正規化を係数として用い,勾配を動的に正規化し,最適化方向を効果的に制御するディープニューラルネットワークの新しい最適化手法について検討する。
提案手法は適応勾配正規化 (Adaptive gradient regularization, AGR) と呼ばれる。
これは適応的な勾配クリッピング法と見なすことができる。
理論解析により,AGRは損失景観を効果的に平滑にすることができ,トレーニング効率とモデル一般化性能を大幅に向上させることができることがわかった。
AGRは3行のコードを追加するだけで、AdanやAdamWを含む"バニラオプティマイザ"のトレーニング効率を大幅に改善することができます。
画像生成, 画像分類, 言語表現に関する最終実験は, AGR法が訓練効率を向上するだけでなく, モデル一般化性能を向上させることを実証している。
関連論文リスト
- Neural Gradient Learning and Optimization for Oriented Point Normal
Estimation [53.611206368815125]
本研究では,3次元点雲から勾配ベクトルを一貫した向きで学習し,正規推定を行うためのディープラーニング手法を提案する。
局所平面幾何に基づいて角距離場を学習し、粗勾配ベクトルを洗練する。
本手法は,局所特徴記述の精度と能力の一般化を図りながら,グローバル勾配近似を効率的に行う。
論文 参考訳(メタデータ) (2023-09-17T08:35:11Z) - Gradient Correction beyond Gradient Descent [63.33439072360198]
勾配補正は明らかに、ニューラルネットワークのトレーニングにおいて、最も重要な側面である。
勾配補正を行うためのフレームワーク(textbfGCGD)を導入する。
実験結果から, 勾配補正フレームワークは, トレーニングエポックスを$sim$20%削減し, ネットワーク性能を向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-03-16T01:42:25Z) - Adapting Stepsizes by Momentumized Gradients Improves Optimization and
Generalization [89.66571637204012]
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
論文 参考訳(メタデータ) (2021-06-22T03:13:23Z) - AdaDGS: An adaptive black-box optimization method with a nonlocal
directional Gaussian smoothing gradient [3.1546318469750196]
方向性ガウススムースティング(DGS)アプローチは(Zhang et al., 2020)で最近提案され、高次元ブラックボックス最適化のためにDGS勾配と呼ばれる真の非局所勾配を定義するために使用された。
DGSグラデーションを用いた簡易かつ創発的かつ効率的な最適化手法を提案し,超パラメータ微調整の必要性を排除した。
論文 参考訳(メタデータ) (2020-11-03T21:20:25Z) - Channel-Directed Gradients for Optimization of Convolutional Neural
Networks [50.34913837546743]
本稿では,畳み込みニューラルネットワークの最適化手法を提案する。
出力チャネル方向に沿って勾配を定義することで性能が向上し,他の方向が有害となることを示す。
論文 参考訳(メタデータ) (2020-08-25T00:44:09Z) - Gradient Centralization: A New Optimization Technique for Deep Neural
Networks [74.935141515523]
勾配集中(GC)は、勾配ベクトルをゼロ平均とする集中化によって、勾配を直接操作する。
GCは、制約された損失関数を持つ射影勾配降下法とみなすことができる。
GCは実装が非常に簡単で、1行のコードだけで既存のグラデーションベースのDNNに簡単に組み込める。
論文 参考訳(メタデータ) (2020-04-03T10:25:00Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。