論文の概要: XGrad: Boosting Gradient-Based Optimizers With Weight Prediction
- arxiv url: http://arxiv.org/abs/2305.18240v1
- Date: Fri, 26 May 2023 10:34:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 13:50:45.184122
- Title: XGrad: Boosting Gradient-Based Optimizers With Weight Prediction
- Title(参考訳): xgrad: 重量予測を用いた勾配に基づく最適化
- Authors: Lei Guan, Dongsheng Li, Jian Meng, Yanqi Shi
- Abstract要約: 本稿では,一般的な勾配に基づくDNNに重み予測を導入する,一般的なディープラーニング学習フレームワークを提案する。
特に、各ミニバッチトレーニングの前に、使用した更新ルールに従って将来の重みを予測し、前方パスと後方パスの両方に適用する。
実験結果から,XGradはモデルのトレーニング時に元のモデルよりも精度が高いことが確認された。
- 参考スコア(独自算出の注目度): 13.647776166369257
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a general deep learning training framework XGrad
which introduces weight prediction into the popular gradient-based optimizers
to boost their convergence and generalization when training the deep neural
network (DNN) models. In particular, ahead of each mini-batch training, the
future weights are predicted according to the update rule of the used optimizer
and are then applied to both the forward pass and backward propagation. In this
way, during the whole training period, the optimizer always utilizes the
gradients w.r.t. the future weights to update the DNN parameters, making the
gradient-based optimizer achieve better convergence and generalization compared
to the original optimizer without weight prediction. XGrad is rather
straightforward to implement yet pretty effective in boosting the convergence
of gradient-based optimizers and the accuracy of DNN models. Empirical results
concerning the most three popular gradient-based optimizers including SGD with
momentum, Adam, and AdamW demonstrate the effectiveness of our proposal. The
experimental results validate that XGrad can attain higher model accuracy than
the original optimizers when training the DNN models. The code of XGrad will be
available at: https://github.com/guanleics/XGrad.
- Abstract(参考訳): 本稿では,一般的な勾配に基づくオプティマイザに重み予測を導入して,深層ニューラルネットワーク(dnn)モデルの学習時の収束と一般化を促進する,一般的なディープラーニングトレーニングフレームワークであるxgradを提案する。
特に、各ミニバッチトレーニングの前に、使用したオプティマイザの更新ルールに従って将来の重みを予測し、前方通過と後方伝播の両方に適用する。
このように、トレーニング期間全体において、オプティマイザは常にDNNパラメータを更新するために将来の重みの勾配を用いており、グラデーションベースのオプティマイザは、ウェイト予測のないオリジナルのオプティマイザと比較して、より収束と一般化を実現している。
XGradは比較的単純で、勾配に基づくオプティマイザの収束とDNNモデルの精度を高めるのに非常に効果的である。
sgd with momentum, adam, adamwを含む最も人気のある3つの勾配に基づく最適化に関する実験結果は,本提案の有効性を示している。
実験により,DNNモデルのトレーニングにおいて,XGradが元のオプティマイザよりも高いモデル精度が得られることを確認した。
XGradのコードは、https://github.com/guanleics/XGrad.comで入手できる。
関連論文リスト
- Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of
Language Model [92.55145016562867]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Weight Prediction Boosts the Convergence of AdamW [3.7485728774744556]
我々は、ディープニューラルネットワーク(DNN)モデルをトレーニングする際の収束を高めるために、AdamWに重み予測を導入する。
特に、各ミニバッチトレーニングの前に、AdamWの更新ルールに従って将来の重量を予測し、予測された将来の重量を適用します。
論文 参考訳(メタデータ) (2023-02-01T02:58:29Z) - Boosted Dynamic Neural Networks [53.559833501288146]
典型的なEDNNは、ネットワークバックボーンの異なる層に複数の予測ヘッドを持つ。
モデルを最適化するために、これらの予測ヘッドとネットワークバックボーンは、トレーニングデータのバッチ毎にトレーニングされる。
トレーニングと2つのフェーズでのインプットの異なるテストは、トレーニングとデータ分散のテストのミスマッチを引き起こす。
EDNNを勾配強化にインスパイアされた付加モデルとして定式化し、モデルを効果的に最適化するための複数のトレーニング手法を提案する。
論文 参考訳(メタデータ) (2022-11-30T04:23:12Z) - VeLO: Training Versatile Learned Optimizers by Scaling Up [67.90237498659397]
私たちは、ディープラーニングの成功の背後にある同じスケーリングアプローチを活用して、汎用性を学びます。
私たちは、パラメータの更新を取り込み出力する小さなニューラルネットワークであるディープラーニングのためのインジェクションをトレーニングします。
学習したメタトレーニングコード、関連するトレインテストデータ、およびvelo-code.ioのベースラインを備えた広範なベンチマークスイートをオープンソースとして公開しています。
論文 参考訳(メタデータ) (2022-11-17T18:39:07Z) - AdaNorm: Adaptive Gradient Norm Correction based Optimizer for CNNs [23.523389372182613]
勾配降下(SGD)は一般に畳み込みニューラルネットワーク(CNN)の訓練に使用される
既存のSGDは過去の反復の勾配基準を活用せず、収束と性能の低下につながる。
本稿では,AdaNormをベースとした新しいSGDを提案する。
論文 参考訳(メタデータ) (2022-10-12T16:17:25Z) - Tom: Leveraging trend of the observed gradients for faster convergence [0.0]
TomはAdamの新しい変種であり、ニューラルネットワークによって渡される損失の風景の勾配の傾向を考慮に入れている。
Tomは両方の精度でAdagrad、Adadelta、RMSProp、Adamを上回り、より早く収束する。
論文 参考訳(メタデータ) (2021-09-07T20:19:40Z) - Adapting Stepsizes by Momentumized Gradients Improves Optimization and
Generalization [89.66571637204012]
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
論文 参考訳(メタデータ) (2021-06-22T03:13:23Z) - A Bop and Beyond: A Second Order Optimizer for Binarized Neural Networks [0.0]
Binary Neural Networks (BNNs) の最適化は、実数値の重みをバイナライズ表現で近似することに依存している。
本稿では,第2の生モーメント推定を用いて第1の生モーメントを正規化し,しきい値との比較を行うアダム法と並行する手法を提案する。
提案した2つのバージョン – バイアス付きバージョンとバイアス修正バージョン – をそれぞれ独自のアプリケーションで提示する。
論文 参考訳(メタデータ) (2021-04-11T22:20:09Z) - Enhanced data efficiency using deep neural networks and Gaussian
processes for aerodynamic design optimization [0.0]
随伴型最適化法は空気力学的形状設計において魅力的である。
複数の最適化問題が解決されている場合、それらは違法に高価になる可能性がある。
本稿では,高コストな随伴解法に取って代わる機械学習を実現するサロゲートベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-15T15:09:21Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Gradient Centralization: A New Optimization Technique for Deep Neural
Networks [74.935141515523]
勾配集中(GC)は、勾配ベクトルをゼロ平均とする集中化によって、勾配を直接操作する。
GCは、制約された損失関数を持つ射影勾配降下法とみなすことができる。
GCは実装が非常に簡単で、1行のコードだけで既存のグラデーションベースのDNNに簡単に組み込める。
論文 参考訳(メタデータ) (2020-04-03T10:25:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。