論文の概要: XGrad: Boosting Gradient-Based Optimizers With Weight Prediction
- arxiv url: http://arxiv.org/abs/2305.18240v1
- Date: Fri, 26 May 2023 10:34:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 13:50:45.184122
- Title: XGrad: Boosting Gradient-Based Optimizers With Weight Prediction
- Title(参考訳): xgrad: 重量予測を用いた勾配に基づく最適化
- Authors: Lei Guan, Dongsheng Li, Jian Meng, Yanqi Shi
- Abstract要約: 本稿では,一般的な勾配に基づくDNNに重み予測を導入する,一般的なディープラーニング学習フレームワークを提案する。
特に、各ミニバッチトレーニングの前に、使用した更新ルールに従って将来の重みを予測し、前方パスと後方パスの両方に適用する。
実験結果から,XGradはモデルのトレーニング時に元のモデルよりも精度が高いことが確認された。
- 参考スコア(独自算出の注目度): 13.647776166369257
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a general deep learning training framework XGrad
which introduces weight prediction into the popular gradient-based optimizers
to boost their convergence and generalization when training the deep neural
network (DNN) models. In particular, ahead of each mini-batch training, the
future weights are predicted according to the update rule of the used optimizer
and are then applied to both the forward pass and backward propagation. In this
way, during the whole training period, the optimizer always utilizes the
gradients w.r.t. the future weights to update the DNN parameters, making the
gradient-based optimizer achieve better convergence and generalization compared
to the original optimizer without weight prediction. XGrad is rather
straightforward to implement yet pretty effective in boosting the convergence
of gradient-based optimizers and the accuracy of DNN models. Empirical results
concerning the most three popular gradient-based optimizers including SGD with
momentum, Adam, and AdamW demonstrate the effectiveness of our proposal. The
experimental results validate that XGrad can attain higher model accuracy than
the original optimizers when training the DNN models. The code of XGrad will be
available at: https://github.com/guanleics/XGrad.
- Abstract(参考訳): 本稿では,一般的な勾配に基づくオプティマイザに重み予測を導入して,深層ニューラルネットワーク(dnn)モデルの学習時の収束と一般化を促進する,一般的なディープラーニングトレーニングフレームワークであるxgradを提案する。
特に、各ミニバッチトレーニングの前に、使用したオプティマイザの更新ルールに従って将来の重みを予測し、前方通過と後方伝播の両方に適用する。
このように、トレーニング期間全体において、オプティマイザは常にDNNパラメータを更新するために将来の重みの勾配を用いており、グラデーションベースのオプティマイザは、ウェイト予測のないオリジナルのオプティマイザと比較して、より収束と一般化を実現している。
XGradは比較的単純で、勾配に基づくオプティマイザの収束とDNNモデルの精度を高めるのに非常に効果的である。
sgd with momentum, adam, adamwを含む最も人気のある3つの勾配に基づく最適化に関する実験結果は,本提案の有効性を示している。
実験により,DNNモデルのトレーニングにおいて,XGradが元のオプティマイザよりも高いモデル精度が得られることを確認した。
XGradのコードは、https://github.com/guanleics/XGrad.comで入手できる。
関連論文リスト
- MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.47014540413659]
Adam、Adam、およびそれらの変種のような大規模な勾配アルゴリズムは、この種のトレーニングの開発の中心となっている。
本稿では,事前条件付き勾配最適化手法と,スケールドモーメント手法による分散低減を両立させる枠組みを提案する。
論文 参考訳(メタデータ) (2024-11-15T18:57:39Z) - AdaFisher: Adaptive Second Order Optimization via Fisher Information [22.851200800265914]
本稿では,適応型プレコンディショニング勾配のためのフィッシャー情報行列に対して,ブロック対角近似を利用する適応型2次のAdaFisherを提案する。
AdaFisher は精度と収束速度の両方において SOTA よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-05-26T01:25:02Z) - Weight Prediction Boosts the Convergence of AdamW [3.7485728774744556]
我々は、ディープニューラルネットワーク(DNN)モデルをトレーニングする際の収束を高めるために、AdamWに重み予測を導入する。
特に、各ミニバッチトレーニングの前に、AdamWの更新ルールに従って将来の重量を予測し、予測された将来の重量を適用します。
論文 参考訳(メタデータ) (2023-02-01T02:58:29Z) - Boosted Dynamic Neural Networks [53.559833501288146]
典型的なEDNNは、ネットワークバックボーンの異なる層に複数の予測ヘッドを持つ。
モデルを最適化するために、これらの予測ヘッドとネットワークバックボーンは、トレーニングデータのバッチ毎にトレーニングされる。
トレーニングと2つのフェーズでのインプットの異なるテストは、トレーニングとデータ分散のテストのミスマッチを引き起こす。
EDNNを勾配強化にインスパイアされた付加モデルとして定式化し、モデルを効果的に最適化するための複数のトレーニング手法を提案する。
論文 参考訳(メタデータ) (2022-11-30T04:23:12Z) - VeLO: Training Versatile Learned Optimizers by Scaling Up [67.90237498659397]
私たちは、ディープラーニングの成功の背後にある同じスケーリングアプローチを活用して、汎用性を学びます。
私たちは、パラメータの更新を取り込み出力する小さなニューラルネットワークであるディープラーニングのためのインジェクションをトレーニングします。
学習したメタトレーニングコード、関連するトレインテストデータ、およびvelo-code.ioのベースラインを備えた広範なベンチマークスイートをオープンソースとして公開しています。
論文 参考訳(メタデータ) (2022-11-17T18:39:07Z) - AdaNorm: Adaptive Gradient Norm Correction based Optimizer for CNNs [23.523389372182613]
勾配降下(SGD)は一般に畳み込みニューラルネットワーク(CNN)の訓練に使用される
既存のSGDは過去の反復の勾配基準を活用せず、収束と性能の低下につながる。
本稿では,AdaNormをベースとした新しいSGDを提案する。
論文 参考訳(メタデータ) (2022-10-12T16:17:25Z) - DEBOSH: Deep Bayesian Shape Optimization [48.80431740983095]
形状最適化に適した不確実性に基づく新しい手法を提案する。
効果的なBOを可能にし、その結果の形状の質を最先端のアプローチを超えて向上させる。
論文 参考訳(メタデータ) (2021-09-28T11:01:42Z) - Tom: Leveraging trend of the observed gradients for faster convergence [0.0]
TomはAdamの新しい変種であり、ニューラルネットワークによって渡される損失の風景の勾配の傾向を考慮に入れている。
Tomは両方の精度でAdagrad、Adadelta、RMSProp、Adamを上回り、より早く収束する。
論文 参考訳(メタデータ) (2021-09-07T20:19:40Z) - How Do Adam and Training Strategies Help BNNs Optimization? [50.22482900678071]
我々は、AdamがBNNの粗い損失面を扱うのに適しており、より高い一般化能力でより良い最適値に達することを示す。
我々は、既存のAdamベースの最適化に基づいて、ImageNetデータセット上で70.5%のトップ1の精度を達成する簡単なトレーニングスキームを導出する。
論文 参考訳(メタデータ) (2021-06-21T17:59:51Z) - A Bop and Beyond: A Second Order Optimizer for Binarized Neural Networks [0.0]
Binary Neural Networks (BNNs) の最適化は、実数値の重みをバイナライズ表現で近似することに依存している。
本稿では,第2の生モーメント推定を用いて第1の生モーメントを正規化し,しきい値との比較を行うアダム法と並行する手法を提案する。
提案した2つのバージョン – バイアス付きバージョンとバイアス修正バージョン – をそれぞれ独自のアプリケーションで提示する。
論文 参考訳(メタデータ) (2021-04-11T22:20:09Z) - Self-Directed Online Machine Learning for Topology Optimization [58.920693413667216]
自己指向型オンライン学習最適化は、ディープニューラルネットワーク(DNN)と有限要素法(FEM)計算を統合している。
本アルゴリズムは, コンプライアンスの最小化, 流体構造最適化, 伝熱促進, トラス最適化の4種類の問題によって検証された。
その結果, 直接使用法と比較して計算時間を2~5桁削減し, 実験で検証した全ての最先端アルゴリズムより優れていた。
論文 参考訳(メタデータ) (2020-02-04T20:00:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。