論文の概要: Weight Prediction Boosts the Convergence of AdamW
- arxiv url: http://arxiv.org/abs/2302.00195v1
- Date: Wed, 1 Feb 2023 02:58:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-02 18:00:49.597836
- Title: Weight Prediction Boosts the Convergence of AdamW
- Title(参考訳): 重量予測はAdamWの収束を高める
- Authors: Lei Guan
- Abstract要約: 我々は、ディープニューラルネットワーク(DNN)モデルをトレーニングする際の収束を高めるために、AdamWに重み予測を導入する。
特に、各ミニバッチトレーニングの前に、AdamWの更新ルールに従って将来の重量を予測し、予測された将来の重量を適用します。
- 参考スコア(独自算出の注目度): 3.7485728774744556
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce weight prediction into the AdamW optimizer to
boost its convergence when training the deep neural network (DNN) models. In
particular, ahead of each mini-batch training, we predict the future weights
according to the update rule of AdamW and then apply the predicted future
weights to do both forward pass and backward propagation. In this way, the
AdamW optimizer always utilizes the gradients w.r.t. the future weights instead
of current weights to update the DNN parameters, making the AdamW optimizer
achieve better convergence. Our proposal is simple and straightforward to
implement but effective in boosting the convergence of DNN training. We
performed extensive experimental evaluations on image classification and
language modeling tasks to verify the effectiveness of our proposal. The
experimental results validate that our proposal can boost the convergence of
AdamW and achieve better accuracy than AdamW when training the DNN models.
- Abstract(参考訳): 本稿では、ディープニューラルネットワーク(DNN)モデルをトレーニングする際の収束を高めるために、AdamWオプティマイザに重み予測を導入する。
特に、各ミニバッチトレーニングの前に、AdamWの更新ルールに従って将来の重量を予測し、予測された将来の重量を前方通過と後方伝播の両方に応用する。
このように、AdamWオプティマイザは、常に現在の重みではなく将来の重みの勾配を利用してDNNパラメータを更新し、AdamWオプティマイザはより良い収束を達成する。
提案手法は単純で実装が容易だが, DNN トレーニングの収束性向上に有効である。
提案手法の有効性を検証するため,画像分類と言語モデリングタスクについて広範な実験を行った。
実験の結果,提案手法はDNNモデルのトレーニングにおいて,AdamWの収束を向上し,AdamWよりも精度がよいことがわかった。
関連論文リスト
- MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.47014540413659]
Adam、Adam、およびそれらの変種のような大規模な勾配アルゴリズムは、この種のトレーニングの開発の中心となっている。
本稿では,事前条件付き勾配最適化手法と,スケールドモーメント手法による分散低減を両立させる枠組みを提案する。
論文 参考訳(メタデータ) (2024-11-15T18:57:39Z) - Variational Learning is Effective for Large Deep Networks [76.94351631300788]
改良された変分オンラインニュートンは、大規模ネットワークのトレーニングにおいて、Adamと一貫して一致し、より優れていることを示す。
IVONの計算コストはAdamとほぼ同じであるが、予測の不確実性の方が優れている。
変分学習が効果的であるという圧倒的な証拠を見出す。
論文 参考訳(メタデータ) (2024-02-27T16:11:05Z) - Switch EMA: A Free Lunch for Better Flatness and Sharpness [58.55452862747021]
この研究は、一行の修正、すなわち、スイッチ(SEMA)と呼ばれる各エポック後のパラメータを元のモデルに切り替えることによって、EMAの完全なポテンシャルを明らかにする。
理論的および経験的両面から、SEMAはDNNが平坦性と鋭さのトレードオフを良くする一般化最適点に到達するのに役立つことを実証する。
論文 参考訳(メタデータ) (2024-02-14T15:28:42Z) - XGrad: Boosting Gradient-Based Optimizers With Weight Prediction [20.068681423455057]
本稿では,総合的なディープラーニング学習フレームワークXGradを提案する。
XGradは、一般的な勾配に基づくDNNに重み予測を導入し、収束と一般化を促進する。
実験により,XGradはモデルトレーニング時のベースラインよりも高いモデル精度が得られることを確認した。
論文 参考訳(メタデータ) (2023-05-26T10:34:00Z) - Boosted Dynamic Neural Networks [53.559833501288146]
典型的なEDNNは、ネットワークバックボーンの異なる層に複数の予測ヘッドを持つ。
モデルを最適化するために、これらの予測ヘッドとネットワークバックボーンは、トレーニングデータのバッチ毎にトレーニングされる。
トレーニングと2つのフェーズでのインプットの異なるテストは、トレーニングとデータ分散のテストのミスマッチを引き起こす。
EDNNを勾配強化にインスパイアされた付加モデルとして定式化し、モデルを効果的に最適化するための複数のトレーニング手法を提案する。
論文 参考訳(メタデータ) (2022-11-30T04:23:12Z) - Amos: An Adam-style Optimizer with Adaptive Weight Decay towards
Model-Oriented Scale [16.97880876259831]
Amosは、ディープニューラルネットワークをトレーニングするための勾配ベースのシステムである。
理論的に支持され、適応的な学習速度の減衰と重みの崩壊を持つアダムと見なすことができる。
論文 参考訳(メタデータ) (2022-10-21T02:37:58Z) - How Do Adam and Training Strategies Help BNNs Optimization? [50.22482900678071]
我々は、AdamがBNNの粗い損失面を扱うのに適しており、より高い一般化能力でより良い最適値に達することを示す。
我々は、既存のAdamベースの最適化に基づいて、ImageNetデータセット上で70.5%のトップ1の精度を達成する簡単なトレーニングスキームを導出する。
論文 参考訳(メタデータ) (2021-06-21T17:59:51Z) - Deep Time Delay Neural Network for Speech Enhancement with Full Data
Learning [60.20150317299749]
本稿では,全データ学習による音声強調のためのディープタイム遅延ニューラルネットワーク(TDNN)を提案する。
トレーニングデータを完全に活用するために,音声強調のための完全なデータ学習手法を提案する。
論文 参考訳(メタデータ) (2020-11-11T06:32:37Z) - Train-by-Reconnect: Decoupling Locations of Weights from their Values [6.09170287691728]
トレーニングされていないディープニューラルネットワーク(DNN)は、トレーニングされたニューラルネットワークとは異なることを示す。
重みをリコネクションすることでDNNをトレーニングするためのLookahead Permutation(LaPerm)という新しい手法を提案する。
初期重みが1つの値を共有すると、我々の手法はより精度のよい重み付きニューラルネットワークを見つける。
論文 参考訳(メタデータ) (2020-03-05T12:40:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。