論文の概要: AdaPlus: Integrating Nesterov Momentum and Precise Stepsize Adjustment
on AdamW Basis
- arxiv url: http://arxiv.org/abs/2309.01966v2
- Date: Sun, 24 Dec 2023 11:54:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 21:53:29.461481
- Title: AdaPlus: Integrating Nesterov Momentum and Precise Stepsize Adjustment
on AdamW Basis
- Title(参考訳): AdaPlus:Nesterov Momentumの統合とAdamW Basisの高精度調整
- Authors: Lei Guan
- Abstract要約: AdaPlusはNesterov運動量とAdamWに基づく精密なステップサイズ調整を統合している。
AdaPlusは画像分類タスクの勢いで(少しでも)SGDに匹敵する性能を発揮する。
- 参考スコア(独自算出の注目度): 2.633003888041712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes an efficient optimizer called AdaPlus which integrates
Nesterov momentum and precise stepsize adjustment on AdamW basis. AdaPlus
combines the advantages of AdamW, Nadam, and AdaBelief and, in particular, does
not introduce any extra hyper-parameters. We perform extensive experimental
evaluations on three machine learning tasks to validate the effectiveness of
AdaPlus. The experiment results validate that AdaPlus (i) among all the
evaluated adaptive methods, performs most comparable with (even slightly better
than) SGD with momentum on image classification tasks and (ii) outperforms
other state-of-the-art optimizers on language modeling tasks and illustrates
pretty high stability when training GANs. The experiment code of AdaPlus will
be accessible at: https://github.com/guanleics/AdaPlus.
- Abstract(参考訳): 本稿では,Nesterov運動量とAdamWに基づく高精度なステップサイズ調整を組み合わせたAdaPlusという最適化手法を提案する。
AdaPlusはAdamW、Nadam、AdaBeliefの利点を組み合わせており、特に、追加のハイパーパラメータを導入していない。
adaplusの有効性を検証するために,3つの機械学習タスクについて広範な実験評価を行った。
実験結果は adaplusが
(i) 評価された適応手法のうち, 画像分類タスクに運動量を持つSGDに最も匹敵する(わずかに良い)。
(ii)言語モデリングタスクにおいて、他の最先端のオプティマイザよりも優れており、GANのトレーニング時に非常に高い安定性を示す。
AdaPlusの実験コードは、https://github.com/guanleics/AdaPlus.comで参照できる。
関連論文リスト
- SeWA: Selective Weight Average via Probabilistic Masking [51.015724517293236]
より良く、より高速な収束を達成するためには、ほんの数ポイントしか必要としないことを示す。
離散選択問題を連続的な部分集合最適化フレームワークに変換する。
両凸画像チェックポイントの値よりもシャープなSeWAの安定性境界を導出する。
論文 参考訳(メタデータ) (2025-02-14T12:35:21Z) - EXAdam: The Power of Adaptive Cross-Moments [0.0]
本稿では,広く使用されているAdamAdamアルゴリズムに基づく新しい最適化アルゴリズムであるEXAdamを紹介する。
EXAdamには、(1)モーメント推定を改善するための新しいデバイアス項、(2)勾配に基づく加速度機構、(3)動的ステップサイズ公式の3つの重要な拡張が含まれている。
EXAdamはAdamよりも優れており、48.07%の高速化と4.6%、4.13%、そして2.39%の改善を実現している。
論文 参考訳(メタデータ) (2024-12-29T00:11:54Z) - Towards Simple and Provable Parameter-Free Adaptive Gradient Methods [56.060918447252625]
本稿では,AdaGrad++とAdam++について述べる。
我々は,AdaGrad++がAdaGradに比較して,事前定義された学習率の仮定を伴わずに,凸最適化においてAdaGradと同等の収束率を達成したことを証明した。
論文 参考訳(メタデータ) (2024-12-27T04:22:02Z) - Deconstructing What Makes a Good Optimizer for Language Models [7.9224468703944115]
SGD,Adafactor,Adam,Lionなどの最適化アルゴリズムを自己回帰言語モデリングの文脈で比較する。
以上の結果から,SGDを除いて,これらのアルゴリズムは最適性能の両立が可能であることが示唆された。
論文 参考訳(メタデータ) (2024-07-10T18:11:40Z) - MADA: Meta-Adaptive Optimizers through hyper-gradient Descent [73.1383658672682]
メタ適応(MADA)は、複数の既知の収束を一般化し、トレーニング中に最も適した収束を動的に学習できる統合フレームワークである。
私たちは、MADAを視覚や言語タスクに関する他の人気と経験的に比較し、MADAがAdamや他の人気を一貫して上回っていることに気付きました。
AVGradは最大演算子を平均演算子に置き換えたもので、高次最適化に適している。
論文 参考訳(メタデータ) (2024-01-17T00:16:46Z) - Hydra: Multi-head Low-rank Adaptation for Parameter Efficient
Fine-tuning [6.715658563685112]
LoRAのような低ランク適応法は、パラメータ効率が優れており、追加の推論遅延がないため、大きな注目を集めている。
本稿では、並列および逐次適応分岐が微調整中に新しい特徴と一般的な特徴を学習する解析に基づいて、より一般的なアダプタモジュールについて検討する。
提案手法はHydraと呼ばれ,並列分岐とシーケンシャル分岐を組み合わせて,既存の単一分岐法よりも表現力が高い機能を統合する。
論文 参考訳(メタデータ) (2023-09-13T12:46:06Z) - Self-Correcting Bayesian Optimization through Bayesian Active Learning [46.235017111395344]
ハイパーパラメータ学習を明示的に優先する2つの獲得関数を提案する。
次に、SALを拡張してベイズ最適化とアクティブラーニングを同時に行う自己補正ベイズ最適化(SCoreBO)を導入する。
論文 参考訳(メタデータ) (2023-04-21T14:50:53Z) - Towards Learning Universal Hyperparameter Optimizers with Transformers [57.35920571605559]
我々は,テキストベースのトランスフォーマーHPOフレームワークであるOptFormerを紹介した。
実験の結果,OptFormerは少なくとも7種類のHPOアルゴリズムを模倣できることがわかった。
論文 参考訳(メタデータ) (2022-05-26T12:51:32Z) - Amortized Auto-Tuning: Cost-Efficient Transfer Optimization for
Hyperparameter Recommendation [83.85021205445662]
本稿では,機械学習モデルのチューニングを高速化する自動チューニング(AT2)を提案する。
マルチタスクマルチ忠実ベイズ最適化フレームワークの徹底的な解析を行い、最適なインスタンス化-アモータイズ自動チューニング(AT2)を実現する。
論文 参考訳(メタデータ) (2021-06-17T00:01:18Z) - ADAHESSIAN: An Adaptive Second Order Optimizer for Machine Learning [91.13797346047984]
本稿では,2次最適化アルゴリズムであるADAHESSIANを紹介する。
ADAHESSIANは、他の適応最適化手法と比較して、新しい最先端の成果を大きなマージンで達成することを示す。
論文 参考訳(メタデータ) (2020-06-01T05:00:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。