論文の概要: AdaPlus: Integrating Nesterov Momentum and Precise Stepsize Adjustment
on AdamW Basis
- arxiv url: http://arxiv.org/abs/2309.01966v2
- Date: Sun, 24 Dec 2023 11:54:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 21:53:29.461481
- Title: AdaPlus: Integrating Nesterov Momentum and Precise Stepsize Adjustment
on AdamW Basis
- Title(参考訳): AdaPlus:Nesterov Momentumの統合とAdamW Basisの高精度調整
- Authors: Lei Guan
- Abstract要約: AdaPlusはNesterov運動量とAdamWに基づく精密なステップサイズ調整を統合している。
AdaPlusは画像分類タスクの勢いで(少しでも)SGDに匹敵する性能を発揮する。
- 参考スコア(独自算出の注目度): 2.633003888041712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes an efficient optimizer called AdaPlus which integrates
Nesterov momentum and precise stepsize adjustment on AdamW basis. AdaPlus
combines the advantages of AdamW, Nadam, and AdaBelief and, in particular, does
not introduce any extra hyper-parameters. We perform extensive experimental
evaluations on three machine learning tasks to validate the effectiveness of
AdaPlus. The experiment results validate that AdaPlus (i) among all the
evaluated adaptive methods, performs most comparable with (even slightly better
than) SGD with momentum on image classification tasks and (ii) outperforms
other state-of-the-art optimizers on language modeling tasks and illustrates
pretty high stability when training GANs. The experiment code of AdaPlus will
be accessible at: https://github.com/guanleics/AdaPlus.
- Abstract(参考訳): 本稿では,Nesterov運動量とAdamWに基づく高精度なステップサイズ調整を組み合わせたAdaPlusという最適化手法を提案する。
AdaPlusはAdamW、Nadam、AdaBeliefの利点を組み合わせており、特に、追加のハイパーパラメータを導入していない。
adaplusの有効性を検証するために,3つの機械学習タスクについて広範な実験評価を行った。
実験結果は adaplusが
(i) 評価された適応手法のうち, 画像分類タスクに運動量を持つSGDに最も匹敵する(わずかに良い)。
(ii)言語モデリングタスクにおいて、他の最先端のオプティマイザよりも優れており、GANのトレーニング時に非常に高い安定性を示す。
AdaPlusの実験コードは、https://github.com/guanleics/AdaPlus.comで参照できる。
関連論文リスト
- Deconstructing What Makes a Good Optimizer for Language Models [7.9224468703944115]
SGD,Adafactor,Adam,Lionなどの最適化アルゴリズムを自己回帰言語モデリングの文脈で比較する。
以上の結果から,SGDを除いて,これらのアルゴリズムは最適性能の両立が可能であることが示唆された。
論文 参考訳(メタデータ) (2024-07-10T18:11:40Z) - MADA: Meta-Adaptive Optimizers through hyper-gradient Descent [73.1383658672682]
メタ適応(MADA)は、複数の既知の収束を一般化し、トレーニング中に最も適した収束を動的に学習できる統合フレームワークである。
私たちは、MADAを視覚や言語タスクに関する他の人気と経験的に比較し、MADAがAdamや他の人気を一貫して上回っていることに気付きました。
AVGradは最大演算子を平均演算子に置き換えたもので、高次最適化に適している。
論文 参考訳(メタデータ) (2024-01-17T00:16:46Z) - Hydra: Multi-head Low-rank Adaptation for Parameter Efficient
Fine-tuning [6.715658563685112]
LoRAのような低ランク適応法は、パラメータ効率が優れており、追加の推論遅延がないため、大きな注目を集めている。
本稿では、並列および逐次適応分岐が微調整中に新しい特徴と一般的な特徴を学習する解析に基づいて、より一般的なアダプタモジュールについて検討する。
提案手法はHydraと呼ばれ,並列分岐とシーケンシャル分岐を組み合わせて,既存の単一分岐法よりも表現力が高い機能を統合する。
論文 参考訳(メタデータ) (2023-09-13T12:46:06Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - Large-Batch, Iteration-Efficient Neural Bayesian Design Optimization [37.339567743948955]
本稿では,BOの限界に対処するための新しいベイズ最適化フレームワークを提案する。
我々の重要な貢献は、高度にスケーラブルでサンプルベースの取得機能であり、非支配的な目的のソートを実行する。
我々は,ベイズ型ニューラルネットワークサロゲートと組み合わせることで,最小限の反復数でデータ集約環境に有効であることを示す。
論文 参考訳(メタデータ) (2023-06-01T19:10:57Z) - Self-Correcting Bayesian Optimization through Bayesian Active Learning [46.235017111395344]
ハイパーパラメータ学習を明示的に優先する2つの獲得関数を提案する。
次に、SALを拡張してベイズ最適化とアクティブラーニングを同時に行う自己補正ベイズ最適化(SCoreBO)を導入する。
論文 参考訳(メタデータ) (2023-04-21T14:50:53Z) - Towards Learning Universal Hyperparameter Optimizers with Transformers [57.35920571605559]
我々は,テキストベースのトランスフォーマーHPOフレームワークであるOptFormerを紹介した。
実験の結果,OptFormerは少なくとも7種類のHPOアルゴリズムを模倣できることがわかった。
論文 参考訳(メタデータ) (2022-05-26T12:51:32Z) - Amortized Auto-Tuning: Cost-Efficient Transfer Optimization for
Hyperparameter Recommendation [83.85021205445662]
本稿では,機械学習モデルのチューニングを高速化する自動チューニング(AT2)を提案する。
マルチタスクマルチ忠実ベイズ最適化フレームワークの徹底的な解析を行い、最適なインスタンス化-アモータイズ自動チューニング(AT2)を実現する。
論文 参考訳(メタデータ) (2021-06-17T00:01:18Z) - AdamP: Slowing Down the Slowdown for Momentum Optimizers on
Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。
しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。
本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文 参考訳(メタデータ) (2020-06-15T08:35:15Z) - ADAHESSIAN: An Adaptive Second Order Optimizer for Machine Learning [91.13797346047984]
本稿では,2次最適化アルゴリズムであるADAHESSIANを紹介する。
ADAHESSIANは、他の適応最適化手法と比較して、新しい最先端の成果を大きなマージンで達成することを示す。
論文 参考訳(メタデータ) (2020-06-01T05:00:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。