Fugu-MT 論文翻訳(概要): AdaPlus: Integrating Nesterov Momentum and Precise Stepsize Adjustment on AdamW Basis

論文の概要: AdaPlus: Integrating Nesterov Momentum and Precise Stepsize Adjustment on AdamW Basis

arxiv url: http://arxiv.org/abs/2309.01966v2
Date: Sun, 24 Dec 2023 11:54:08 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-27 21:53:29.461481
Title: AdaPlus: Integrating Nesterov Momentum and Precise Stepsize Adjustment on AdamW Basis
Title（参考訳）: AdaPlus:Nesterov Momentumの統合とAdamW Basisの高精度調整
Authors: Lei Guan
Abstract要約: AdaPlusはNesterov運動量とAdamWに基づく精密なステップサイズ調整を統合している。 AdaPlusは画像分類タスクの勢いで(少しでも)SGDに匹敵する性能を発揮する。
参考スコア（独自算出の注目度）: 2.633003888041712
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper proposes an efficient optimizer called AdaPlus which integrates Nesterov momentum and precise stepsize adjustment on AdamW basis. AdaPlus combines the advantages of AdamW, Nadam, and AdaBelief and, in particular, does not introduce any extra hyper-parameters. We perform extensive experimental evaluations on three machine learning tasks to validate the effectiveness of AdaPlus. The experiment results validate that AdaPlus (i) among all the evaluated adaptive methods, performs most comparable with (even slightly better than) SGD with momentum on image classification tasks and (ii) outperforms other state-of-the-art optimizers on language modeling tasks and illustrates pretty high stability when training GANs. The experiment code of AdaPlus will be accessible at: https://github.com/guanleics/AdaPlus.
Abstract（参考訳）: 本稿では,Nesterov運動量とAdamWに基づく高精度なステップサイズ調整を組み合わせたAdaPlusという最適化手法を提案する。 AdaPlusはAdamW、Nadam、AdaBeliefの利点を組み合わせており、特に、追加のハイパーパラメータを導入していない。 adaplusの有効性を検証するために,3つの機械学習タスクについて広範な実験評価を行った。実験結果は adaplusが (i) 評価された適応手法のうち, 画像分類タスクに運動量を持つSGDに最も匹敵する(わずかに良い)。 (ii)言語モデリングタスクにおいて、他の最先端のオプティマイザよりも優れており、GANのトレーニング時に非常に高い安定性を示す。 AdaPlusの実験コードは、https://github.com/guanleics/AdaPlus.comで参照できる。

関連論文リスト

ZetA: A Riemann Zeta-Scaled Extension of Adam for Deep Learning [0.0]
ZetAは、ゼータ関数に基づいた動的スケーリングを組み込むことでAdamを拡張する新しいディープラーニングシステムである。我々は,ZetAがAdamの雑音や高粒度分類タスクにおいて,計算効率が高く,頑健な代替手段であることを示す。
論文参考訳（メタデータ） (2025-08-01T02:53:29Z)
Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection [71.92083784393418]
Best-of-N (BON) サンプリングのような推論時間法は、パフォーマンスを改善するための単純で効果的な代替手段を提供する。本稿では,反復的改良と動的候補評価,検証器による選択を併用した反復的エージェント復号(IAD)を提案する。
論文参考訳（メタデータ） (2025-04-02T17:40:47Z)
SeWA: Selective Weight Average via Probabilistic Masking [51.015724517293236]
より良く、より高速な収束を達成するためには、ほんの数ポイントしか必要としないことを示す。離散選択問題を連続的な部分集合最適化フレームワークに変換する。両凸画像チェックポイントの値よりもシャープなSeWAの安定性境界を導出する。
論文参考訳（メタデータ） (2025-02-14T12:35:21Z)
EXAdam: The Power of Adaptive Cross-Moments [0.0]
本稿では,広く使用されているAdamAdamアルゴリズムに基づく新しい最適化アルゴリズムであるEXAdamを紹介する。 EXAdamには、(1)モーメント推定を改善するための新しいデバイアス項、(2)勾配に基づく加速度機構、(3)動的ステップサイズ公式の3つの重要な拡張が含まれている。 EXAdamはAdamよりも優れており、48.07%の高速化と4.6%、4.13%、そして2.39%の改善を実現している。
論文参考訳（メタデータ） (2024-12-29T00:11:54Z)
Towards Simple and Provable Parameter-Free Adaptive Gradient Methods [56.060918447252625]
本稿では,AdaGrad++とAdam++について述べる。我々は,AdaGrad++がAdaGradに比較して,事前定義された学習率の仮定を伴わずに,凸最適化においてAdaGradと同等の収束率を達成したことを証明した。
論文参考訳（メタデータ） (2024-12-27T04:22:02Z)
Deconstructing What Makes a Good Optimizer for Language Models [7.9224468703944115]
SGD,Adafactor,Adam,Lionなどの最適化アルゴリズムを自己回帰言語モデリングの文脈で比較する。以上の結果から,SGDを除いて,これらのアルゴリズムは最適性能の両立が可能であることが示唆された。
論文参考訳（メタデータ） (2024-07-10T18:11:40Z)
MADA: Meta-Adaptive Optimizers through hyper-gradient Descent [73.1383658672682]
メタ適応(MADA)は、複数の既知の収束を一般化し、トレーニング中に最も適した収束を動的に学習できる統合フレームワークである。私たちは、MADAを視覚や言語タスクに関する他の人気と経験的に比較し、MADAがAdamや他の人気を一貫して上回っていることに気付きました。 AVGradは最大演算子を平均演算子に置き換えたもので、高次最適化に適している。
論文参考訳（メタデータ） (2024-01-17T00:16:46Z)
Hydra: Multi-head Low-rank Adaptation for Parameter Efficient Fine-tuning [6.715658563685112]
LoRAのような低ランク適応法は、パラメータ効率が優れており、追加の推論遅延がないため、大きな注目を集めている。本稿では、並列および逐次適応分岐が微調整中に新しい特徴と一般的な特徴を学習する解析に基づいて、より一般的なアダプタモジュールについて検討する。提案手法はHydraと呼ばれ,並列分岐とシーケンシャル分岐を組み合わせて,既存の単一分岐法よりも表現力が高い機能を統合する。
論文参考訳（メタデータ） (2023-09-13T12:46:06Z)
E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文参考訳（メタデータ） (2023-07-25T19:03:21Z)
Large-Batch, Iteration-Efficient Neural Bayesian Design Optimization [37.339567743948955]
本稿では,BOの限界に対処するための新しいベイズ最適化フレームワークを提案する。我々の重要な貢献は、高度にスケーラブルでサンプルベースの取得機能であり、非支配的な目的のソートを実行する。我々は,ベイズ型ニューラルネットワークサロゲートと組み合わせることで,最小限の反復数でデータ集約環境に有効であることを示す。
論文参考訳（メタデータ） (2023-06-01T19:10:57Z)
Self-Correcting Bayesian Optimization through Bayesian Active Learning [46.235017111395344]
ハイパーパラメータ学習を明示的に優先する2つの獲得関数を提案する。次に、SALを拡張してベイズ最適化とアクティブラーニングを同時に行う自己補正ベイズ最適化(SCoreBO)を導入する。
論文参考訳（メタデータ） (2023-04-21T14:50:53Z)
Towards Learning Universal Hyperparameter Optimizers with Transformers [57.35920571605559]
我々は,テキストベースのトランスフォーマーHPOフレームワークであるOptFormerを紹介した。実験の結果,OptFormerは少なくとも7種類のHPOアルゴリズムを模倣できることがわかった。
論文参考訳（メタデータ） (2022-05-26T12:51:32Z)
Amortized Auto-Tuning: Cost-Efficient Transfer Optimization for Hyperparameter Recommendation [83.85021205445662]
本稿では,機械学習モデルのチューニングを高速化する自動チューニング(AT2)を提案する。マルチタスクマルチ忠実ベイズ最適化フレームワークの徹底的な解析を行い、最適なインスタンス化-アモータイズ自動チューニング(AT2)を実現する。
論文参考訳（メタデータ） (2021-06-17T00:01:18Z)
AdamP: Slowing Down the Slowdown for Momentum Optimizers on Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文参考訳（メタデータ） (2020-06-15T08:35:15Z)
ADAHESSIAN: An Adaptive Second Order Optimizer for Machine Learning [91.13797346047984]
本稿では,2次最適化アルゴリズムであるADAHESSIANを紹介する。 ADAHESSIANは、他の適応最適化手法と比較して、新しい最先端の成果を大きなマージンで達成することを示す。
論文参考訳（メタデータ） (2020-06-01T05:00:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。