論文の概要: MADA: Meta-Adaptive Optimizers through hyper-gradient Descent
- arxiv url: http://arxiv.org/abs/2401.08893v1
- Date: Wed, 17 Jan 2024 00:16:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 17:24:36.793101
- Title: MADA: Meta-Adaptive Optimizers through hyper-gradient Descent
- Title(参考訳): MADA: 高度劣化によるメタ適応最適化
- Authors: Kaan Ozkara, Can Karakus, Parameswaran Raman, Mingyi Hong, Shoham
Sabach, Branislav Kveton, Volkan Cevher
- Abstract要約: メタ適応(MADA: Meta-Adaptives)は,複数の既知の知識を一般化する統合フレームワークである。
MADAは、デフォルトのハイパーパラメータでAdam、Lion、Adanより優れています。
また, AMSGrad の変種である AVGrad を提案する。
- 参考スコア(独自算出の注目度): 76.80594193051837
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Since Adam was introduced, several novel adaptive optimizers for deep
learning have been proposed. These optimizers typically excel in some tasks but
may not outperform Adam uniformly across all tasks. In this work, we introduce
Meta-Adaptive Optimizers (MADA), a unified optimizer framework that can
generalize several known optimizers and dynamically learn the most suitable one
during training. The key idea in MADA is to parameterize the space of
optimizers and search through it using hyper-gradient descent. Numerical
results suggest that MADA is robust against sub-optimally tuned
hyper-parameters, and outperforms Adam, Lion, and Adan with their default
hyper-parameters, often even with optimized hyper-parameters. We also propose
AVGrad, a variant of AMSGrad where the maximum operator is replaced with
averaging, and observe that it performs better within MADA. Finally, we provide
a convergence analysis to show that interpolation of optimizers (specifically,
AVGrad and Adam) can improve their error bounds (up to constants), hinting at
an advantage for meta-optimizers.
- Abstract(参考訳): adamの導入以来、ディープラーニングのための新しい適応最適化器がいくつか提案されている。
これらのオプティマイザは一般的にいくつかのタスクで優れるが、すべてのタスクでAdamを均一に上回るものではない。
本稿では,複数の既知のオプティマイザを一般化し,トレーニング中に最も適したオプティマイザを動的に学習する,統一オプティマイザフレームワークであるメタ適応オプティマイザ(MADA)を紹介する。
MADAのキーとなるアイデアは、最適化の空間をパラメータ化して、過勾配の降下を使って探索することだ。
MADAは最適化されたハイパーパラメータに対して頑健であり、最適化されたハイパーパラメータでさえもデフォルトのハイパーパラメータではAdam、Lion、Adanを上回っている。
また,最大演算子を平均演算子に置き換えた AMSGrad の変種である AVGrad を提案し,MADA での性能が向上することを確認した。
最後に、最適化器(具体的にはAVGradとAdam)の補間が誤差境界(定数まで)を改善できることを示す収束解析を行い、メタ最適化の利点を示唆する。
関連論文リスト
- Should I try multiple optimizers when fine-tuning pre-trained
Transformers for NLP tasks? Should I tune their hyperparameters? [14.349943044268471]
SGD(Gradient Descent)は、トレーニングのためのニューラルネットワークの選択に使用される。
学習率だけをチューニングすることは、ほとんどの場合、すべてのハイパーパラメータをチューニングするのと同じくらい良いことです。
最適なアダプティブバウンド(例えばAdam)を選択して、その学習率を推奨します。
論文 参考訳(メタデータ) (2024-02-10T13:26:14Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - CoRe Optimizer: An All-in-One Solution for Machine Learning [0.0]
連続レジリエント収束(CoRe)は、他の最先端の1次勾配に基づく収束アルゴリズムと比較して優れた性能を示した。
CoReは、調査されたすべてのアプリケーションにおいて、最高の、または競争的なパフォーマンスを得る。
論文 参考訳(メタデータ) (2023-07-28T16:48:42Z) - Bidirectional Looking with A Novel Double Exponential Moving Average to
Adaptive and Non-adaptive Momentum Optimizers [109.52244418498974]
我々は,新しいtextscAdmeta(textbfADouble指数textbfMov averagtextbfE textbfAdaptiveおよび非適応運動量)フレームワークを提案する。
我々は、textscAdmetaR と textscAdmetaS の2つの実装を提供し、前者は RAdam を、後者は SGDM をベースとしています。
論文 参考訳(メタデータ) (2023-07-02T18:16:06Z) - Judging Adam: Studying the Performance of Optimization Methods on ML4SE
Tasks [2.8961929092154697]
ソースコードの深層学習モデルを用いて各種の性能を検証した。
Anaheadの選択は、モデルの品質に大きな影響を与えます。
ML4SEコミュニティは、コード関連のディープラーニングタスクのデフォルトとして、Adamを使うべきだ、と提案する。
論文 参考訳(メタデータ) (2023-03-06T22:49:20Z) - VeLO: Training Versatile Learned Optimizers by Scaling Up [67.90237498659397]
私たちは、ディープラーニングの成功の背後にある同じスケーリングアプローチを活用して、汎用性を学びます。
私たちは、パラメータの更新を取り込み出力する小さなニューラルネットワークであるディープラーニングのためのインジェクションをトレーニングします。
学習したメタトレーニングコード、関連するトレインテストデータ、およびvelo-code.ioのベースラインを備えた広範なベンチマークスイートをオープンソースとして公開しています。
論文 参考訳(メタデータ) (2022-11-17T18:39:07Z) - Optimizer Amalgamation [124.33523126363728]
私たちは、Amalgamationという新しい問題の研究を動機付けています。"Teacher"アマルガメーションのプールを、より強力な問題固有のパフォーマンスを持つ単一の"学生"にどのように組み合わせるべきなのでしょうか?
まず、勾配降下による解析のプールをアマルガメートする3つの異なるメカニズムを定義する。
また, プロセスの分散を低減するため, 目標を摂動させることでプロセスの安定化を図る。
論文 参考訳(メタデータ) (2022-03-12T16:07:57Z) - Optimizing Large-Scale Hyperparameters via Automated Learning Algorithm [97.66038345864095]
ゼロ階超勾配(HOZOG)を用いた新しいハイパーパラメータ最適化法を提案する。
具体的には、A型制約最適化問題として、まずハイパーパラメータ最適化を定式化する。
次に、平均ゼロ階超勾配を用いてハイパーパラメータを更新する。
論文 参考訳(メタデータ) (2021-02-17T21:03:05Z) - Mixing ADAM and SGD: a Combined Optimization Method [0.9569316316728905]
我々はMAS (Mixing ADAM and SGD) と呼ばれる新しいタイプの最適化手法を提案する。
SGDやADAMを改善するのではなく、両方の利点を最大限に活用するのです。
我々は様々なCNNを用いて画像とテキスト文書の分類実験を行い、提案したMASが単一のSGDやADAMよりも優れた性能を示すことを示した。
論文 参考訳(メタデータ) (2020-11-16T15:48:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。