論文の概要: MADA: Meta-Adaptive Optimizers through hyper-gradient Descent
- arxiv url: http://arxiv.org/abs/2401.08893v3
- Date: Mon, 17 Jun 2024 12:52:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 06:54:55.219964
- Title: MADA: Meta-Adaptive Optimizers through hyper-gradient Descent
- Title(参考訳): MADA: 高度劣化によるメタ適応最適化
- Authors: Kaan Ozkara, Can Karakus, Parameswaran Raman, Mingyi Hong, Shoham Sabach, Branislav Kveton, Volkan Cevher,
- Abstract要約: メタ適応(MADA)は、複数の既知の収束を一般化し、トレーニング中に最も適した収束を動的に学習できる統合フレームワークである。
私たちは、MADAを視覚や言語タスクに関する他の人気と経験的に比較し、MADAがAdamや他の人気を一貫して上回っていることに気付きました。
AVGradは最大演算子を平均演算子に置き換えたもので、高次最適化に適している。
- 参考スコア(独自算出の注目度): 73.1383658672682
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Following the introduction of Adam, several novel adaptive optimizers for deep learning have been proposed. These optimizers typically excel in some tasks but may not outperform Adam uniformly across all tasks. In this work, we introduce Meta-Adaptive Optimizers (MADA), a unified optimizer framework that can generalize several known optimizers and dynamically learn the most suitable one during training. The key idea in MADA is to parameterize the space of optimizers and dynamically search through it using hyper-gradient descent during training. We empirically compare MADA to other popular optimizers on vision and language tasks, and find that MADA consistently outperforms Adam and other popular optimizers, and is robust against sub-optimally tuned hyper-parameters. MADA achieves a greater validation performance improvement over Adam compared to other popular optimizers during GPT-2 training and fine-tuning. We also propose AVGrad, a modification of AMSGrad that replaces the maximum operator with averaging, which is more suitable for hyper-gradient optimization. Finally, we provide a convergence analysis to show that parameterized interpolations of optimizers can improve their error bounds (up to constants), hinting at an advantage for meta-optimizers.
- Abstract(参考訳): Adamの導入に続いて、ディープラーニングのための新しい適応最適化器が提案されている。
これらのオプティマイザは一般的にいくつかのタスクで優れるが、すべてのタスクでAdamを均一に上回るものではない。
本稿では,複数の既知のオプティマイザを一般化し,トレーニング中に最も適したオプティマイザを動的に学習する,統一オプティマイザフレームワークであるメタ適応オプティマイザ(MADA)を紹介する。
MADAのキーとなるアイデアは、オプティマイザの空間をパラメータ化して、トレーニング中に過度な降下を使って動的に探索することだ。
我々は、MADAを視覚や言語タスクにおける他の人気のあるオプティマイザと経験的に比較し、MADAがAdamや他の人気のあるオプティマイザより一貫して優れており、サブ最適化されたハイパーパラメータに対して堅牢であることを確認した。
MADAは、GPT-2トレーニングや微調整において、他の一般的なオプティマイザと比較して、Adamよりも高い検証性能向上を実現している。
AVGradも提案する。AMSGradは最大演算子を平均演算子に置き換えたもので、高次最適化に適している。
最後に、最適化器のパラメータ化補間が誤差境界(定数まで)を改善できることを示し、メタ最適化器の利点を示唆する収束解析を提供する。
関連論文リスト
- Should I try multiple optimizers when fine-tuning pre-trained
Transformers for NLP tasks? Should I tune their hyperparameters? [14.349943044268471]
SGD(Gradient Descent)は、トレーニングのためのニューラルネットワークの選択に使用される。
学習率だけをチューニングすることは、ほとんどの場合、すべてのハイパーパラメータをチューニングするのと同じくらい良いことです。
最適なアダプティブバウンド(例えばAdam)を選択して、その学習率を推奨します。
論文 参考訳(メタデータ) (2024-02-10T13:26:14Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - CoRe Optimizer: An All-in-One Solution for Machine Learning [0.0]
連続レジリエント収束(CoRe)は、他の最先端の1次勾配に基づく収束アルゴリズムと比較して優れた性能を示した。
CoReは、調査されたすべてのアプリケーションにおいて、最高の、または競争的なパフォーマンスを得る。
論文 参考訳(メタデータ) (2023-07-28T16:48:42Z) - Bidirectional Looking with A Novel Double Exponential Moving Average to
Adaptive and Non-adaptive Momentum Optimizers [109.52244418498974]
我々は,新しいtextscAdmeta(textbfADouble指数textbfMov averagtextbfE textbfAdaptiveおよび非適応運動量)フレームワークを提案する。
我々は、textscAdmetaR と textscAdmetaS の2つの実装を提供し、前者は RAdam を、後者は SGDM をベースとしています。
論文 参考訳(メタデータ) (2023-07-02T18:16:06Z) - Judging Adam: Studying the Performance of Optimization Methods on ML4SE
Tasks [2.8961929092154697]
ソースコードの深層学習モデルを用いて各種の性能を検証した。
Anaheadの選択は、モデルの品質に大きな影響を与えます。
ML4SEコミュニティは、コード関連のディープラーニングタスクのデフォルトとして、Adamを使うべきだ、と提案する。
論文 参考訳(メタデータ) (2023-03-06T22:49:20Z) - VeLO: Training Versatile Learned Optimizers by Scaling Up [67.90237498659397]
私たちは、ディープラーニングの成功の背後にある同じスケーリングアプローチを活用して、汎用性を学びます。
私たちは、パラメータの更新を取り込み出力する小さなニューラルネットワークであるディープラーニングのためのインジェクションをトレーニングします。
学習したメタトレーニングコード、関連するトレインテストデータ、およびvelo-code.ioのベースラインを備えた広範なベンチマークスイートをオープンソースとして公開しています。
論文 参考訳(メタデータ) (2022-11-17T18:39:07Z) - Optimizer Amalgamation [124.33523126363728]
私たちは、Amalgamationという新しい問題の研究を動機付けています。"Teacher"アマルガメーションのプールを、より強力な問題固有のパフォーマンスを持つ単一の"学生"にどのように組み合わせるべきなのでしょうか?
まず、勾配降下による解析のプールをアマルガメートする3つの異なるメカニズムを定義する。
また, プロセスの分散を低減するため, 目標を摂動させることでプロセスの安定化を図る。
論文 参考訳(メタデータ) (2022-03-12T16:07:57Z) - Optimizing Large-Scale Hyperparameters via Automated Learning Algorithm [97.66038345864095]
ゼロ階超勾配(HOZOG)を用いた新しいハイパーパラメータ最適化法を提案する。
具体的には、A型制約最適化問題として、まずハイパーパラメータ最適化を定式化する。
次に、平均ゼロ階超勾配を用いてハイパーパラメータを更新する。
論文 参考訳(メタデータ) (2021-02-17T21:03:05Z) - Mixing ADAM and SGD: a Combined Optimization Method [0.9569316316728905]
我々はMAS (Mixing ADAM and SGD) と呼ばれる新しいタイプの最適化手法を提案する。
SGDやADAMを改善するのではなく、両方の利点を最大限に活用するのです。
我々は様々なCNNを用いて画像とテキスト文書の分類実験を行い、提案したMASが単一のSGDやADAMよりも優れた性能を示すことを示した。
論文 参考訳(メタデータ) (2020-11-16T15:48:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。