論文の概要: MADA: Meta-Adaptive Optimizers through hyper-gradient Descent
- arxiv url: http://arxiv.org/abs/2401.08893v2
- Date: Fri, 16 Feb 2024 02:40:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 19:35:44.871338
- Title: MADA: Meta-Adaptive Optimizers through hyper-gradient Descent
- Title(参考訳): MADA: 高度劣化によるメタ適応最適化
- Authors: Kaan Ozkara, Can Karakus, Parameswaran Raman, Mingyi Hong, Shoham
Sabach, Branislav Kveton, Volkan Cevher
- Abstract要約: メタ適応(MADA)は、複数の既知の知識を一般化し、トレーニング中に最も適した知識を動的に学習できる統合フレームワークである。
我々は、CNN、ResNet、GPT-2モデルをトレーニングするために、視覚および言語タスクに関する他の人気のあるGradsとMADAを比較した。
MADAは、他の人気のあるGradsがGPT-2トレーニングで行なっているAdamよりも3倍のバリデーションパフォーマンスが得られます。
- 参考スコア(独自算出の注目度): 76.80594193051837
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Since Adam was introduced, several novel adaptive optimizers for deep
learning have been proposed. These optimizers typically excel in some tasks but
may not outperform Adam uniformly across all tasks. In this work, we introduce
Meta-Adaptive Optimizers (MADA), a unified optimizer framework that can
generalize several known optimizers and dynamically learn the most suitable one
during training. The key idea in MADA is to parameterize the space of
optimizers and search through it using hyper-gradient descent. We compare MADA
to other popular optimizers empirically on vision and language tasks to train
CNN, ResNet and GPT-2 models. Results suggest that MADA is robust against
sub-optimally tuned hyper-parameters, and consistently outperforms Adam and
other popular optimizers. We find that MADA gives $3\times$ the validation
performance gain over Adam that other popular optimizers do on GPT-2 training.
We also propose AVGrad, a modification of AMSGrad that replaces the maximum
operator with averaging, that is suitable for hyper-gradient optimization
framework. Finally, we provide a convergence analysis to show that
interpolation of optimizers can improve their error bounds (up to constants),
hinting at an advantage for meta-optimizers.
- Abstract(参考訳): adamの導入以来、ディープラーニングのための新しい適応最適化器がいくつか提案されている。
これらのオプティマイザは一般的にいくつかのタスクで優れるが、すべてのタスクでAdamを均一に上回るものではない。
本稿では,複数の既知のオプティマイザを一般化し,トレーニング中に最も適したオプティマイザを動的に学習する,統一オプティマイザフレームワークであるメタ適応オプティマイザ(MADA)を紹介する。
MADAのキーとなるアイデアは、最適化の空間をパラメータ化して、過勾配の降下を使って探索することだ。
我々は、CNN、ResNet、GPT-2モデルをトレーニングするために、視覚と言語タスクを経験的に比較する。
結果は、MADAはサブ最適化されたハイパーパラメータに対して堅牢であり、Adamや他の人気のあるオプティマイザよりも一貫して優れていることを示唆している。
MADAは、他の人気のあるオプティマイザがGPT-2トレーニングで行なっているAdamよりも、バリデーションパフォーマンスが$3\times高いことが分かりました。
また,高次最適化フレームワークに適した最大演算子と平均演算子を置き換えた AMSGrad の修正 AVGrad を提案する。
最後に,最適化器の補間により誤差境界(定数まで)が向上し,メタ最適化器の利点を示唆する収束解析を行う。
関連論文リスト
- Pretrained Optimization Model for Zero-Shot Black Box Optimization [16.391389860521134]
多様なタスクの最適化から得られた知識を活用する事前学習最適化モデル(POM)を提案する。
POMは、直接アプリケーションや数発のサンプルによる微調整を通じて、ゼロショット最適化の効率的なソリューションを提供する。
少数のサンプルと予算を持つ微調整POMは、大幅な性能改善をもたらす。
論文 参考訳(メタデータ) (2024-05-06T09:11:49Z) - Should I try multiple optimizers when fine-tuning pre-trained
Transformers for NLP tasks? Should I tune their hyperparameters? [14.349943044268471]
SGD(Gradient Descent)は、トレーニングのためのニューラルネットワークの選択に使用される。
学習率だけをチューニングすることは、ほとんどの場合、すべてのハイパーパラメータをチューニングするのと同じくらい良いことです。
最適なアダプティブバウンド(例えばAdam)を選択して、その学習率を推奨します。
論文 参考訳(メタデータ) (2024-02-10T13:26:14Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - Bidirectional Looking with A Novel Double Exponential Moving Average to
Adaptive and Non-adaptive Momentum Optimizers [109.52244418498974]
我々は,新しいtextscAdmeta(textbfADouble指数textbfMov averagtextbfE textbfAdaptiveおよび非適応運動量)フレームワークを提案する。
我々は、textscAdmetaR と textscAdmetaS の2つの実装を提供し、前者は RAdam を、後者は SGDM をベースとしています。
論文 参考訳(メタデータ) (2023-07-02T18:16:06Z) - Judging Adam: Studying the Performance of Optimization Methods on ML4SE
Tasks [2.8961929092154697]
ソースコードの深層学習モデルを用いて各種の性能を検証した。
Anaheadの選択は、モデルの品質に大きな影響を与えます。
ML4SEコミュニティは、コード関連のディープラーニングタスクのデフォルトとして、Adamを使うべきだ、と提案する。
論文 参考訳(メタデータ) (2023-03-06T22:49:20Z) - VeLO: Training Versatile Learned Optimizers by Scaling Up [67.90237498659397]
私たちは、ディープラーニングの成功の背後にある同じスケーリングアプローチを活用して、汎用性を学びます。
私たちは、パラメータの更新を取り込み出力する小さなニューラルネットワークであるディープラーニングのためのインジェクションをトレーニングします。
学習したメタトレーニングコード、関連するトレインテストデータ、およびvelo-code.ioのベースラインを備えた広範なベンチマークスイートをオープンソースとして公開しています。
論文 参考訳(メタデータ) (2022-11-17T18:39:07Z) - Optimizer Amalgamation [124.33523126363728]
私たちは、Amalgamationという新しい問題の研究を動機付けています。"Teacher"アマルガメーションのプールを、より強力な問題固有のパフォーマンスを持つ単一の"学生"にどのように組み合わせるべきなのでしょうか?
まず、勾配降下による解析のプールをアマルガメートする3つの異なるメカニズムを定義する。
また, プロセスの分散を低減するため, 目標を摂動させることでプロセスの安定化を図る。
論文 参考訳(メタデータ) (2022-03-12T16:07:57Z) - Optimizing Large-Scale Hyperparameters via Automated Learning Algorithm [97.66038345864095]
ゼロ階超勾配(HOZOG)を用いた新しいハイパーパラメータ最適化法を提案する。
具体的には、A型制約最適化問題として、まずハイパーパラメータ最適化を定式化する。
次に、平均ゼロ階超勾配を用いてハイパーパラメータを更新する。
論文 参考訳(メタデータ) (2021-02-17T21:03:05Z) - Mixing ADAM and SGD: a Combined Optimization Method [0.9569316316728905]
我々はMAS (Mixing ADAM and SGD) と呼ばれる新しいタイプの最適化手法を提案する。
SGDやADAMを改善するのではなく、両方の利点を最大限に活用するのです。
我々は様々なCNNを用いて画像とテキスト文書の分類実験を行い、提案したMASが単一のSGDやADAMよりも優れた性能を示すことを示した。
論文 参考訳(メタデータ) (2020-11-16T15:48:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。