Fugu-MT 論文翻訳(概要): MADA: Meta-Adaptive Optimizers through hyper-gradient Descent

論文の概要: MADA: Meta-Adaptive Optimizers through hyper-gradient Descent

arxiv url: http://arxiv.org/abs/2401.08893v2
Date: Fri, 16 Feb 2024 02:40:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-19 19:35:44.871338
Title: MADA: Meta-Adaptive Optimizers through hyper-gradient Descent
Title（参考訳）: MADA: 高度劣化によるメタ適応最適化
Authors: Kaan Ozkara, Can Karakus, Parameswaran Raman, Mingyi Hong, Shoham Sabach, Branislav Kveton, Volkan Cevher
Abstract要約: メタ適応(MADA)は、複数の既知の知識を一般化し、トレーニング中に最も適した知識を動的に学習できる統合フレームワークである。我々は、CNN、ResNet、GPT-2モデルをトレーニングするために、視覚および言語タスクに関する他の人気のあるGradsとMADAを比較した。 MADAは、他の人気のあるGradsがGPT-2トレーニングで行なっているAdamよりも3倍のバリデーションパフォーマンスが得られます。
参考スコア（独自算出の注目度）: 76.80594193051837
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Since Adam was introduced, several novel adaptive optimizers for deep learning have been proposed. These optimizers typically excel in some tasks but may not outperform Adam uniformly across all tasks. In this work, we introduce Meta-Adaptive Optimizers (MADA), a unified optimizer framework that can generalize several known optimizers and dynamically learn the most suitable one during training. The key idea in MADA is to parameterize the space of optimizers and search through it using hyper-gradient descent. We compare MADA to other popular optimizers empirically on vision and language tasks to train CNN, ResNet and GPT-2 models. Results suggest that MADA is robust against sub-optimally tuned hyper-parameters, and consistently outperforms Adam and other popular optimizers. We find that MADA gives $3\times$ the validation performance gain over Adam that other popular optimizers do on GPT-2 training. We also propose AVGrad, a modification of AMSGrad that replaces the maximum operator with averaging, that is suitable for hyper-gradient optimization framework. Finally, we provide a convergence analysis to show that interpolation of optimizers can improve their error bounds (up to constants), hinting at an advantage for meta-optimizers.
Abstract（参考訳）: adamの導入以来、ディープラーニングのための新しい適応最適化器がいくつか提案されている。これらのオプティマイザは一般的にいくつかのタスクで優れるが、すべてのタスクでAdamを均一に上回るものではない。本稿では,複数の既知のオプティマイザを一般化し,トレーニング中に最も適したオプティマイザを動的に学習する,統一オプティマイザフレームワークであるメタ適応オプティマイザ(MADA)を紹介する。 MADAのキーとなるアイデアは、最適化の空間をパラメータ化して、過勾配の降下を使って探索することだ。我々は、CNN、ResNet、GPT-2モデルをトレーニングするために、視覚と言語タスクを経験的に比較する。結果は、MADAはサブ最適化されたハイパーパラメータに対して堅牢であり、Adamや他の人気のあるオプティマイザよりも一貫して優れていることを示唆している。 MADAは、他の人気のあるオプティマイザがGPT-2トレーニングで行なっているAdamよりも、バリデーションパフォーマンスが$3\times高いことが分かりました。また,高次最適化フレームワークに適した最大演算子と平均演算子を置き換えた AMSGrad の修正 AVGrad を提案する。最後に,最適化器の補間により誤差境界(定数まで)が向上し,メタ最適化器の利点を示唆する収束解析を行う。

関連論文リスト

PADAM: Parallel averaged Adam reduces the error for stochastic optimization in scientific machine learning [5.052293146674794]
Ruppert-Polyak平均化や指数移動平均化(EMA)といった平均化技術は、一般的なADAMのような勾配降下(SGD)最適化手法の最適化を高速化するための強力なアプローチである。本研究では,並列平均化ADAM(PADAM)と呼ばれる並列平均化手法を提案する。この手法では,ADAMの並列平均化変動を計算し,トレーニングプロセス中に最小の最適化誤差で勾配を動的に選択する。
論文参考訳（メタデータ） (2025-05-28T08:07:34Z)
Pretrained Optimization Model for Zero-Shot Black Box Optimization [16.391389860521134]
多様なタスクの最適化から得られた知識を活用する事前学習最適化モデル(POM)を提案する。 POMは、直接アプリケーションや数発のサンプルによる微調整を通じて、ゼロショット最適化の効率的なソリューションを提供する。少数のサンプルと予算を持つ微調整POMは、大幅な性能改善をもたらす。
論文参考訳（メタデータ） (2024-05-06T09:11:49Z)
Should I try multiple optimizers when fine-tuning pre-trained Transformers for NLP tasks? Should I tune their hyperparameters? [14.349943044268471]
SGD(Gradient Descent)は、トレーニングのためのニューラルネットワークの選択に使用される。学習率だけをチューニングすることは、ほとんどの場合、すべてのハイパーパラメータをチューニングするのと同じくらい良いことです。最適なアダプティブバウンド(例えばAdam)を選択して、その学習率を推奨します。
論文参考訳（メタデータ） (2024-02-10T13:26:14Z)
AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。 AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文参考訳（メタデータ） (2023-10-16T09:04:28Z)
CoRe Optimizer: An All-in-One Solution for Machine Learning [0.0]
連続レジリエント収束(CoRe)は、他の最先端の1次勾配に基づく収束アルゴリズムと比較して優れた性能を示した。 CoReは、調査されたすべてのアプリケーションにおいて、最高の、または競争的なパフォーマンスを得る。
論文参考訳（メタデータ） (2023-07-28T16:48:42Z)
Bidirectional Looking with A Novel Double Exponential Moving Average to Adaptive and Non-adaptive Momentum Optimizers [109.52244418498974]
我々は,新しいtextscAdmeta(textbfADouble指数textbfMov averagtextbfE textbfAdaptiveおよび非適応運動量)フレームワークを提案する。我々は、textscAdmetaR と textscAdmetaS の2つの実装を提供し、前者は RAdam を、後者は SGDM をベースとしています。
論文参考訳（メタデータ） (2023-07-02T18:16:06Z)
Judging Adam: Studying the Performance of Optimization Methods on ML4SE Tasks [2.8961929092154697]
ソースコードの深層学習モデルを用いて各種の性能を検証した。 Anaheadの選択は、モデルの品質に大きな影響を与えます。 ML4SEコミュニティは、コード関連のディープラーニングタスクのデフォルトとして、Adamを使うべきだ、と提案する。
論文参考訳（メタデータ） (2023-03-06T22:49:20Z)
VeLO: Training Versatile Learned Optimizers by Scaling Up [67.90237498659397]
私たちは、ディープラーニングの成功の背後にある同じスケーリングアプローチを活用して、汎用性を学びます。私たちは、パラメータの更新を取り込み出力する小さなニューラルネットワークであるディープラーニングのためのインジェクションをトレーニングします。学習したメタトレーニングコード、関連するトレインテストデータ、およびvelo-code.ioのベースラインを備えた広範なベンチマークスイートをオープンソースとして公開しています。
論文参考訳（メタデータ） (2022-11-17T18:39:07Z)
Optimizer Amalgamation [124.33523126363728]
私たちは、Amalgamationという新しい問題の研究を動機付けています。"Teacher"アマルガメーションのプールを、より強力な問題固有のパフォーマンスを持つ単一の"学生"にどのように組み合わせるべきなのでしょうか? まず、勾配降下による解析のプールをアマルガメートする3つの異なるメカニズムを定義する。また, プロセスの分散を低減するため, 目標を摂動させることでプロセスの安定化を図る。
論文参考訳（メタデータ） (2022-03-12T16:07:57Z)
Optimizing Large-Scale Hyperparameters via Automated Learning Algorithm [97.66038345864095]
ゼロ階超勾配(HOZOG)を用いた新しいハイパーパラメータ最適化法を提案する。具体的には、A型制約最適化問題として、まずハイパーパラメータ最適化を定式化する。次に、平均ゼロ階超勾配を用いてハイパーパラメータを更新する。
論文参考訳（メタデータ） (2021-02-17T21:03:05Z)
Mixing ADAM and SGD: a Combined Optimization Method [0.9569316316728905]
我々はMAS (Mixing ADAM and SGD) と呼ばれる新しいタイプの最適化手法を提案する。 SGDやADAMを改善するのではなく、両方の利点を最大限に活用するのです。我々は様々なCNNを用いて画像とテキスト文書の分類実験を行い、提案したMASが単一のSGDやADAMよりも優れた性能を示すことを示した。
論文参考訳（メタデータ） (2020-11-16T15:48:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。