Fugu-MT 論文翻訳(概要): MADA: Meta-Adaptive Optimizers through hyper-gradient Descent

論文の概要: MADA: Meta-Adaptive Optimizers through hyper-gradient Descent

arxiv url: http://arxiv.org/abs/2401.08893v1
Date: Wed, 17 Jan 2024 00:16:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-18 17:24:36.793101
Title: MADA: Meta-Adaptive Optimizers through hyper-gradient Descent
Title（参考訳）: MADA: 高度劣化によるメタ適応最適化
Authors: Kaan Ozkara, Can Karakus, Parameswaran Raman, Mingyi Hong, Shoham Sabach, Branislav Kveton, Volkan Cevher
Abstract要約: メタ適応(MADA: Meta-Adaptives)は,複数の既知の知識を一般化する統合フレームワークである。 MADAは、デフォルトのハイパーパラメータでAdam、Lion、Adanより優れています。また, AMSGrad の変種である AVGrad を提案する。
参考スコア（独自算出の注目度）: 76.80594193051837
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Since Adam was introduced, several novel adaptive optimizers for deep learning have been proposed. These optimizers typically excel in some tasks but may not outperform Adam uniformly across all tasks. In this work, we introduce Meta-Adaptive Optimizers (MADA), a unified optimizer framework that can generalize several known optimizers and dynamically learn the most suitable one during training. The key idea in MADA is to parameterize the space of optimizers and search through it using hyper-gradient descent. Numerical results suggest that MADA is robust against sub-optimally tuned hyper-parameters, and outperforms Adam, Lion, and Adan with their default hyper-parameters, often even with optimized hyper-parameters. We also propose AVGrad, a variant of AMSGrad where the maximum operator is replaced with averaging, and observe that it performs better within MADA. Finally, we provide a convergence analysis to show that interpolation of optimizers (specifically, AVGrad and Adam) can improve their error bounds (up to constants), hinting at an advantage for meta-optimizers.
Abstract（参考訳）: adamの導入以来、ディープラーニングのための新しい適応最適化器がいくつか提案されている。これらのオプティマイザは一般的にいくつかのタスクで優れるが、すべてのタスクでAdamを均一に上回るものではない。本稿では,複数の既知のオプティマイザを一般化し,トレーニング中に最も適したオプティマイザを動的に学習する,統一オプティマイザフレームワークであるメタ適応オプティマイザ(MADA)を紹介する。 MADAのキーとなるアイデアは、最適化の空間をパラメータ化して、過勾配の降下を使って探索することだ。 MADAは最適化されたハイパーパラメータに対して頑健であり、最適化されたハイパーパラメータでさえもデフォルトのハイパーパラメータではAdam、Lion、Adanを上回っている。また,最大演算子を平均演算子に置き換えた AMSGrad の変種である AVGrad を提案し,MADA での性能が向上することを確認した。最後に、最適化器(具体的にはAVGradとAdam)の補間が誤差境界(定数まで)を改善できることを示す収束解析を行い、メタ最適化の利点を示唆する。

関連論文リスト

PADAM: Parallel averaged Adam reduces the error for stochastic optimization in scientific machine learning [5.052293146674794]
Ruppert-Polyak平均化や指数移動平均化(EMA)といった平均化技術は、一般的なADAMのような勾配降下(SGD)最適化手法の最適化を高速化するための強力なアプローチである。本研究では,並列平均化ADAM(PADAM)と呼ばれる並列平均化手法を提案する。この手法では,ADAMの並列平均化変動を計算し,トレーニングプロセス中に最小の最適化誤差で勾配を動的に選択する。
論文参考訳（メタデータ） (2025-05-28T08:07:34Z)
Pretrained Optimization Model for Zero-Shot Black Box Optimization [16.391389860521134]
多様なタスクの最適化から得られた知識を活用する事前学習最適化モデル(POM)を提案する。 POMは、直接アプリケーションや数発のサンプルによる微調整を通じて、ゼロショット最適化の効率的なソリューションを提供する。少数のサンプルと予算を持つ微調整POMは、大幅な性能改善をもたらす。
論文参考訳（メタデータ） (2024-05-06T09:11:49Z)
Should I try multiple optimizers when fine-tuning pre-trained Transformers for NLP tasks? Should I tune their hyperparameters? [14.349943044268471]
SGD(Gradient Descent)は、トレーニングのためのニューラルネットワークの選択に使用される。学習率だけをチューニングすることは、ほとんどの場合、すべてのハイパーパラメータをチューニングするのと同じくらい良いことです。最適なアダプティブバウンド(例えばAdam)を選択して、その学習率を推奨します。
論文参考訳（メタデータ） (2024-02-10T13:26:14Z)
AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。 AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文参考訳（メタデータ） (2023-10-16T09:04:28Z)
CoRe Optimizer: An All-in-One Solution for Machine Learning [0.0]
連続レジリエント収束(CoRe)は、他の最先端の1次勾配に基づく収束アルゴリズムと比較して優れた性能を示した。 CoReは、調査されたすべてのアプリケーションにおいて、最高の、または競争的なパフォーマンスを得る。
論文参考訳（メタデータ） (2023-07-28T16:48:42Z)
Bidirectional Looking with A Novel Double Exponential Moving Average to Adaptive and Non-adaptive Momentum Optimizers [109.52244418498974]
我々は,新しいtextscAdmeta(textbfADouble指数textbfMov averagtextbfE textbfAdaptiveおよび非適応運動量)フレームワークを提案する。我々は、textscAdmetaR と textscAdmetaS の2つの実装を提供し、前者は RAdam を、後者は SGDM をベースとしています。
論文参考訳（メタデータ） (2023-07-02T18:16:06Z)
Judging Adam: Studying the Performance of Optimization Methods on ML4SE Tasks [2.8961929092154697]
ソースコードの深層学習モデルを用いて各種の性能を検証した。 Anaheadの選択は、モデルの品質に大きな影響を与えます。 ML4SEコミュニティは、コード関連のディープラーニングタスクのデフォルトとして、Adamを使うべきだ、と提案する。
論文参考訳（メタデータ） (2023-03-06T22:49:20Z)
VeLO: Training Versatile Learned Optimizers by Scaling Up [67.90237498659397]
私たちは、ディープラーニングの成功の背後にある同じスケーリングアプローチを活用して、汎用性を学びます。私たちは、パラメータの更新を取り込み出力する小さなニューラルネットワークであるディープラーニングのためのインジェクションをトレーニングします。学習したメタトレーニングコード、関連するトレインテストデータ、およびvelo-code.ioのベースラインを備えた広範なベンチマークスイートをオープンソースとして公開しています。
論文参考訳（メタデータ） (2022-11-17T18:39:07Z)
Optimizer Amalgamation [124.33523126363728]
私たちは、Amalgamationという新しい問題の研究を動機付けています。"Teacher"アマルガメーションのプールを、より強力な問題固有のパフォーマンスを持つ単一の"学生"にどのように組み合わせるべきなのでしょうか? まず、勾配降下による解析のプールをアマルガメートする3つの異なるメカニズムを定義する。また, プロセスの分散を低減するため, 目標を摂動させることでプロセスの安定化を図る。
論文参考訳（メタデータ） (2022-03-12T16:07:57Z)
Optimizing Large-Scale Hyperparameters via Automated Learning Algorithm [97.66038345864095]
ゼロ階超勾配(HOZOG)を用いた新しいハイパーパラメータ最適化法を提案する。具体的には、A型制約最適化問題として、まずハイパーパラメータ最適化を定式化する。次に、平均ゼロ階超勾配を用いてハイパーパラメータを更新する。
論文参考訳（メタデータ） (2021-02-17T21:03:05Z)
Mixing ADAM and SGD: a Combined Optimization Method [0.9569316316728905]
我々はMAS (Mixing ADAM and SGD) と呼ばれる新しいタイプの最適化手法を提案する。 SGDやADAMを改善するのではなく、両方の利点を最大限に活用するのです。我々は様々なCNNを用いて画像とテキスト文書の分類実験を行い、提案したMASが単一のSGDやADAMよりも優れた性能を示すことを示した。
論文参考訳（メタデータ） (2020-11-16T15:48:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。