Fugu-MT 論文翻訳(概要): Dual Averaging is Surprisingly Effective for Deep Learning Optimization

論文の概要: Dual Averaging is Surprisingly Effective for Deep Learning Optimization

arxiv url: http://arxiv.org/abs/2010.10502v1
Date: Tue, 20 Oct 2020 17:55:11 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-05 06:47:22.487297
Title: Dual Averaging is Surprisingly Effective for Deep Learning Optimization
Title（参考訳）: Dual Averagingは、ディープラーニングの最適化に驚くほど効果的である
Authors: Samy Jelassi, Aaron Defazio
Abstract要約: 1次最適化法はディープニューラルネットワークのトレーニングに最も広く用いられている。間違った方法を使用すると、パフォーマンスが大幅に低下する可能性がある。 Modernized Dual Averaging (MDA)はCVではSGD+M、NLPではAdamと同等に機能する。
参考スコア（独自算出の注目度）: 20.191456827448736
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: First-order stochastic optimization methods are currently the most widely used class of methods for training deep neural networks. However, the choice of the optimizer has become an ad-hoc rule that can significantly affect the performance. For instance, SGD with momentum (SGD+M) is typically used in computer vision (CV) and Adam is used for training transformer models for Natural Language Processing (NLP). Using the wrong method can lead to significant performance degradation. Inspired by the dual averaging algorithm, we propose Modernized Dual Averaging (MDA), an optimizer that is able to perform as well as SGD+M in CV and as Adam in NLP. Our method is not adaptive and is significantly simpler than Adam. We show that MDA induces a decaying uncentered $L_2$-regularization compared to vanilla SGD+M and hypothesize that this may explain why it works on NLP problems where SGD+M fails.
Abstract（参考訳）: 1次確率最適化法は現在、ディープニューラルネットワークを訓練するための最も広く使われている手法である。しかし、オプティマイザの選択はアドホックなルールとなり、パフォーマンスに大きな影響を与えます。例えば、運動量を持つSGD(SGD+M)は一般的にコンピュータビジョン(CV)で使用され、Adamは自然言語処理(NLP)のトランスフォーマーモデルのトレーニングに使用される。間違ったメソッドを使用すると、パフォーマンスが大幅に低下する可能性がある。二元平均化アルゴリズムに触発されて、cvではsgd+m、nlpではadamとして動作可能な最適化器であるmodernized dual averaging (mda)を提案する。私たちの手法は適応性がなく、Adamよりかなりシンプルです。我々は、MDAがバニラSGD+Mと比較して崩壊しない$L_2$-regularizationを誘導していることを示し、これがSGD+Mが失敗するNLP問題に作用する理由を説明できるかもしれないと仮説を立てた。

関連論文リスト

PADAM: Parallel averaged Adam reduces the error for stochastic optimization in scientific machine learning [5.052293146674794]
Ruppert-Polyak平均化や指数移動平均化(EMA)といった平均化技術は、一般的なADAMのような勾配降下(SGD)最適化手法の最適化を高速化するための強力なアプローチである。本研究では,並列平均化ADAM(PADAM)と呼ばれる並列平均化手法を提案する。この手法では,ADAMの並列平均化変動を計算し,トレーニングプロセス中に最小の最適化誤差で勾配を動的に選択する。
論文参考訳（メタデータ） (2025-05-28T08:07:34Z)
LLaDA 1.5: Variance-Reduced Preference Optimization for Large Language Diffusion Models [76.8317443926908]
Masked Diffusion Models (MDM) は言語モデリングにおいて有望なパラダイムである。この課題は、優先最適化に必要なエビデンス・ロウアー・バウンド(ELBO)に基づく推定値の高分散から生じる。本稿では,ELBO推定器の偏差を公式に解析し,優先最適化勾配の偏差と偏差を導出するフレームワークであるVRPOを提案する。
論文参考訳（メタデータ） (2025-05-25T16:36:20Z)
AdamS: Momentum Itself Can Be A Normalizer for LLM Pretraining and Post-training [22.58304858379219]
我々は,大規模言語モデル(LLM)の事前学習とポストトレーニングのための,Adamの簡易かつ効果的な代替手段であるAdamSを紹介した。新たな分母、すなわち運動量と現在の勾配の重み付き和の根を利用することにより、AdamSは第二モーメント推定の必要性を排除している。 AdamSは効率が良く、SGDのメモリと計算フットプリントと運動量とを一致させ、優れた最適化性能を提供する。
論文参考訳（メタデータ） (2025-05-22T08:16:48Z)
Training Deep Learning Models with Norm-Constrained LMOs [56.00317694850397]
線形最小化オラクル(LMO)を用いて問題の幾何学に適応する新しいアルゴリズム群を提案する。我々は,Adamに頼らずに,我々のアルゴリズムであるScionを用いたナノGPTトレーニングの大幅な高速化を示す。
論文参考訳（メタデータ） (2025-02-11T13:10:34Z)
Averaged Adam accelerates stochastic optimization in the training of deep neural network approximations for partial differential equation and optimal control problems [5.052293146674794]
この研究は古典的なPolyak-Ruppert平均化アプローチにインスパイアされている。本研究では,Adam法の平均変種をディープラーニングネットワーク(DNN)の学習に適用する。それぞれの数値例では、採用される平均変種Adamは標準Adamと標準SGDよりも優れている。
論文参考訳（メタデータ） (2025-01-10T16:15:25Z)
MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.47014540413659]
Adam、Adam、およびそれらの変種のような大規模な勾配アルゴリズムは、この種のトレーニングの開発の中心となっている。本稿では,事前条件付き勾配最適化手法と,スケールドモーメント手法による分散低減を両立させる枠組みを提案する。
論文参考訳（メタデータ） (2024-11-15T18:57:39Z)
Non-convergence of Adam and other adaptive stochastic gradient descent optimization methods for non-vanishing learning rates [3.6185342807265415]
ディープラーニングアルゴリズムは多くの人工知能(AI)システムにおいて重要な要素である。ディープラーニングアルゴリズムは通常、勾配降下(SGD)最適化法によって訓練されたディープニューラルネットワークのクラスで構成されている。
論文参考訳（メタデータ） (2024-07-11T00:10:35Z)
Deconstructing What Makes a Good Optimizer for Language Models [7.9224468703944115]
SGD,Adafactor,Adam,Lionなどの最適化アルゴリズムを自己回帰言語モデリングの文脈で比較する。以上の結果から,SGDを除いて,これらのアルゴリズムは最適性能の両立が可能であることが示唆された。
論文参考訳（メタデータ） (2024-07-10T18:11:40Z)
Improving the Adaptive Moment Estimation (ADAM) stochastic optimizer through an Implicit-Explicit (IMEX) time-stepping approach [1.2233362977312945]
古典的アダムアルゴリズムは、基礎となるODEの1次暗黙的明示的(IMEX)離散化である。我々は、高階IMEX法を用いてODEを解くAdamスキームの新たな拡張を提案する。いくつかの回帰問題と分類問題において,従来のAdamよりも優れた性能を示すニューラルネットワークトレーニングのための新しい最適化アルゴリズムを導出する。
論文参考訳（メタデータ） (2024-03-20T16:08:27Z)
Robust Training of Neural Networks using Scale Invariant Architectures [70.67803417918854]
SGDとは対照的に、Adamのような適応勾配法は、現代のディープネットワークの堅牢なトレーニングを可能にする。この一般的なアプローチは、パラメータと損失の再スケーリングに頑健であることを示す。我々は、単にバニラSGDで訓練された場合、Adamのような適応的な手法で訓練されたBERTに匹敵する性能を達成する、SIBERTと呼ばれるスケール不変バージョンのBERTを設計する。
論文参考訳（メタデータ） (2022-02-02T11:58:56Z)
Adam$^+$: A Stochastic Method with Adaptive Variance Reduction [56.051001950733315]
Adamはディープラーニングアプリケーションに広く使われている最適化手法である。我々はAdam$+$(Adam-plusと発音する)という新しい方法を提案する。画像分類,言語モデリング,自動音声認識など,さまざまなディープラーニングタスクに関する実証研究により,Adam$+$がAdamを著しく上回ることを示した。
論文参考訳（メタデータ） (2020-11-24T09:28:53Z)
MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文参考訳（メタデータ） (2020-06-21T21:47:43Z)
AdamP: Slowing Down the Slowdown for Momentum Optimizers on Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文参考訳（メタデータ） (2020-06-15T08:35:15Z)
ADAHESSIAN: An Adaptive Second Order Optimizer for Machine Learning [91.13797346047984]
本稿では,2次最適化アルゴリズムであるADAHESSIANを紹介する。 ADAHESSIANは、他の適応最適化手法と比較して、新しい最先端の成果を大きなマージンで達成することを示す。
論文参考訳（メタデータ） (2020-06-01T05:00:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。