Fugu-MT 論文翻訳(概要): On Suppressing Range of Adaptive Stepsizes of Adam to Improve Generalisation Performance

論文の概要: On Suppressing Range of Adaptive Stepsizes of Adam to Improve Generalisation Performance

arxiv url: http://arxiv.org/abs/2302.01029v1
Date: Thu, 2 Feb 2023 11:46:23 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-03 14:09:58.660754
Title: On Suppressing Range of Adaptive Stepsizes of Adam to Improve Generalisation Performance
Title（参考訳）: adamの適応ステップ範囲の抑制と一般化性能の向上について
Authors: Guoqiang Zhang
Abstract要約: 我々はAdamの適応段差の範囲を抑えるために階層統計を利用する。結果のアルゴリズムはSET-Adamと呼ばれ、SETは3つの操作の簡単な表記法である。 SET-Adamは、ImageNet上でResNet18をトレーニングするためにAdamやAdaBeliefよりも高い検証精度を生成する。
参考スコア（独自算出の注目度）: 4.260807734466031
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A number of recent adaptive optimizers improve the generalisation performance of Adam by essentially reducing the variance of adaptive stepsizes to get closer to SGD with momentum. Following the above motivation, we suppress the range of the adaptive stepsizes of Adam by exploiting the layerwise gradient statistics. In particular, at each iteration, we propose to perform three consecutive operations on the second momentum v_t before using it to update a DNN model: (1): down-scaling, (2): epsilon-embedding, and (3): down-translating. The resulting algorithm is referred to as SET-Adam, where SET is a brief notation of the three operations. The down-scaling operation on v_t is performed layerwise by making use of the angles between the layerwise subvectors of v_t and the corresponding all-one subvectors. Extensive experimental results show that SET-Adam outperforms eight adaptive optimizers when training transformers and LSTMs for NLP, and VGG and ResNet for image classification over CIAF10 and CIFAR100 while matching the best performance of the eight adaptive methods when training WGAN-GP models for image generation tasks. Furthermore, SET-Adam produces higher validation accuracies than Adam and AdaBelief for training ResNet18 over ImageNet.
Abstract（参考訳）: 最近のアダプティブオプティマイザは、適応ステップの分散を本質的に減少させ、運動量でsgdに近づくことにより、adamの一般化性能を向上させる。上記のモチベーションに従えば、階層的勾配統計を利用してアダムの適応段階化の範囲を抑えることができる。特に、各イテレーションにおいて、DNNモデルの更新に使用する前に、第2運動量v_tで連続して3つの操作を実行することを提案する:(1)ダウンスケーリング、(2)エプシロン埋め込み、(3)ダウン翻訳。結果のアルゴリズムはSET-Adamと呼ばれ、SETは3つの操作の簡単な表記である。 v_tの層状サブベクタと対応するオールワンサブベクタとの角度を利用して、v_t上のダウンスケーリング動作を行う。 SET-Adam は NLP の変換器と LSTM のトレーニングにおいて 8 つの適応最適化器より優れており,CIAF10 と CIFAR100 のイメージ分類では VGG と ResNet が,画像生成タスクの WGAN-GP モデルのトレーニングでは 8 つの適応手法の最適性能に適合している。さらに、SET-AdamはImageNet上でResNet18をトレーニングするためにAdamやAdaBeliefよりも高い検証精度を生成する。

関連論文リスト

ScaleNet: Scaling up Pretrained Neural Networks with Incremental Parameters [67.87703790962388]
視覚変換器(ViT)の効率的なスケーリング手法であるScaleNetを導入する。従来のスクラッチからのトレーニングとは異なり、ScaleNetはパラメータの無視可能な増加を伴う迅速なモデル拡張を容易にする。 ScaleNetはトレーニングの3分の1しか必要とせず、スクラッチからトレーニングよりも精度が7.42%向上していることを示す。
論文参考訳（メタデータ） (2025-10-21T09:07:25Z)
No More Adam: Learning Rate Scaling at Initialization is All You Need [13.892699813809857]
SGD-SaIは運動量による勾配降下(SGDM)の簡易かつ効果的な増強である適応的な2階運動量に頼ることなく学習率を調整することで、SGD-SaIはトレーニングの不均衡を第1段階から防ぐことができる。その単純さと効率にもかかわらず、SGD-SaIは様々なトランスフォーマーベースのタスクのトレーニングにおいて、AdamWと一貫して一致し、より優れています。
論文参考訳（メタデータ） (2024-12-16T13:41:37Z)
MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.47014540413659]
Adam、Adam、およびそれらの変種のような大規模な勾配アルゴリズムは、この種のトレーニングの開発の中心となっている。本稿では,事前条件付き勾配最適化手法と,スケールドモーメント手法による分散低減を両立させる枠組みを提案する。
論文参考訳（メタデータ） (2024-11-15T18:57:39Z)
Deconstructing What Makes a Good Optimizer for Language Models [7.9224468703944115]
SGD,Adafactor,Adam,Lionなどの最適化アルゴリズムを自己回帰言語モデリングの文脈で比較する。以上の結果から,SGDを除いて,これらのアルゴリズムは最適性能の両立が可能であることが示唆された。
論文参考訳（メタデータ） (2024-07-10T18:11:40Z)
Variational Stochastic Gradient Descent for Deep Neural Networks [16.96187187108041]
現在の最先端は、Adamのような適応的勾配に基づく最適化手法である。ここでは,2つのアプローチを組み合わせることを提案し,その結果,VSGD(Variational Gradient Descent)を導出する。我々は、VSGD法がAdamのような他の適応勾配ベースとどのように関係しているかを示す。
論文参考訳（メタデータ） (2024-04-09T18:02:01Z)
MADA: Meta-Adaptive Optimizers through hyper-gradient Descent [73.1383658672682]
メタ適応(MADA)は、複数の既知の収束を一般化し、トレーニング中に最も適した収束を動的に学習できる統合フレームワークである。私たちは、MADAを視覚や言語タスクに関する他の人気と経験的に比較し、MADAがAdamや他の人気を一貫して上回っていることに気付きました。 AVGradは最大演算子を平均演算子に置き換えたもので、高次最適化に適している。
論文参考訳（メタデータ） (2024-01-17T00:16:46Z)
Bidirectional Looking with A Novel Double Exponential Moving Average to Adaptive and Non-adaptive Momentum Optimizers [109.52244418498974]
我々は,新しいtextscAdmeta(textbfADouble指数textbfMov averagtextbfE textbfAdaptiveおよび非適応運動量)フレームワークを提案する。我々は、textscAdmetaR と textscAdmetaS の2つの実装を提供し、前者は RAdam を、後者は SGDM をベースとしています。
論文参考訳（メタデータ） (2023-07-02T18:16:06Z)
Prompt Tuning for Parameter-efficient Medical Image Segmentation [79.09285179181225]
2つの医用画像データセットのセマンティックセグメンテーションにパラメータ効率が良いが効果的な適応を実現するために,いくつかのコントリビューションを提案し,検討する。我々はこのアーキテクチャを、オンライン生成プロトタイプへの割り当てに基づく専用密集型セルフスーパービジョンスキームで事前訓練する。得られたニューラルネットワークモデルにより、完全に微調整されたモデルとパラメータに適応したモデルとのギャップを緩和できることを実証する。
論文参考訳（メタデータ） (2022-11-16T21:55:05Z)
AdaNorm: Adaptive Gradient Norm Correction based Optimizer for CNNs [23.523389372182613]
勾配降下(SGD)は一般に畳み込みニューラルネットワーク(CNN)の訓練に使用される既存のSGDは過去の反復の勾配基準を活用せず、収束と性能の低下につながる。本稿では,AdaNormをベースとした新しいSGDを提案する。
論文参考訳（メタデータ） (2022-10-12T16:17:25Z)
Adan: Adaptive Nesterov Momentum Algorithm for Faster Optimizing Deep Models [134.83964935755964]
ディープラーニングでは、異なる種類のディープネットワークは典型的に異なる補間を必要とし、複数のトライアル後に選択する必要がある。本稿では,この問題を解消し,モデルトレーニング速度を継続的に改善するために,ADAtive Nesterov運動量変換器を提案する。
論文参考訳（メタデータ） (2022-08-13T16:04:39Z)
A Control Theoretic Framework for Adaptive Gradient Optimizers in Machine Learning [0.6526824510982802]
適応勾配法はディープニューラルネットワークの最適化に人気がある。最近の例にはAdaGradとAdamがある。我々は適応的勾配法のための汎用的なフレームワークを開発する。
論文参考訳（メタデータ） (2022-06-04T17:55:33Z)
MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文参考訳（メタデータ） (2020-06-21T21:47:43Z)
ADAHESSIAN: An Adaptive Second Order Optimizer for Machine Learning [91.13797346047984]
本稿では,2次最適化アルゴリズムであるADAHESSIANを紹介する。 ADAHESSIANは、他の適応最適化手法と比較して、新しい最先端の成果を大きなマージンで達成することを示す。
論文参考訳（メタデータ） (2020-06-01T05:00:51Z)
Breaking (Global) Barriers in Parallel Stochastic Optimization with Wait-Avoiding Group Averaging [48.99717153937717]
本稿では、ウェイトアビジングサブグループであるWAGMA-SGDについて述べる。 ImageNet上でResNet-50をトレーニングし、機械翻訳用のトランスフォーマー、大規模ナビゲーションのための深い強化学習を行う。最先端の分散SGDと比較すると、WAGMA-SGDはトレーニングのスループットを大幅に改善する。
論文参考訳（メタデータ） (2020-04-30T22:11:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。