論文の概要: On Suppressing Range of Adaptive Stepsizes of Adam to Improve
Generalisation Performance
- arxiv url: http://arxiv.org/abs/2302.01029v1
- Date: Thu, 2 Feb 2023 11:46:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-03 14:09:58.660754
- Title: On Suppressing Range of Adaptive Stepsizes of Adam to Improve
Generalisation Performance
- Title(参考訳): adamの適応ステップ範囲の抑制と一般化性能の向上について
- Authors: Guoqiang Zhang
- Abstract要約: 我々はAdamの適応段差の範囲を抑えるために階層統計を利用する。
結果のアルゴリズムはSET-Adamと呼ばれ、SETは3つの操作の簡単な表記法である。
SET-Adamは、ImageNet上でResNet18をトレーニングするためにAdamやAdaBeliefよりも高い検証精度を生成する。
- 参考スコア(独自算出の注目度): 4.260807734466031
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A number of recent adaptive optimizers improve the generalisation performance
of Adam by essentially reducing the variance of adaptive stepsizes to get
closer to SGD with momentum. Following the above motivation, we suppress the
range of the adaptive stepsizes of Adam by exploiting the layerwise gradient
statistics. In particular, at each iteration, we propose to perform three
consecutive operations on the second momentum v_t before using it to update a
DNN model: (1): down-scaling, (2): epsilon-embedding, and (3):
down-translating. The resulting algorithm is referred to as SET-Adam, where SET
is a brief notation of the three operations. The down-scaling operation on v_t
is performed layerwise by making use of the angles between the layerwise
subvectors of v_t and the corresponding all-one subvectors. Extensive
experimental results show that SET-Adam outperforms eight adaptive optimizers
when training transformers and LSTMs for NLP, and VGG and ResNet for image
classification over CIAF10 and CIFAR100 while matching the best performance of
the eight adaptive methods when training WGAN-GP models for image generation
tasks. Furthermore, SET-Adam produces higher validation accuracies than Adam
and AdaBelief for training ResNet18 over ImageNet.
- Abstract(参考訳): 最近のアダプティブオプティマイザは、適応ステップの分散を本質的に減少させ、運動量でsgdに近づくことにより、adamの一般化性能を向上させる。
上記のモチベーションに従えば、階層的勾配統計を利用してアダムの適応段階化の範囲を抑えることができる。
特に、各イテレーションにおいて、DNNモデルの更新に使用する前に、第2運動量v_tで連続して3つの操作を実行することを提案する:(1)ダウンスケーリング、(2)エプシロン埋め込み、(3)ダウン翻訳。
結果のアルゴリズムはSET-Adamと呼ばれ、SETは3つの操作の簡単な表記である。
v_tの層状サブベクタと対応するオールワンサブベクタとの角度を利用して、v_t上のダウンスケーリング動作を行う。
SET-Adam は NLP の変換器と LSTM のトレーニングにおいて 8 つの適応最適化器より優れており,CIAF10 と CIFAR100 のイメージ分類では VGG と ResNet が,画像生成タスクの WGAN-GP モデルのトレーニングでは 8 つの適応手法の最適性能に適合している。
さらに、SET-AdamはImageNet上でResNet18をトレーニングするためにAdamやAdaBeliefよりも高い検証精度を生成する。
関連論文リスト
- MADA: Meta-Adaptive Optimizers through hyper-gradient Descent [76.80594193051837]
メタ適応(MADA)は、複数の既知の知識を一般化し、トレーニング中に最も適した知識を動的に学習できる統合フレームワークである。
我々は、CNN、ResNet、GPT-2モデルをトレーニングするために、視覚および言語タスクに関する他の人気のあるGradsとMADAを比較した。
MADAは、他の人気のあるGradsがGPT-2トレーニングで行なっているAdamよりも3倍のバリデーションパフォーマンスが得られます。
論文 参考訳(メタデータ) (2024-01-17T00:16:46Z) - Hierarchical Side-Tuning for Vision Transformers [34.55731467838914]
本稿では,種々の下流タスクへのVT転送を効果的に行う新しいPETL手法である階層側チューニング(HST)を提案する。
HSTを検証するために,分類,オブジェクト検出,インスタンスセグメンテーション,セマンティックセグメンテーションなど,多様な視覚的タスクを含む広範な実験を行った。
VTAB-1kでは,0.78Mパラメータを微調整しながら,最先端の平均Top-1精度76.4%を実現した。
論文 参考訳(メタデータ) (2023-10-09T04:16:35Z) - Bidirectional Looking with A Novel Double Exponential Moving Average to
Adaptive and Non-adaptive Momentum Optimizers [109.52244418498974]
我々は,新しいtextscAdmeta(textbfADouble指数textbfMov averagtextbfE textbfAdaptiveおよび非適応運動量)フレームワークを提案する。
我々は、textscAdmetaR と textscAdmetaS の2つの実装を提供し、前者は RAdam を、後者は SGDM をベースとしています。
論文 参考訳(メタデータ) (2023-07-02T18:16:06Z) - Prompt Tuning for Parameter-efficient Medical Image Segmentation [79.09285179181225]
2つの医用画像データセットのセマンティックセグメンテーションにパラメータ効率が良いが効果的な適応を実現するために,いくつかのコントリビューションを提案し,検討する。
我々はこのアーキテクチャを、オンライン生成プロトタイプへの割り当てに基づく専用密集型セルフスーパービジョンスキームで事前訓練する。
得られたニューラルネットワークモデルにより、完全に微調整されたモデルとパラメータに適応したモデルとのギャップを緩和できることを実証する。
論文 参考訳(メタデータ) (2022-11-16T21:55:05Z) - AdaNorm: Adaptive Gradient Norm Correction based Optimizer for CNNs [23.523389372182613]
勾配降下(SGD)は一般に畳み込みニューラルネットワーク(CNN)の訓練に使用される
既存のSGDは過去の反復の勾配基準を活用せず、収束と性能の低下につながる。
本稿では,AdaNormをベースとした新しいSGDを提案する。
論文 参考訳(メタデータ) (2022-10-12T16:17:25Z) - A Control Theoretic Framework for Adaptive Gradient Optimizers in
Machine Learning [0.6526824510982802]
適応勾配法はディープニューラルネットワークの最適化に人気がある。
最近の例にはAdaGradとAdamがある。
我々は適応的勾配法のための汎用的なフレームワークを開発する。
論文 参考訳(メタデータ) (2022-06-04T17:55:33Z) - When Vision Transformers Outperform ResNets without Pretraining or
Strong Data Augmentations [111.44860506703307]
Vision Transformer (ViTs) と既存のVisionNetsは、ハンドワイヤ機能やインダクティブスループットを汎用神経アーキテクチャに置き換えようとしている。
本稿では、損失幾何学のレンズからViTとRes-Mixersを解析し、トレーニングおよび推論時のモデルのデータ効率を改善することを目的とする。
最初の数層では、スペーサー活動ニューロンの頑健性が改善していることが示されている。
その結果、ViTsは、大規模な事前トレーニングや強力なデータ拡張なしに、ImageNet上でスクラッチからトレーニングした時に、同様のサイズと滑らかさのネットより優れています。
論文 参考訳(メタデータ) (2021-06-03T02:08:03Z) - MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of
Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。
これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文 参考訳(メタデータ) (2020-06-21T21:47:43Z) - ADAHESSIAN: An Adaptive Second Order Optimizer for Machine Learning [91.13797346047984]
本稿では,2次最適化アルゴリズムであるADAHESSIANを紹介する。
ADAHESSIANは、他の適応最適化手法と比較して、新しい最先端の成果を大きなマージンで達成することを示す。
論文 参考訳(メタデータ) (2020-06-01T05:00:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。