論文の概要: AdamP: Slowing Down the Slowdown for Momentum Optimizers on
Scale-invariant Weights
- arxiv url: http://arxiv.org/abs/2006.08217v3
- Date: Mon, 18 Jan 2021 14:36:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 02:20:22.702448
- Title: AdamP: Slowing Down the Slowdown for Momentum Optimizers on
Scale-invariant Weights
- Title(参考訳): AdamP: スケール不変ウェイトにおけるモーメント最適化のスローダウン
- Authors: Byeongho Heo, Sanghyuk Chun, Seong Joon Oh, Dongyoon Han, Sangdoo Yun,
Gyuwan Kim, Youngjung Uh, Jung-Woo Ha
- Abstract要約: 正規化技術は現代の深層学習の恩恵である。
しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。
本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
- 参考スコア(独自算出の注目度): 53.8489656709356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Normalization techniques are a boon for modern deep learning. They let
weights converge more quickly with often better generalization performances. It
has been argued that the normalization-induced scale invariance among the
weights provides an advantageous ground for gradient descent (GD) optimizers:
the effective step sizes are automatically reduced over time, stabilizing the
overall training procedure. It is often overlooked, however, that the
additional introduction of momentum in GD optimizers results in a far more
rapid reduction in effective step sizes for scale-invariant weights, a
phenomenon that has not yet been studied and may have caused unwanted side
effects in the current practice. This is a crucial issue because arguably the
vast majority of modern deep neural networks consist of (1) momentum-based GD
(e.g. SGD or Adam) and (2) scale-invariant parameters. In this paper, we verify
that the widely-adopted combination of the two ingredients lead to the
premature decay of effective step sizes and sub-optimal model performances. We
propose a simple and effective remedy, SGDP and AdamP: get rid of the radial
component, or the norm-increasing direction, at each optimizer step. Because of
the scale invariance, this modification only alters the effective step sizes
without changing the effective update directions, thus enjoying the original
convergence properties of GD optimizers. Given the ubiquity of momentum GD and
scale invariance in machine learning, we have evaluated our methods against the
baselines on 13 benchmarks. They range from vision tasks like classification
(e.g. ImageNet), retrieval (e.g. CUB and SOP), and detection (e.g. COCO) to
language modelling (e.g. WikiText) and audio classification (e.g. DCASE) tasks.
We verify that our solution brings about uniform gains in those benchmarks.
Source code is available at https://github.com/clovaai/AdamP.
- Abstract(参考訳): 正規化技術は現代の深層学習の恩恵である。
彼らはしばしばより良い一般化性能で重みをより早く収束させる。
重み間の正規化誘起スケール不変性は、勾配降下(GD)最適化器に有利な土台を与えると論じられ、実効的なステップサイズは時間とともに自動的に減少し、全体的な訓練手順を安定化させる。
しかし、GDオプティマイザに運動量を導入することで、スケール不変量に対する効果的なステップサイズが大幅に減少し、これはまだ研究されていない現象であり、現在の実践において望ましくない副作用を引き起こした可能性がある。
現代のディープニューラルネットワークの大多数は(1)運動量に基づくgd(sgdやadamなど)と(2)スケール不変パラメータで構成されているため、これは重要な問題である。
本稿では,これら2成分の多種多様な組み合わせが,有効なステップサイズとサブ最適モデル性能の早期崩壊につながることを検証した。
本稿では,SGDPとAdamPによる簡易かつ効果的な対策として,各最適化ステップにおいて放射状成分(標準増加方向)を除去する手法を提案する。
スケールの不変性のため、この修正は有効な更新方向を変更することなく有効なステップサイズだけを変更し、GDオプティマイザの本来の収束特性を享受する。
機械学習における運動量GDの多様さとスケール不変性を考慮して,13ベンチマークの基準値に対して評価を行った。
それらは、分類(例:イメージネット)、検索(例:cubとsop)、検出(例:coco)、言語モデリング(例:wikitext)、音声分類(例:dcase)といったビジョンタスクから成り立っている。
当社のソリューションがベンチマークで均一に向上していることを確認します。
ソースコードはhttps://github.com/clovaai/adampで入手できる。
関連論文リスト
- MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.47014540413659]
Adam、Adam、およびそれらの変種のような大規模な勾配アルゴリズムは、この種のトレーニングの開発の中心となっている。
本稿では,事前条件付き勾配最適化手法と,スケールドモーメント手法による分散低減を両立させる枠組みを提案する。
論文 参考訳(メタデータ) (2024-11-15T18:57:39Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Read the Signs: Towards Invariance to Gradient Descent's Hyperparameter
Initialization [3.1153758106426603]
学習速度を$alpha$でローカライズする最適化メタアルゴリズムであるActiveLRを提案し,各エポックの勾配が符号を変更するか否かに応じて各エポックに適応する。
我々は、広く使われ、最近公開された勾配勾配勾配、すなわち運動量を持つSGD、AdamW、RAdam、AdaBeliefのアクティブバージョン(我々のもの)を実装している。
論文 参考訳(メタデータ) (2023-01-24T16:57:00Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z) - Correcting Momentum with Second-order Information [50.992629498861724]
最適積に$O(epsilon)$epsilon点を求める非臨界最適化のための新しいアルゴリズムを開発した。
我々は、さまざまな大規模ディープラーニングベンチマークとアーキテクチャで結果を検証する。
論文 参考訳(メタデータ) (2021-03-04T19:01:20Z) - Dynamic Scale Training for Object Detection [111.33112051962514]
本稿では,オブジェクト検出におけるスケール変動問題を軽減するために,動的スケールトレーニングパラダイム(DST)を提案する。
提案したDSTのスケール変動処理に対する有効性を示す実験結果を得た。
推論オーバーヘッドを導入せず、一般的な検出設定のための無料ランチとして機能する。
論文 参考訳(メタデータ) (2020-04-26T16:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。