論文の概要: Read the Signs: Towards Invariance to Gradient Descent's Hyperparameter
Initialization
- arxiv url: http://arxiv.org/abs/2301.10133v1
- Date: Tue, 24 Jan 2023 16:57:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-25 12:57:26.095500
- Title: Read the Signs: Towards Invariance to Gradient Descent's Hyperparameter
Initialization
- Title(参考訳): 記号を読む:勾配Descentのハイパーパラメータ初期化への不変性に向けて
- Authors: Davood Wadi, Marc Fredette, Sylvain Senecal
- Abstract要約: 学習速度を$alpha$でローカライズする最適化メタアルゴリズムであるActiveLRを提案し,各エポックの勾配が符号を変更するか否かに応じて各エポックに適応する。
我々は、広く使われ、最近公開された勾配勾配勾配、すなわち運動量を持つSGD、AdamW、RAdam、AdaBeliefのアクティブバージョン(我々のもの)を実装している。
- 参考スコア(独自算出の注目度): 3.1153758106426603
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose ActiveLR, an optimization meta algorithm that localizes the
learning rate, $\alpha$, and adapts them at each epoch according to whether the
gradient at each epoch changes sign or not. This sign-conscious algorithm is
aware of whether from the previous step to the current one the update of each
parameter has been too large or too small and adjusts the $\alpha$ accordingly.
We implement the Active version (ours) of widely used and recently published
gradient descent optimizers, namely SGD with momentum, AdamW, RAdam, and
AdaBelief. Our experiments on ImageNet, CIFAR-10, WikiText-103, WikiText-2, and
PASCAL VOC using different model architectures, such as ResNet and
Transformers, show an increase in generalizability and training set fit, and
decrease in training time for the Active variants of the tested optimizers. The
results also show robustness of the Active variant of these optimizers to
different values of the initial learning rate. Furthermore, the detrimental
effects of using large mini-batch sizes are mitigated. ActiveLR, thus,
alleviates the need for hyper-parameter search for two of the most commonly
tuned hyper-parameters that require heavy time and computational costs to pick.
We encourage AI researchers and practitioners to use the Active variant of
their optimizer of choice for faster training, better generalizability, and
reducing carbon footprint of training deep neural networks.
- Abstract(参考訳): そこで我々は,学習率である$\alpha$をローカライズした最適化メタアルゴリズムであるactivelrを提案する。
このサイン意識アルゴリズムは、前のステップから現在のステップまで、各パラメータの更新が大きすぎるか小さすぎるかを認識し、それに応じて$\alpha$を調整する。
我々は,最近発表された勾配降下オプティマイザ(sgd with momentum, adamw, radam, adabelief)のアクティブバージョン(ours)を実装した。
ImageNet, CIFAR-10, WikiText-103, WikiText-2, PASCAL VOCにおけるResNetやTransformersなどの異なるモデルアーキテクチャを用いた実験により, 汎用性とトレーニングセットの適合性が向上し, テストオプティマイザのアクティブ変種に対するトレーニング時間が短縮された。
また,これらのオプティマイザのアクティブバリアントを初期学習率の異なる値に頑健性を示した。
さらに、大きなミニバッチサイズを使用することによる悪影響を緩和する。
したがって、activelrは、非常に長い時間と計算コストを必要とする最もよく調整された2つのハイパーパラメータのハイパーパラメータ探索の必要性を軽減する。
私たちはAI研究者や実践者たちに、より高速なトレーニング、より汎用性の向上、深層ニューラルネットワークのトレーニングにおけるカーボンフットプリントの削減のために、彼らの選択する最適化のActive variantを使用するように勧めています。
関連論文リスト
- Surge Phenomenon in Optimal Learning Rate and Batch Size Scaling [27.058009599819012]
本稿では,Adamスタイルにおける最適学習率とバッチサイズとの関係について検討する。
最適学習率が最初に上昇し、バッチサイズが大きくなるにつれて低下することを示す。
論文 参考訳(メタデータ) (2024-05-23T13:52:36Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - Hyper-Learning for Gradient-Based Batch Size Adaptation [2.944323057176686]
バッチサイズをスケジューリングして拡大することは、ディープニューラルネットワークをトレーニングする際のノイズを制御する効果的な戦略である。
学習可能なスケジューリングのためのバッチサイズ適応を行うためのアルゴリズムとしてArbiterを導入する。
いくつかの実験でArbiterの有効性を実証した。
論文 参考訳(メタデータ) (2022-05-17T11:01:14Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z) - Tom: Leveraging trend of the observed gradients for faster convergence [0.0]
TomはAdamの新しい変種であり、ニューラルネットワークによって渡される損失の風景の勾配の傾向を考慮に入れている。
Tomは両方の精度でAdagrad、Adadelta、RMSProp、Adamを上回り、より早く収束する。
論文 参考訳(メタデータ) (2021-09-07T20:19:40Z) - GradInit: Learning to Initialize Neural Networks for Stable and
Efficient Training [59.160154997555956]
ニューラルネットワークを初期化するための自動化およびアーキテクチャ手法であるgradinitを提案する。
各ネットワーク層の分散は、SGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。
また、学習率のウォームアップを伴わずに、オリジナルのPost-LN Transformerを機械翻訳用にトレーニングすることもできる。
論文 参考訳(メタデータ) (2021-02-16T11:45:35Z) - Meta-Learning with Adaptive Hyperparameters [55.182841228303225]
我々は、MAMLフレームワークの補完的要素、インナーループ最適化(あるいは高速適応)に焦点を当てる。
高速適応プロセスを大幅に向上させる新しい重み更新ルールを提案する。
論文 参考訳(メタデータ) (2020-10-31T08:05:34Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - AdamP: Slowing Down the Slowdown for Momentum Optimizers on
Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。
しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。
本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文 参考訳(メタデータ) (2020-06-15T08:35:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。