論文の概要: No More Adam: Learning Rate Scaling at Initialization is All You Need
- arxiv url: http://arxiv.org/abs/2412.11768v1
- Date: Mon, 16 Dec 2024 13:41:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 14:00:15.358342
- Title: No More Adam: Learning Rate Scaling at Initialization is All You Need
- Title(参考訳): もはやAdam: 初期化における学習速度のスケーリングは必要なすべて
- Authors: Minghao Xu, Lichuan Xiang, Xu Cai, Hongkai Wen,
- Abstract要約: SGD-SaIは運動量による勾配降下(SGDM)の簡易かつ効果的な増強である
適応的な2階運動量に頼ることなく学習率を調整することで、SGD-SaIはトレーニングの不均衡を第1段階から防ぐことができる。
その単純さと効率にもかかわらず、SGD-SaIは様々なトランスフォーマーベースのタスクのトレーニングにおいて、AdamWと一貫して一致し、より優れています。
- 参考スコア(独自算出の注目度): 13.892699813809857
- License:
- Abstract: In this work, we question the necessity of adaptive gradient methods for training deep neural networks. SGD-SaI is a simple yet effective enhancement to stochastic gradient descent with momentum (SGDM). SGD-SaI performs learning rate Scaling at Initialization (SaI) to distinct parameter groups, guided by their respective gradient signal-to-noise ratios (g-SNR). By adjusting learning rates without relying on adaptive second-order momentum, SGD-SaI helps prevent training imbalances from the very first iteration and cuts the optimizer's memory usage by half compared to AdamW. Despite its simplicity and efficiency, SGD-SaI consistently matches or outperforms AdamW in training a variety of Transformer-based tasks, effectively overcoming a long-standing challenge of using SGD for training Transformers. SGD-SaI excels in ImageNet-1K classification with Vision Transformers(ViT) and GPT-2 pretraining for large language models (LLMs, transformer decoder-only), demonstrating robustness to hyperparameter variations and practicality for diverse applications. We further tested its robustness on tasks like LoRA fine-tuning for LLMs and diffusion models, where it consistently outperforms state-of-the-art optimizers. From a memory efficiency perspective, SGD-SaI achieves substantial memory savings for optimizer states, reducing memory usage by 5.93 GB for GPT-2 (1.5B parameters) and 25.15 GB for Llama2-7B compared to AdamW in full-precision training settings.
- Abstract(参考訳): 本研究では,深層ニューラルネットワークを学習するための適応的勾配法の必要性を疑問視する。
SGD-SaIは、運動量を伴う確率勾配降下(SGDM)に対する単純かつ効果的な増強である。
SGD-SaIは、各勾配信号-雑音比(g-SNR)で導かれる異なるパラメータ群に対する初期化時の学習速度スケーリング(SaI)を実行する。
適応的な2階運動量に頼ることなく学習率を調整することで、SGD-SaIは、最初のイテレーションからトレーニングの不均衡を防止し、最適化者のメモリ使用量をAdamWと比べて半分削減する。
その単純さと効率にもかかわらず、SGD-SaIは、様々なトランスフォーマーベースのタスクのトレーニングにおいて、AdamWと一貫して一致または性能を上回り、トランスフォーマーのトレーニングにSGDを使用するという長年の課題を克服している。
SGD-SaIは、大きな言語モデル(LLMs、トランスフォーマーデコーダのみ)に対して、ビジョントランスフォーマー(ViT)とGPT-2によるImageNet-1K分類に優れている。
さらに、LLMのLORAファインチューニングや拡散モデルといったタスクにおいてロバスト性を検証し、常に最先端のオプティマイザより優れています。
メモリ効率の観点からは、SGD-SaIは最適化状態のメモリ節約を実現し、GPT-2(1.5Bパラメータ)では5.93GB、Llama2-7Bでは25.15GBのメモリ使用量をAdamWと比較した。
関連論文リスト
- Gated Slot Attention for Efficient Linear-Time Sequence Modeling [59.019501274074564]
Gated Slot Attention(GSA)は境界メモリ・コントロル(ABC)による注意を高める
GSAはGated Linear Attention (GLA)にインスパイアされたゲーティング機構を組み込んでいる
論文 参考訳(メタデータ) (2024-09-11T09:49:50Z) - Efficient Language Model Architectures for Differentially Private
Federated Learning [21.280600854272716]
クロスデバイス・フェデレーション・ラーニング(Cross-device Federated Learning, FL)は、デバイスを離れることなく、数百万のエッジデバイスに分散したデータ上でモデルをトレーニングするテクニックである。
言語モデルの集中的なトレーニングでは、安定性とパフォーマンスの向上を提供するため、適応が望ましい。
ニューラルリカレントセルにおけるシグモイドとタンハの活性化を修飾することにより、SI CIFG (Coupled Input Forget Gate) 再カレントネットワークを提案する。
論文 参考訳(メタデータ) (2024-03-12T22:21:48Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - CAME: Confidence-guided Adaptive Memory Efficient Optimization [20.009302737137787]
適応勾配法は大規模言語モデルの訓練において優れた性能を示した。
二次モーメント推定の維持には、メモリオーバーヘッドの増大を高いコストで維持する必要がある。
補助メモリ使用量の大幅な削減を実現するために、いくつかのメモリ効率が提案されているが、性能上のペナルティがある。
我々は,従来の適応手法のように高速収束,メモリ効率の低い2つの目標を同時に達成するために,CAMEを提案する。
論文 参考訳(メタデータ) (2023-07-05T06:05:36Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - On Suppressing Range of Adaptive Stepsizes of Adam to Improve Generalisation Performance [2.71467552808655]
我々はAdamの適応段差の範囲を抑えるために階層統計を利用する。
結果のアルゴリズムはSET-Adamと呼ばれ、SETは3つの操作の簡単な表記法である。
SET-Adamは、ImageNet上でResNet18をトレーニングするためにAdamやAdaBeliefよりも高い検証精度を生成する。
論文 参考訳(メタデータ) (2023-02-02T11:46:23Z) - Read the Signs: Towards Invariance to Gradient Descent's Hyperparameter
Initialization [3.1153758106426603]
学習速度を$alpha$でローカライズする最適化メタアルゴリズムであるActiveLRを提案し,各エポックの勾配が符号を変更するか否かに応じて各エポックに適応する。
我々は、広く使われ、最近公開された勾配勾配勾配、すなわち運動量を持つSGD、AdamW、RAdam、AdaBeliefのアクティブバージョン(我々のもの)を実装している。
論文 参考訳(メタデータ) (2023-01-24T16:57:00Z) - Robust Training of Neural Networks using Scale Invariant Architectures [70.67803417918854]
SGDとは対照的に、Adamのような適応勾配法は、現代のディープネットワークの堅牢なトレーニングを可能にする。
この一般的なアプローチは、パラメータと損失の再スケーリングに頑健であることを示す。
我々は、単にバニラSGDで訓練された場合、Adamのような適応的な手法で訓練されたBERTに匹敵する性能を達成する、SIBERTと呼ばれるスケール不変バージョンのBERTを設計する。
論文 参考訳(メタデータ) (2022-02-02T11:58:56Z) - When Vision Transformers Outperform ResNets without Pretraining or
Strong Data Augmentations [111.44860506703307]
Vision Transformer (ViTs) と既存のVisionNetsは、ハンドワイヤ機能やインダクティブスループットを汎用神経アーキテクチャに置き換えようとしている。
本稿では、損失幾何学のレンズからViTとRes-Mixersを解析し、トレーニングおよび推論時のモデルのデータ効率を改善することを目的とする。
最初の数層では、スペーサー活動ニューロンの頑健性が改善していることが示されている。
その結果、ViTsは、大規模な事前トレーニングや強力なデータ拡張なしに、ImageNet上でスクラッチからトレーニングした時に、同様のサイズと滑らかさのネットより優れています。
論文 参考訳(メタデータ) (2021-06-03T02:08:03Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。