論文の概要: Stable-SPAM: How to Train in 4-Bit More Stably than 16-Bit Adam
- arxiv url: http://arxiv.org/abs/2502.17055v1
- Date: Mon, 24 Feb 2025 11:09:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:57:01.008965
- Title: Stable-SPAM: How to Train in 4-Bit More Stably than 16-Bit Adam
- Title(参考訳): スタブルSPAM:16ビットのAdamより4ビットより安定してトレーニングする方法
- Authors: Tianjin Huang, Haotian Hu, Zhenyu Zhang, Gaojie Jin, Xiang Li, Li Shen, Tianlong Chen, Lu Liu, Qingsong Wen, Zhangyang Wang, Shiwei Liu,
- Abstract要約: 低ビット精度は感度学習率を増幅し、しばしば不安定な勾配ノルムを引き起こす。
本研究では, 勾配正規化とクリッピングを併用したスタブルSPAMを提案する。
実験により,Stable-SPAMは4ビットトレーニングの勾配ノルムを効果的に安定化し,AdamやSPAMよりも優れた性能を実現することが示された。
- 参考スコア(独自算出の注目度): 94.00189300897694
- License:
- Abstract: This paper comprehensively evaluates several recently proposed optimizers for 4-bit training, revealing that low-bit precision amplifies sensitivity to learning rates and often causes unstable gradient norms, leading to divergence at higher learning rates. Among these, SPAM, a recent optimizer featuring momentum reset and spike-aware gradient clipping, achieves the best performance across various bit levels, but struggles to stabilize gradient norms, requiring careful learning rate tuning. To address these limitations, we propose Stable-SPAM, which incorporates enhanced gradient normalization and clipping techniques. In particular, Stable-SPAM (1) adaptively updates the clipping threshold for spiked gradients by tracking their historical maxima; (2) normalizes the entire gradient matrix based on its historical $l_2$-norm statistics; and $(3)$ inherits momentum reset from SPAM to periodically reset the first and second moments of Adam, mitigating the accumulation of spiked gradients. Extensive experiments show that Stable-SPAM effectively stabilizes gradient norms in 4-bit LLM training, delivering superior performance compared to Adam and SPAM. Notably, our 4-bit LLaMA-1B model trained with Stable-SPAM outperforms the BF16 LLaMA-1B trained with Adam by up to $2$ perplexity. Furthermore, when both models are trained in 4-bit, Stable-SPAM achieves the same loss as Adam while requiring only about half the training steps. Code is available at https://github.com/TianjinYellow/StableSPAM.git.
- Abstract(参考訳): 本稿では,最近提案された4ビット学習のための最適化手法を包括的に評価し,低ビット精度が学習率に対する感度を増幅し,しばしば不安定な勾配規範を生じさせることを示した。
これらのうち、運動量リセットとスパイク対応勾配クリッピングを特徴とする最近のオプティマイザであるSPAMは、様々なビットレベルにわたって最高の性能を達成するが、勾配基準の安定化に苦慮し、注意深い学習速度チューニングを必要としている。
これらの制約に対処するため,勾配正規化とクリッピングを改良したStable-SPAMを提案する。
特に, 安定SPAM(1) は, スパイク勾配のクリッピング閾値を, 過去の最大値を追跡することによって適応的に更新する; (2) 過去の$l_2$-norm統計に基づいて勾配行列全体を正規化する; そして$(3)$はSPAMから運動量リセットを継承し, アダムの第1モーメントと第2モーメントを周期的にリセットし, スパイク勾配の蓄積を緩和する。
広汎な実験により,Stable-SPAMは4ビットLLMトレーニングの勾配ノルムを効果的に安定化し,AdamやSPAMよりも優れた性能を実現することが示された。
特に、Stable-SPAMでトレーニングした4ビットのLLaMA-1Bモデルは、AdamでトレーニングしたBF16 LLaMA-1Bを最大2ドルのパープレキシティで上回ります。
さらに、両方のモデルが4ビットでトレーニングされると、Stable-SPAMはAdamと同じ損失を出し、トレーニングステップの約半分しか必要としない。
コードはhttps://github.com/TianjinYellow/StableSPAM.gitで入手できる。
関連論文リスト
- AdaGC: Improving Training Stability for Large Language Model Pretraining [18.163318397205533]
大きなLanguageText Models(LLM)は、スケーリング中に損失の急増に直面します。
グローバルなクリッピングがこれを緩和する一方で、従来のアプローチは特定のバリエーションを緩和する。
我々は,AdaGCがグローバルクリッピングよりも25%早く収束していることを示す。
論文 参考訳(メタデータ) (2025-02-16T08:13:23Z) - SPAM: Spike-Aware Adam with Momentum Reset for Stable LLM Training [60.9776082805359]
大規模言語モデル(LLM)は、様々なタスクにまたがる例外的なパフォーマンスを示しているが、そのトレーニングは、非常にリソース集約的で、トレーニングの不安定性に影響を受けやすいままである。
本稿では,LLMトレーニング中に観測された勾配スパイクを包括的に調査し,複数のアーキテクチャやデータセットにまたがる傾向を明らかにする。
本稿では,モーメントムリセットを用いたスパイク・アウェア・アダムを提案し,モーメントムリセットとスパイク・アウェア・クリッピングによる勾配スパイク対策について述べる。
論文 参考訳(メタデータ) (2025-01-12T15:21:22Z) - Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [66.27334633749734]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZOZO) 最適化手法はメモリ効率の代替手段を提供する。
本稿では,SubZeroがファインチューニングを強化し,通常のZOZO手法と比較して高速な結果が得られることを示す。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - Fira: Can We Achieve Full-rank Training of LLMs Under Low-rank Constraint? [40.94505326255136]
低ランクトレーニングは、大規模言語モデルのトレーニングにおいて、メモリ使用量を減らすための有望なアプローチとして登場した。
本研究では,この目標を達成するための最初の試みとして,Firaと呼ばれるLLM用のプラグイン・アンド・プレイ・トレーニング・フレームワークを提案する。
FiraはLoRAとGaLoreのどちらよりも優れており、フルランクトレーニングに匹敵する、あるいはそれ以上のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-10-02T14:58:27Z) - S-STE: Continuous Pruning Function for Efficient 2:4 Sparse Pre-training [20.113352600259226]
S-STEは,2:4スパースに連続的に重みを投影し,テンソルごとの固定スケーリング係数でスパース重みを再スケールする,シンプルな2:4トレーニング手法である。
その結果,本手法は以前の2:4の事前学習レシピを超え,完全なパラメータモデルでも同等であることがわかった。
論文 参考訳(メタデータ) (2024-09-13T08:29:36Z) - Inverse-Free Fast Natural Gradient Descent Method for Deep Learning [52.0693420699086]
本稿では,第1期における逆転のみを必要とする高速な自然勾配降下法を提案する。
FNGDは1次法の平均和と類似性を示し、FNGDの計算複雑性は1次法に匹敵する。
論文 参考訳(メタデータ) (2024-03-06T05:13:28Z) - Stable and low-precision training for large-scale vision-language models [108.62077651227607]
本稿では,大規模言語ビジョンモデルの学習の高速化と安定化のための新しい手法を提案する。
Int8量子化トレーニングのための線形層であるSwitchBackを導入し,13~25%の高速化を実現した。
安定のために、損失スパイクを解析し、二乗勾配が過小評価された後に連続して1~8回発生することを発見した。
論文 参考訳(メタデータ) (2023-04-25T17:38:18Z) - Large Scale Private Learning via Low-rank Reparametrization [77.38947817228656]
本稿では、大規模ニューラルネットワークに微分プライベートSGDを適用する際の課題を解決するために、再パラメータ化方式を提案する。
BERTモデルにディファレンシャルプライバシを適用し、4つの下流タスクで平均精度が8,3.9%に達するのはこれが初めてである。
論文 参考訳(メタデータ) (2021-06-17T10:14:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。