論文の概要: SAGE: Sign-Adaptive Gradient for Memory-Efficient LLM Optimization
- arxiv url: http://arxiv.org/abs/2604.07663v2
- Date: Wed, 15 Apr 2026 21:35:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 16:09:14.131405
- Title: SAGE: Sign-Adaptive Gradient for Memory-Efficient LLM Optimization
- Title(参考訳): SAGE: メモリ効率の良いLLM最適化のための符号適応型グラディエント
- Authors: Wooin Lee, Hyun-Tae Kim,
- Abstract要約: 我々はAdamWをハイブリッド構造に置き換えるSAGE(Sign Adaptive GradiEnt)を提案する。
SAGEは、Lionスタイルの更新方向と、新しいメモリ効率の$O(d)$アダプティブスケールを組み合わせる。
最大1.3BパラメータのLlamaモデルでは、SAGEベースのハイブリッドは、新しい最先端のパープレキシティを実現し、すべてのベースラインを上回ります。
- 参考スコア(独自算出の注目度): 1.675857332621569
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The AdamW optimizer, while standard for LLM pretraining, is a critical memory bottleneck, consuming optimizer states equivalent to twice the model's size. Although light-state optimizers like SinkGD attempt to address this issue, we identify the embedding layer dilemma: these methods fail to handle the sparse, high-variance gradients inherent to embeddings, forcing a hybrid design that reverts to AdamW and partially negates the memory gains. We propose SAGE (Sign Adaptive GradiEnt), a novel optimizer that resolves this dilemma by replacing AdamW in this hybrid structure. SAGE combines a Lion-style update direction with a new, memory-efficient $O(d)$ adaptive scale. This scale acts as a "safe damper," provably bounded by 1.0, which tames high-variance dimensions more effectively than existing methods. This superior stability allows SAGE to achieve better convergence. On Llama models up to 1.3B parameters, our SAGE-based hybrid achieves new state-of-the-art perplexity, outperforming all baselines, including SinkGD hybrid, while significantly reducing optimizer state memory.
- Abstract(参考訳): LLMプリトレーニングの標準であるAdamWオプティマイザは、重要なメモリボトルネックであり、モデルの2倍のサイズに相当するオプティマイザステートを消費する。
SinkGDのようなライトステートオプティマイザはこの問題に対処しようとするが、埋め込み層ジレンマを識別する: これらのメソッドは、埋め込みに固有のスパースで高分散勾配を処理できず、AdamWに回帰し、部分的にメモリゲインを無効にするハイブリッド設計を強制する。
我々は,AdamWをハイブリッド構造に置き換えることで,このジレンマを解消する新しい最適化器であるSAGE(Sign Adaptive GradiEnt)を提案する。
SAGEは、Lionスタイルの更新方向と、新しいメモリ効率の$O(d)$アダプティブスケールを組み合わせる。
このスケールは「安全なダンパー」として機能し、1.0で証明可能な有界であり、既存の方法よりも高分散次元を効果的に用いている。
この優れた安定性により、SAGEはより良い収束を達成することができる。
最大1.3BパラメータのLlamaモデルでは、SAGEベースのハイブリッドは、新しい最先端のパープレキシティを実現し、SinkGDハイブリッドを含むすべてのベースラインを上回り、オプティマイザ状態メモリを大幅に削減します。
関連論文リスト
- A Minimalist Optimizer Design for LLM Pretraining [31.996047271119156]
大規模言語モデルのトレーニングは通常、Adamのような適応型に依存します。
GaLore FiraやAPOLLOといった最近の研究は、メモリ消費を減らすために、状態圧縮型を提案した。
本研究では,LLMプレトレーニングにおける最先端性能を維持するために本当に必要となる,最小限の状態量について検討する。
論文 参考訳(メタデータ) (2025-06-20T00:10:35Z) - COSMOS: A Hybrid Adaptive Optimizer for Memory-Efficient Training of LLMs [77.79640601822341]
大規模言語モデル(LLM)は、様々な領域で顕著な成功を収めている。
それらの最適化は、彼らが居住している複雑で高次元のロスランドスケープのために重要な課題である。
論文 参考訳(メタデータ) (2025-02-24T18:42:19Z) - HELENE: Hessian Layer-wise Clipping and Gradient Annealing for Accelerating Fine-tuning LLM with Zeroth-order Optimization [18.00873866263434]
微調整された大きな言語モデル(LLM)は、大きなメモリ問題を引き起こす。
最近の研究であるMeZOは、ゼロ階最適化法(ZO)を用いてこの問題に対処している。
HELENEは、スケーラブルでメモリ効率の良い新しいプレコンディショナーである。
論文 参考訳(メタデータ) (2024-11-16T04:27:22Z) - Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [63.10833446782114]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZO) 最適化手法はメモリ効率の良い代替手段を提供する。
本稿では,高次元摂動によって生じる課題に対処するために,部分空間ゼロ次最適化を提案する。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。