Fugu-MT 論文翻訳(概要): SAGE: Sign-Adaptive Gradient for Memory-Efficient LLM Optimization

論文の概要: SAGE: Sign-Adaptive Gradient for Memory-Efficient LLM Optimization

arxiv url: http://arxiv.org/abs/2604.07663v2
Date: Wed, 15 Apr 2026 21:35:18 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-17 16:09:14.131405
Title: SAGE: Sign-Adaptive Gradient for Memory-Efficient LLM Optimization
Title（参考訳）: SAGE: メモリ効率の良いLLM最適化のための符号適応型グラディエント
Authors: Wooin Lee, Hyun-Tae Kim,
Abstract要約: 我々はAdamWをハイブリッド構造に置き換えるSAGE(Sign Adaptive GradiEnt)を提案する。 SAGEは、Lionスタイルの更新方向と、新しいメモリ効率の$O(d)$アダプティブスケールを組み合わせる。最大1.3BパラメータのLlamaモデルでは、SAGEベースのハイブリッドは、新しい最先端のパープレキシティを実現し、すべてのベースラインを上回ります。
参考スコア（独自算出の注目度）: 1.675857332621569
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The AdamW optimizer, while standard for LLM pretraining, is a critical memory bottleneck, consuming optimizer states equivalent to twice the model's size. Although light-state optimizers like SinkGD attempt to address this issue, we identify the embedding layer dilemma: these methods fail to handle the sparse, high-variance gradients inherent to embeddings, forcing a hybrid design that reverts to AdamW and partially negates the memory gains. We propose SAGE (Sign Adaptive GradiEnt), a novel optimizer that resolves this dilemma by replacing AdamW in this hybrid structure. SAGE combines a Lion-style update direction with a new, memory-efficient $O(d)$ adaptive scale. This scale acts as a "safe damper," provably bounded by 1.0, which tames high-variance dimensions more effectively than existing methods. This superior stability allows SAGE to achieve better convergence. On Llama models up to 1.3B parameters, our SAGE-based hybrid achieves new state-of-the-art perplexity, outperforming all baselines, including SinkGD hybrid, while significantly reducing optimizer state memory.
Abstract（参考訳）: LLMプリトレーニングの標準であるAdamWオプティマイザは、重要なメモリボトルネックであり、モデルの2倍のサイズに相当するオプティマイザステートを消費する。 SinkGDのようなライトステートオプティマイザはこの問題に対処しようとするが、埋め込み層ジレンマを識別する: これらのメソッドは、埋め込みに固有のスパースで高分散勾配を処理できず、AdamWに回帰し、部分的にメモリゲインを無効にするハイブリッド設計を強制する。我々は,AdamWをハイブリッド構造に置き換えることで,このジレンマを解消する新しい最適化器であるSAGE(Sign Adaptive GradiEnt)を提案する。 SAGEは、Lionスタイルの更新方向と、新しいメモリ効率の$O(d)$アダプティブスケールを組み合わせる。このスケールは「安全なダンパー」として機能し、1.0で証明可能な有界であり、既存の方法よりも高分散次元を効果的に用いている。この優れた安定性により、SAGEはより良い収束を達成することができる。最大1.3BパラメータのLlamaモデルでは、SAGEベースのハイブリッドは、新しい最先端のパープレキシティを実現し、SinkGDハイブリッドを含むすべてのベースラインを上回り、オプティマイザ状態メモリを大幅に削減します。

論文の概要: SAGE: Sign-Adaptive Gradient for Memory-Efficient LLM Optimization

関連論文リスト