論文の概要: Backward-Friendly Optimization: Training Large Language Models with Approximate Gradients under Memory Constraints
- arxiv url: http://arxiv.org/abs/2510.22467v1
- Date: Sun, 26 Oct 2025 00:50:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.212466
- Title: Backward-Friendly Optimization: Training Large Language Models with Approximate Gradients under Memory Constraints
- Title(参考訳): Backward-Friendly Optimization: メモリ制約下での近似勾配による大規模言語モデルの訓練
- Authors: Jing Yang, Kaitong Cai, Yijia Fan, Yufeng Yang, Keze Wang,
- Abstract要約: LLM(Large Language Models)の完全な微調整は、メモリ集約性で悪名高い。
GradLiteは、正確な勾配の要求を緩和する後方フレンドリーなソリューションである。
我々はGradLiteが有界な分散を伴う不偏推定を維持し、Adamに匹敵する収束率を保証することを示す。
- 参考スコア(独自算出の注目度): 14.20716202034732
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Full fine-tuning of Large Language Models (LLMs) is notoriously memory-intensive, primarily because conventional optimizers such as SGD or Adam assume access to exact gradients derived from cached activations. Existing solutions either alter the model architecture (e.g., reversible networks) or trade memory for computation (e.g., activation checkpointing), but the optimizer itself remains untouched. In this work, we introduce GradLite, a backward-friendly optimizer that relaxes the requirement of exact gradients, enabling efficient training even when intermediate activations are aggressively discarded or approximated. GradLite leverages two key techniques: (i) low-rank Jacobian approximation, which reduces the dimensionality of backpropagated error signals, and (ii) error-feedback correction, which accumulates and compensates approximation errors across iterations to preserve convergence guarantees. We provide a theoretical analysis showing that GradLite maintains unbiased gradient estimates with bounded variance, ensuring convergence rates comparable to Adam. Empirically, GradLite reduces optimizer-state and activation memory consumption by up to 50\% without architectural changes, and achieves on-par or superior downstream performance on reasoning (MMLU, GSM8K), multilingual, and dialogue benchmarks compared to checkpointing and optimizer-centric baselines (LoMo, GaLore).
- Abstract(参考訳): LLM(Large Language Models)の完全な微調整は、主にSGDやAdamのような従来のオプティマイザがキャッシュされたアクティベーションに由来する正確な勾配へのアクセスを前提としていることから、メモリ集約で知られている。
既存のソリューションでは、モデルアーキテクチャ(例えば、可逆性ネットワーク)や計算用メモリ(例えば、アクティベーションチェックポイント)が変更されているが、オプティマイザ自体は変更されていない。
本研究では, 正確な勾配の要求を緩和し, 中間活性化が積極的に破棄されたり, 近似されたりしても, 効率的なトレーニングを可能にする, 後方対応の最適化器であるGradLiteを紹介する。
GradLiteは2つの重要なテクニックを活用している。
(i)バックプロパゲート誤り信号の次元を減少させる低ランクジャコビアン近似、及び
(ii) 収束保証を維持するために繰り返しにわたって近似誤差を蓄積・補償するエラーフィードバック補正。
我々は,GradLiteが非バイアス勾配推定を有界分散で維持し,Adamに匹敵する収束率を保証していることを示す理論的解析を行った。
経験的に、GradLiteはアーキテクチャの変更なしに、最適化状態とアクティベーションメモリの消費を最大50%削減し、チェックポイントやオプティマイザ中心のベースライン(LoMo、GaLore)と比較して、推論(MMLU、GSM8K)、マルチリンガル、ダイアログのベンチマークにおいて、オンパーまたはより優れたダウンストリームのパフォーマンスを達成する。
関連論文リスト
- Low-rank Momentum Factorization for Memory Efficient Training [13.464518325870444]
Momentum Factorized (MoFaSGD) は、1次運動量の動的に更新された低ランクSVD表現を維持している。
大規模な言語モデルベンチマークにおけるMoFaSGDの有効性を実証し、メモリ削減(例えばLoRA)と性能の競合的なトレードオフを実現する。
論文 参考訳(メタデータ) (2025-07-10T18:04:52Z) - COAP: Memory-Efficient Training with Correlation-Aware Gradient Projection [17.54863041098623]
トレーニング性能を維持しながら計算オーバーヘッドを最小限に抑えるメモリ効率の高いCOAPを提案する。
LLaMA-1Bでは、メモリをわずか2%追加で61%削減し、AdamWと同じPPLを実現する。
8ビット量子化により、COAPはメモリを81%削減し、LLaVA-v1.5-7BファインチューニングのためにGaLoreを4倍高速化する。
論文 参考訳(メタデータ) (2024-11-26T03:50:52Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。