論文の概要: Low-rank Momentum Factorization for Memory Efficient Training
- arxiv url: http://arxiv.org/abs/2507.08091v1
- Date: Thu, 10 Jul 2025 18:04:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 18:03:54.140146
- Title: Low-rank Momentum Factorization for Memory Efficient Training
- Title(参考訳): 記憶効率向上のための低ランクモーメントファクトリゼーション
- Authors: Pouria Mahdavinia, Mehrdad Mahdavi,
- Abstract要約: Momentum Factorized (MoFaSGD) は、1次運動量の動的に更新された低ランクSVD表現を維持している。
大規模な言語モデルベンチマークにおけるMoFaSGDの有効性を実証し、メモリ削減(例えばLoRA)と性能の競合的なトレードオフを実現する。
- 参考スコア(独自算出の注目度): 13.464518325870444
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning large foundation models presents significant memory challenges due to stateful optimizers like AdamW, often requiring several times more GPU memory than inference. While memory-efficient methods like parameter-efficient fine-tuning (e.g., LoRA) and optimizer state compression exist, recent approaches like GaLore bridge these by using low-rank gradient projections and subspace moment accumulation. However, such methods may struggle with fixed subspaces or computationally costly offline resampling (e.g., requiring full-matrix SVDs). We propose Momentum Factorized SGD (MoFaSGD), which maintains a dynamically updated low-rank SVD representation of the first-order momentum, closely approximating its full-rank counterpart throughout training. This factorization enables a memory-efficient fine-tuning method that adaptively updates the optimization subspace at each iteration. Crucially, MoFaSGD leverages the computed low-rank momentum factors to perform efficient spectrally normalized updates, offering an alternative to subspace moment accumulation. We establish theoretical convergence guarantees for MoFaSGD, proving it achieves an optimal rate for non-convex stochastic optimization under standard assumptions. Empirically, we demonstrate MoFaSGD's effectiveness on large language model alignment benchmarks, achieving a competitive trade-off between memory reduction (comparable to LoRA) and performance compared to state-of-the-art low-rank optimization methods. Our implementation is available at https://github.com/pmahdavi/MoFaSGD.
- Abstract(参考訳): 微調整された大規模なファンデーションモデルは、AdamWのようなステートフルなオプティマイザが原因で、推論よりもGPUメモリを何倍も必要とします。
パラメータ効率のよい微調整(例えばLoRA)やオプティマイザ状態圧縮のようなメモリ効率のよい手法は存在するが、GaLoreのような最近の手法は低ランク勾配投影と部分空間モーメントの蓄積を用いてこれらを橋渡ししている。
しかし、そのような手法は固定部分空間や計算コストのかかるオフライン再サンプリング(例えば、完全な行列SVDを必要とする)に悩まされることがある。
本稿では,第1次運動量の低ランクSVD表現を動的に更新するMomentum Factorized SGD(MoFaSGD)を提案する。
この分解により、各イテレーションで最適化部分空間を適応的に更新するメモリ効率の良い微調整法が実現される。
重要なことに、MoFaSGDは計算された低ランク運動量因子を利用して効率的なスペクトル正規化更新を行い、サブスペースモーメントの蓄積に代わる手段を提供する。
我々は、MoFaSGDの理論的収束保証を確立し、標準仮定の下で非凸確率最適化の最適速度を達成することを証明した。
実験により,大規模な言語モデルアライメントベンチマークにおけるMoFaSGDの有効性を実証し,メモリ削減(LoRAに匹敵する)と性能の競合的なトレードオフを実現する。
私たちの実装はhttps://github.com/pmahdavi/MoFaSGD.comで公開されています。
関連論文リスト
- A Minimalist Optimizer Design for LLM Pretraining [31.996047271119156]
大規模言語モデルのトレーニングは通常、Adamのような適応型に依存します。
GaLore FiraやAPOLLOといった最近の研究は、メモリ消費を減らすために、状態圧縮型を提案した。
本研究では,LLMプレトレーニングにおける最先端性能を維持するために本当に必要となる,最小限の状態量について検討する。
論文 参考訳(メタデータ) (2025-06-20T00:10:35Z) - MLorc: Momentum Low-rank Compression for Large Language Model Adaptation [18.63642841688227]
我々は、モメンタム低ランク圧縮(MLorc)と呼ばれるメモリ効率の訓練パラダイムを提案する。
勾配ではなく運動量を直接圧縮して再構成することにより、MLorcは重み更新行列に固定ランク制約を課すことを避ける。
実証的には、MLorcは、他のメモリ効率のトレーニング方法、マッチ、さらにはフル微調整のパフォーマンスを一貫して上回っている。
論文 参考訳(メタデータ) (2025-06-02T17:21:10Z) - COSMOS: A Hybrid Adaptive Optimizer for Memory-Efficient Training of LLMs [81.01082659623552]
大規模言語モデル(LLM)は、様々な領域で顕著な成功を収めている。
それらの最適化は、彼らが居住している複雑で高次元のロスランドスケープのために重要な課題である。
論文 参考訳(メタデータ) (2025-02-24T18:42:19Z) - A Memory Efficient Randomized Subspace Optimization Method for Training Large Language Models [22.725326215887435]
本稿では,事前学習および微調整を行う大規模言語モデルのためのランダム化部分空間最適化フレームワークを提案する。
提案手法は,高次元学習問題を一連の低次元サブプロブレムに分解する。
この構造的次元減少により,アクティベーションと状態の両方のメモリ使用量を同時に削減できる。
論文 参考訳(メタデータ) (2025-02-11T03:32:10Z) - I3S: Importance Sampling Subspace Selection for Low-Rank Optimization in LLM Pretraining [50.89661053183944]
低ランク最適化は、大規模言語モデル(LLM)のメモリ効率のトレーニングを可能にするための有望なアプローチとして登場した。
既存の低ランク最適化手法は、通常、低ランクのサブスペースに勾配を投影し、状態を保存する際のメモリコストを低減させる。
低ランク最適化のための重要サンプリング部分空間選択(I3S)を提案し、理論的には支配的部分空間アプローチに匹敵する収束率を提供する。
論文 参考訳(メタデータ) (2025-02-09T06:30:19Z) - Sparse Gradient Compression for Fine-Tuning Large Language Models [58.44973963468691]
ダウンストリームタスクのための微調整された大型言語モデル(LLM)は、広く利用されていることと、オープンソースモデルの利用が増加しているために、ますます重要になっている。
微調整に伴う高メモリコストは、特にモデルのサイズが大きくなるにつれて大きな課題である。
これらの制約に対処するためにスパース圧縮勾配(SGC)を提案する。
論文 参考訳(メタデータ) (2025-02-01T04:18:28Z) - FRUGAL: Memory-Efficient Optimization by Reducing State Overhead for Scalable Training [51.39495282347475]
我々は、新しいメモリ効率最適化フレームワークであるtextbfF$ull-$textbfR$ank $textbfU$pdates with $textbfG$r$textbfA$dient sp$textbfL$ittingを紹介します。
当社のフレームワークは,GaLoreやBAdamなど,さまざまな低ランク更新選択技術と統合することが可能です。
論文 参考訳(メタデータ) (2024-11-12T14:41:07Z) - Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [66.27334633749734]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZOZO) 最適化手法はメモリ効率の代替手段を提供する。
本稿では,SubZeroがファインチューニングを強化し,通常のZOZO手法と比較して高速な結果が得られることを示す。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - Enhancing Zeroth-order Fine-tuning for Language Models with Low-rank Structures [21.18741772731095]
ゼロ階数(ZO)アルゴリズムは、関数値の有限差を用いて勾配を近似することで、有望な代替手段を提供する。
既存のZO法は、LLM微調整で一般的な低ランク勾配構造を捉えるのに苦労し、準最適性能をもたらす。
本稿では,LLMにおけるこの構造を効果的に捕捉する低ランクZOアルゴリズム(LOZO)を提案する。
論文 参考訳(メタデータ) (2024-10-10T08:10:53Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。