論文の概要: FOAM: Blocked State Folding for Memory-Efficient LLM Training
- arxiv url: http://arxiv.org/abs/2512.07112v1
- Date: Mon, 08 Dec 2025 02:48:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.686656
- Title: FOAM: Blocked State Folding for Memory-Efficient LLM Training
- Title(参考訳): FOAM: メモリ効率のよいLLMトレーニングのためのブロッキングステートフォールディング
- Authors: Ziqing Wen, Jiahuan Wang, Ping Luo, Dongsheng Li, Tao Sun,
- Abstract要約: 大規模言語モデル (LLM) は, パラメータ数と広範囲なトレーニングデータにより, 顕著な性能を示した。
しかしながら、これらのスケールは、特にAdamのようなメモリ集約型を使用する場合、トレーニング中に大きなメモリボトルネックを引き起こす。
本稿では,ブロックワイズ方式で状態を圧縮し,勾配補正を組み込んで損失情報を復元するFolded with Approximate Moment (FOAM)を提案する。
- 参考スコア(独自算出の注目度): 41.8909496809588
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have demonstrated remarkable performance due to their large parameter counts and extensive training data. However, their scale leads to significant memory bottlenecks during training, especially when using memory-intensive optimizers like Adam. Existing memory-efficient approaches often rely on techniques such as singular value decomposition (SVD), projections, or weight freezing, which can introduce substantial computational overhead, require additional memory for projections, or degrade model performance. In this paper, we propose Folded Optimizer with Approximate Moment (FOAM), a method that compresses optimizer states by computing block-wise gradient means and incorporates a residual correction to recover lost information. Theoretically, FOAM achieves convergence rates equivalent to vanilla Adam under standard non-convex optimization settings. Empirically, FOAM reduces total training memory by approximately 50\%, eliminates up to 90\% of optimizer state memory overhead, and accelerates convergence. Furthermore, FOAM is compatible with other memory-efficient optimizers, delivering performance and throughput that match or surpass both full-rank and existing memory-efficient baselines.
- Abstract(参考訳): 大規模言語モデル (LLM) は, パラメータ数と広範囲なトレーニングデータにより, 顕著な性能を示した。
しかし、これらのスケールは、特にAdamのようなメモリ集約型のオプティマイザを使用する場合、トレーニング中に大きなメモリボトルネックを引き起こす。
既存のメモリ効率のアプローチは、特異値分解(SVD)、投射、重量凍結といった手法に頼っていることが多く、これは計算オーバーヘッドを大幅に増加させ、投射のために追加のメモリを必要とする。
本稿では,ブロックワイド勾配手段を用いて最適化状態の圧縮を行うFolded Optimizer with Approximate Moment (FOAM)を提案する。
理論的には、FOAMは標準的な非凸最適化設定の下でバニラ・アダムと同等の収束率を達成する。
実証的には、FOAMはトレーニング全体のメモリを約50%削減し、最大90%のオプティマイザ状態メモリオーバーヘッドを排除し、コンバージェンスを加速する。
さらに、FOAMは他のメモリ効率の良いオプティマイザと互換性があり、パフォーマンスとスループットを提供し、フルランクと既存のメモリ効率のベースラインに匹敵する。
関連論文リスト
- Wavelet Meets Adam: Compressing Gradients for Memory-Efficient Training [45.225732322141994]
大規模言語モデル(LLM)は、さまざまな自然言語処理タスクで優れたパフォーマンスを発揮する。
彼らの膨大な数のパラメータは、トレーニング中に大きな記憶障害を引き起こします。
既存のメモリ効率のアルゴリズムは、特異値分解プロジェクションや重み凍結のような技術に依存していることが多い。
本稿では,グラディエントウェーブレット変換(GWT)と呼ばれる新しい解を提案する。
論文 参考訳(メタデータ) (2025-01-13T11:35:09Z) - APOLLO: SGD-like Memory, AdamW-level Performance [61.53444035835778]
大規模言語モデル(LLM)は、トレーニング中にメモリ集約的であることで知られている。
メモリ使用量を減らすために、様々なメモリ効率のScalが提案されている。
i)コストのかかるSVDオペレーション、(ii)AdamWと比較して大きなパフォーマンストレードオフ、(iii)競争性能を維持する上でのメモリオーバーヘッド、などです。
論文 参考訳(メタデータ) (2024-12-06T18:55:34Z) - COAP: Memory-Efficient Training with Correlation-Aware Gradient Projection [17.54863041098623]
トレーニング性能を維持しながら計算オーバーヘッドを最小限に抑えるメモリ効率の高いCOAPを提案する。
LLaMA-1Bでは、メモリをわずか2%追加で61%削減し、AdamWと同じPPLを実現する。
8ビット量子化により、COAPはメモリを81%削減し、LLaVA-v1.5-7BファインチューニングのためにGaLoreを4倍高速化する。
論文 参考訳(メタデータ) (2024-11-26T03:50:52Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。