論文の概要: SubTrack your Grad: Gradient Subspace Tracking for Memory and Time Efficient Full-Parameter LLM Training
- arxiv url: http://arxiv.org/abs/2502.01586v1
- Date: Mon, 03 Feb 2025 18:13:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:57:49.989487
- Title: SubTrack your Grad: Gradient Subspace Tracking for Memory and Time Efficient Full-Parameter LLM Training
- Title(参考訳): SubTrack your Grad: Gradient Subspace Tracking for Memory and Time Efficient Full-Parameter LLM Training
- Authors: Sahar Rajabi, Nayeema Nonta, Sirisha Rambhatla,
- Abstract要約: 大規模言語モデル(LLM)の訓練は、大きなモデルのサイズと状態のために、かなりの時間と計算資源を必要とする。
進化する勾配部分空間を効率的に追跡する部分空間追跡に基づく最適化手法であるSubTrack-Gradを提案する。
SubTrack-Grad は GaLore よりも優れており、BAdam よりも優れています。
- 参考スコア(独自算出の注目度): 6.057289837472806
- License:
- Abstract: Training Large Language Models (LLMs) demand significant time and computational resources due to their large model sizes and optimizer states. To overcome these challenges, recent methods, such as BAdam, employ partial weight updates to enhance time and memory efficiency, though sometimes at the cost of performance. Others, like GaLore, focus on maintaining performance while optimizing memory usage through full parameter training, but may incur higher time complexity. By leveraging the low-rank structure of the gradient and the Grassmannian geometry, we propose SubTrack-Grad, a subspace tracking-based optimization method that efficiently tracks the evolving gradient subspace by incorporating estimation errors and previously identified subspaces. SubTrack-Grad delivers better or on-par results compared to GaLore, while significantly outperforming BAdam, which, despite being time-efficient, compromises performance. SubTrack-Grad reduces wall-time by up to 20.57% on GLUE tasks (15% average reduction) and up to 65% on SuperGLUE tasks (22% average reduction) compared to GaLore. Notably, for a 3B parameter model, GaLore incurred a substantial 157% increase in wall-time compared to full-rank training, whereas SubTrack-Grad exhibited a 31% increase, representing a 49% reduction in wall-time, while enjoying the same memory reductions as GaLore.
- Abstract(参考訳): 大規模言語モデル(LLM)の訓練は、大きなモデルのサイズと最適化状態のために、かなりの時間と計算資源を必要とする。
これらの課題を克服するために、BAdamのような最近の手法では、時間とメモリ効率を向上させるために部分的な重み付けが採用されている。
GaLoreのような他のツールでは、完全なパラメータトレーニングを通じてメモリ使用量を最適化しながら、パフォーマンスの維持に重点を置いている。
勾配とグラスマン幾何学の低ランク構造を利用して、推定誤差と以前に同定された部分空間を組み込んで、進化する勾配部分空間を効率的に追跡する部分空間追跡に基づく最適化手法SubTrack-Gradを提案する。
SubTrack-Grad は GaLore と比較すると,パフォーマンスの面では BAdam よりも優れています。
SubTrack-Gradは、GLUEタスクの最大20.57%、SuperGLUEタスクの最大65%(平均22%)をGaLoreと比較して削減する。
特に、3Bパラメータモデルでは、GaLoreはフルランクトレーニングに比べてウォールタイムが157%増加し、SubTrack-Gradは31%増加し、壁タイムが49%減少し、GaLoreと同じメモリダウンを享受した。
関連論文リスト
- TeZO: Empowering the Low-Rankness on the Temporal Dimension in the Zeroth-Order Optimization for Fine-tuning LLMs [58.19080159470868]
モデルと時間次元の両方にわたって低ランク度をキャプチャする新しい低ランクZO推定器TeZOを提案する。
具体的には、時間次元に沿ったZO摂動を3次元テンソルとして表現し、Canonical Polyadic Decomposition (CPD)を用いて各低ランク2次元行列を抽出する。
論文 参考訳(メタデータ) (2025-01-31T11:34:03Z) - GaLore$+$: Boosting Low-Rank Adaptation for LLMs with Cross-Head Projection [17.33732087380253]
マルチヘッドアテンションのために低ランクプロジェクションを推定する際の時間消費を大幅に削減するために,クロスヘッド低ランクプロジェクションを用いたGaLore$+$を提案する。
我々の実験によると、GaLore$+$は、バニラのGaLoreに比べて、約4倍の微調整速度を達成しながら、優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-12-15T12:28:13Z) - APOLLO: SGD-like Memory, AdamW-level Performance [61.53444035835778]
大規模言語モデル(LLM)は、トレーニング中にメモリ集約的であることで知られている。
メモリ使用量を減らすために、様々なメモリ効率のScalが提案されている。
i)コストのかかるSVDオペレーション、(ii)AdamWと比較して大きなパフォーマンストレードオフ、(iii)競争性能を維持する上でのメモリオーバーヘッド、などです。
論文 参考訳(メタデータ) (2024-12-06T18:55:34Z) - COAP: Memory-Efficient Training with Correlation-Aware Gradient Projection [11.655821671462427]
トレーニング性能を維持しながら計算オーバーヘッドを最小限に抑えるメモリ効率の高いCOAPを提案する。
LLaMA-1Bでは、メモリをわずか2%追加で61%削減し、AdamWと同じPPLを実現する。
8ビット量子化により、COAPはメモリを81%削減し、LLaVA-v1.5-7BファインチューニングのためにGaLoreを4倍高速化する。
論文 参考訳(メタデータ) (2024-11-26T03:50:52Z) - Natural GaLore: Accelerating GaLore for memory-efficient LLM Training and Fine-tuning [1.3597551064547502]
GaLoreは、よりメモリ効率の良いフル教師付き学習を可能にする。
本研究はNatural GaLoreを導入し,低ランク勾配に対する逆経験的漁業情報行列を効率的に適用する。
論文 参考訳(メタデータ) (2024-10-21T14:05:06Z) - Flat-LoRA: Low-Rank Adaption over a Flat Loss Landscape [52.98187034726091]
Low-Rank Adaptation (LoRA) は低ランク行列のみを最適化することでモデルを微調整する効率的な方法である。
ロラ空間に平坦に見える解は、全パラメータ空間に鋭い方向が存在し、一般化性能を損なう可能性がある。
フルパラメータ空間の平坦領域に位置する低ランク適応を求める効率的なアプローチであるFlat-LoRAを提案する。
論文 参考訳(メタデータ) (2024-09-22T11:24:10Z) - Q-GaLore: Quantized GaLore with INT4 Projection and Layer-Adaptive Low-Rank Gradients [86.40635601953446]
量子化と低ランク投影を組み合わせることでメモリ使用量を大幅に削減する新しい手法であるQ-Galoreを導入する。
本稿では,Q-Galoreがメモリ効率に優れた競合性能を実現することを実証する。
論文 参考訳(メタデータ) (2024-07-11T08:42:58Z) - GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection [133.45193150403537]
LLM(Large Language Models)のトレーニングは、重み付けやGPU状態の増大によって、メモリ上の重大な問題が発生する。
本研究では,メモリ効率のトレーニング戦略としてグラディエント・ローランド・プロジェクション(GaLore)を提案する。
私たちの8ビットのGaLoreは、BF16ベースラインと比較して、メモリを82.5%、トレーニング総メモリを63.3%削減します。
論文 参考訳(メタデータ) (2024-03-06T07:29:57Z) - Towards Memory- and Time-Efficient Backpropagation for Training Spiking
Neural Networks [70.75043144299168]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックコンピューティングのためのエネルギー効率の高いモデルである。
本研究では,学習効率を大幅に向上させつつ,高い性能を達成できる空間学習時間(SLTT)法を提案する。
BPTTと比較して, メモリコストとトレーニング時間は, それぞれ70%以上, 50%以上削減されている。
論文 参考訳(メタデータ) (2023-02-28T05:01:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。