論文の概要: SubTrack++ : Gradient Subspace Tracking for Scalable LLM Training
- arxiv url: http://arxiv.org/abs/2502.01586v2
- Date: Tue, 03 Jun 2025 11:12:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 04:22:50.484832
- Title: SubTrack++ : Gradient Subspace Tracking for Scalable LLM Training
- Title(参考訳): SubTrack++ : スケーラブルLLMトレーニングのための勾配部分空間追跡
- Authors: Sahar Rajabi, Nayeema Nonta, Sirisha Rambhatla,
- Abstract要約: 大規模言語モデル(LLM)のトレーニングは、大量のパラメータと状態のオーバーヘッドのため、リソース集約性が高い。
本稿では,Glassmann的勾配部分空間追跡とプロジェクション認識を組み合わせたSubTrack++を提案する。
我々はグラスマン幾何学と最低評価損失を利用してSOTA収束を実証する。
- 参考スコア(独自算出の注目度): 6.057289837472806
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Training large language models (LLMs) is highly resource-intensive due to their massive number of parameters and the overhead of optimizer states. While recent work has aimed to reduce memory consumption, such efforts often entail trade-offs among memory efficiency, training time, and model performance. Yet, true democratization of LLMs requires simultaneous progress across all three dimensions. To this end, we propose SubTrack++ that leverages Grassmannian gradient subspace tracking combined with projection-aware optimizers, enabling Adam's internal statistics to adapt to changes in the optimization subspace. Additionally, employing recovery scaling, a technique that restores information lost through low-rank projections, further enhances model performance. Our method demonstrates SOTA convergence by exploiting Grassmannian geometry and achieves lowest evaluation loss, outperforming the current SOTA while reducing pretraining wall time by 43% and maintaining the memory footprint on a 1B-parameter Llama model.
- Abstract(参考訳): 大規模言語モデル(LLM)のトレーニングは、大量のパラメータとオプティマイザ状態のオーバーヘッドのため、リソース集約性が高い。
最近の研究は、メモリ消費を減らすことを目的としているが、そのような取り組みは、メモリ効率、トレーニング時間、モデルパフォーマンスのトレードオフを伴っていることが多い。
しかし、LSMの真の民主化は、3次元すべてに同時進行を必要とする。
そこで本稿では,Glassmann的勾配部分空間追跡とプロジェクション対応オプティマイザを組み合わせたSubTrack++を提案する。
さらに、低ランクプロジェクションで失われた情報を復元する手法であるリカバリスケーリングを採用することにより、モデル性能がさらに向上する。
提案手法は,グラスマン幾何を利用してSOTAの収束を実証し,評価損失を最小化し,従来のSOTAよりも43%低減し,メモリフットプリントを1BパラメータのLlamaモデルで維持する。
関連論文リスト
- TeZO: Empowering the Low-Rankness on the Temporal Dimension in the Zeroth-Order Optimization for Fine-tuning LLMs [58.19080159470868]
モデルと時間次元の両方にわたって低ランク度をキャプチャする新しい低ランクZO推定器TeZOを提案する。
具体的には、時間次元に沿ったZO摂動を3次元テンソルとして表現し、Canonical Polyadic Decomposition (CPD)を用いて各低ランク2次元行列を抽出する。
論文 参考訳(メタデータ) (2025-01-31T11:34:03Z) - GaLore$+$: Boosting Low-Rank Adaptation for LLMs with Cross-Head Projection [17.33732087380253]
マルチヘッドアテンションのために低ランクプロジェクションを推定する際の時間消費を大幅に削減するために,クロスヘッド低ランクプロジェクションを用いたGaLore$+$を提案する。
我々の実験によると、GaLore$+$は、バニラのGaLoreに比べて、約4倍の微調整速度を達成しながら、優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-12-15T12:28:13Z) - APOLLO: SGD-like Memory, AdamW-level Performance [61.53444035835778]
大規模言語モデル(LLM)は、トレーニング中にメモリ集約的であることで知られている。
メモリ使用量を減らすために、様々なメモリ効率のScalが提案されている。
i)コストのかかるSVDオペレーション、(ii)AdamWと比較して大きなパフォーマンストレードオフ、(iii)競争性能を維持する上でのメモリオーバーヘッド、などです。
論文 参考訳(メタデータ) (2024-12-06T18:55:34Z) - COAP: Memory-Efficient Training with Correlation-Aware Gradient Projection [11.655821671462427]
トレーニング性能を維持しながら計算オーバーヘッドを最小限に抑えるメモリ効率の高いCOAPを提案する。
LLaMA-1Bでは、メモリをわずか2%追加で61%削減し、AdamWと同じPPLを実現する。
8ビット量子化により、COAPはメモリを81%削減し、LLaVA-v1.5-7BファインチューニングのためにGaLoreを4倍高速化する。
論文 参考訳(メタデータ) (2024-11-26T03:50:52Z) - Natural GaLore: Accelerating GaLore for memory-efficient LLM Training and Fine-tuning [1.3597551064547502]
GaLoreは、よりメモリ効率の良いフル教師付き学習を可能にする。
本研究はNatural GaLoreを導入し,低ランク勾配に対する逆経験的漁業情報行列を効率的に適用する。
論文 参考訳(メタデータ) (2024-10-21T14:05:06Z) - Flat-LoRA: Low-Rank Adaption over a Flat Loss Landscape [52.98187034726091]
Low-Rank Adaptation (LoRA) は低ランク行列のみを最適化することでモデルを微調整する効率的な方法である。
ロラ空間に平坦に見える解は、全パラメータ空間に鋭い方向が存在し、一般化性能を損なう可能性がある。
フルパラメータ空間の平坦領域に位置する低ランク適応を求める効率的なアプローチであるFlat-LoRAを提案する。
論文 参考訳(メタデータ) (2024-09-22T11:24:10Z) - Q-GaLore: Quantized GaLore with INT4 Projection and Layer-Adaptive Low-Rank Gradients [86.40635601953446]
量子化と低ランク投影を組み合わせることでメモリ使用量を大幅に削減する新しい手法であるQ-Galoreを導入する。
本稿では,Q-Galoreがメモリ効率に優れた競合性能を実現することを実証する。
論文 参考訳(メタデータ) (2024-07-11T08:42:58Z) - GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection [133.45193150403537]
LLM(Large Language Models)のトレーニングは、重み付けやGPU状態の増大によって、メモリ上の重大な問題が発生する。
本研究では,メモリ効率のトレーニング戦略としてグラディエント・ローランド・プロジェクション(GaLore)を提案する。
私たちの8ビットのGaLoreは、BF16ベースラインと比較して、メモリを82.5%、トレーニング総メモリを63.3%削減します。
論文 参考訳(メタデータ) (2024-03-06T07:29:57Z) - Towards Memory- and Time-Efficient Backpropagation for Training Spiking
Neural Networks [70.75043144299168]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックコンピューティングのためのエネルギー効率の高いモデルである。
本研究では,学習効率を大幅に向上させつつ,高い性能を達成できる空間学習時間(SLTT)法を提案する。
BPTTと比較して, メモリコストとトレーニング時間は, それぞれ70%以上, 50%以上削減されている。
論文 参考訳(メタデータ) (2023-02-28T05:01:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。