論文の概要: SubTrack your Grad: Gradient Subspace Tracking for Memory and Time Efficient Full-Parameter LLM Training
- arxiv url: http://arxiv.org/abs/2502.01586v1
- Date: Mon, 03 Feb 2025 18:13:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:21:55.345361
- Title: SubTrack your Grad: Gradient Subspace Tracking for Memory and Time Efficient Full-Parameter LLM Training
- Title(参考訳): SubTrack your Grad: Gradient Subspace Tracking for Memory and Time Efficient Full-Parameter LLM Training
- Authors: Sahar Rajabi, Nayeema Nonta, Sirisha Rambhatla,
- Abstract要約: 大規模言語モデル(LLM)の訓練は、大きなモデルのサイズと状態のために、かなりの時間と計算資源を必要とする。
進化する勾配部分空間を効率的に追跡する部分空間追跡に基づく最適化手法であるSubTrack-Gradを提案する。
SubTrack-Grad は GaLore よりも優れており、BAdam よりも優れています。
- 参考スコア(独自算出の注目度): 6.057289837472806
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Training Large Language Models (LLMs) demand significant time and computational resources due to their large model sizes and optimizer states. To overcome these challenges, recent methods, such as BAdam, employ partial weight updates to enhance time and memory efficiency, though sometimes at the cost of performance. Others, like GaLore, focus on maintaining performance while optimizing memory usage through full parameter training, but may incur higher time complexity. By leveraging the low-rank structure of the gradient and the Grassmannian geometry, we propose SubTrack-Grad, a subspace tracking-based optimization method that efficiently tracks the evolving gradient subspace by incorporating estimation errors and previously identified subspaces. SubTrack-Grad delivers better or on-par results compared to GaLore, while significantly outperforming BAdam, which, despite being time-efficient, compromises performance. SubTrack-Grad reduces wall-time by up to 20.57% on GLUE tasks (15% average reduction) and up to 65% on SuperGLUE tasks (22% average reduction) compared to GaLore. Notably, for a 3B parameter model, GaLore incurred a substantial 157% increase in wall-time compared to full-rank training, whereas SubTrack-Grad exhibited a 31% increase, representing a 49% reduction in wall-time, while enjoying the same memory reductions as GaLore.
- Abstract(参考訳): 大規模言語モデル(LLM)の訓練は、大きなモデルのサイズと最適化状態のために、かなりの時間と計算資源を必要とする。
これらの課題を克服するために、BAdamのような最近の手法では、時間とメモリ効率を向上させるために部分的な重み付けが採用されている。
GaLoreのような他のツールでは、完全なパラメータトレーニングを通じてメモリ使用量を最適化しながら、パフォーマンスの維持に重点を置いている。
勾配とグラスマン幾何学の低ランク構造を利用して、推定誤差と以前に同定された部分空間を組み込んで、進化する勾配部分空間を効率的に追跡する部分空間追跡に基づく最適化手法SubTrack-Gradを提案する。
SubTrack-Grad は GaLore と比較すると,パフォーマンスの面では BAdam よりも優れています。
SubTrack-Gradは、GLUEタスクの最大20.57%、SuperGLUEタスクの最大65%(平均22%)をGaLoreと比較して削減する。
特に、3Bパラメータモデルでは、GaLoreはフルランクトレーニングに比べてウォールタイムが157%増加し、SubTrack-Gradは31%増加し、壁タイムが49%減少し、GaLoreと同じメモリダウンを享受した。
関連論文リスト
- Large Language Model Enhanced Particle Swarm Optimization for Hyperparameter Tuning for Deep Learning Models [2.3949320404005436]
Particle Swarm Optimization and Large Language Models (LLM) は、最適化とディープラーニングに個別に適用されている。
本研究は,モデル評価の低減と収束性向上のため,PLMをPSOに統合することで,このギャップに対処する。
提案手法は, 探索空間の探索を最適化し, 粒子配置を最適化する手法である。
論文 参考訳(メタデータ) (2025-04-19T00:54:59Z) - TeZO: Empowering the Low-Rankness on the Temporal Dimension in the Zeroth-Order Optimization for Fine-tuning LLMs [58.19080159470868]
モデルと時間次元の両方にわたって低ランク度をキャプチャする新しい低ランクZO推定器TeZOを提案する。
具体的には、時間次元に沿ったZO摂動を3次元テンソルとして表現し、Canonical Polyadic Decomposition (CPD)を用いて各低ランク2次元行列を抽出する。
論文 参考訳(メタデータ) (2025-01-31T11:34:03Z) - SPAM: Spike-Aware Adam with Momentum Reset for Stable LLM Training [60.9776082805359]
大規模言語モデル(LLM)は、様々なタスクにまたがる例外的なパフォーマンスを示しているが、そのトレーニングは、非常にリソース集約的で、トレーニングの不安定性に影響を受けやすいままである。
本稿では,LLMトレーニング中に観測された勾配スパイクを包括的に調査し,複数のアーキテクチャやデータセットにまたがる傾向を明らかにする。
本稿では,モーメントムリセットを用いたスパイク・アウェア・アダムを提案し,モーメントムリセットとスパイク・アウェア・クリッピングによる勾配スパイク対策について述べる。
論文 参考訳(メタデータ) (2025-01-12T15:21:22Z) - GaLore$+$: Boosting Low-Rank Adaptation for LLMs with Cross-Head Projection [17.33732087380253]
マルチヘッドアテンションのために低ランクプロジェクションを推定する際の時間消費を大幅に削減するために,クロスヘッド低ランクプロジェクションを用いたGaLore$+$を提案する。
我々の実験によると、GaLore$+$は、バニラのGaLoreに比べて、約4倍の微調整速度を達成しながら、優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-12-15T12:28:13Z) - APOLLO: SGD-like Memory, AdamW-level Performance [61.53444035835778]
大規模言語モデル(LLM)は、トレーニング中にメモリ集約的であることで知られている。
メモリ使用量を減らすために、様々なメモリ効率のScalが提案されている。
i)コストのかかるSVDオペレーション、(ii)AdamWと比較して大きなパフォーマンストレードオフ、(iii)競争性能を維持する上でのメモリオーバーヘッド、などです。
論文 参考訳(メタデータ) (2024-12-06T18:55:34Z) - COAP: Memory-Efficient Training with Correlation-Aware Gradient Projection [11.655821671462427]
トレーニング性能を維持しながら計算オーバーヘッドを最小限に抑えるメモリ効率の高いCOAPを提案する。
LLaMA-1Bでは、メモリをわずか2%追加で61%削減し、AdamWと同じPPLを実現する。
8ビット量子化により、COAPはメモリを81%削減し、LLaVA-v1.5-7BファインチューニングのためにGaLoreを4倍高速化する。
論文 参考訳(メタデータ) (2024-11-26T03:50:52Z) - AdaRankGrad: Adaptive Gradient-Rank and Moments for Memory-Efficient LLMs Training and Fine-Tuning [9.51289606759621]
大規模言語モデル(LLM)の訓練と微調整には、メモリと計算要求に関する課題が伴う。
低ランク適応(LoRA)など、これらの課題に対処する様々な技術が開発されている。
トレーニングが進むにつれて、推定勾配のランクが徐々に低下する現象に着想を得た新しい手法を導入する。
論文 参考訳(メタデータ) (2024-10-23T13:53:26Z) - Natural GaLore: Accelerating GaLore for memory-efficient LLM Training and Fine-tuning [1.3597551064547502]
GaLoreは、よりメモリ効率の良いフル教師付き学習を可能にする。
本研究はNatural GaLoreを導入し,低ランク勾配に対する逆経験的漁業情報行列を効率的に適用する。
論文 参考訳(メタデータ) (2024-10-21T14:05:06Z) - Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [63.10833446782114]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZO) 最適化手法はメモリ効率の良い代替手段を提供する。
本稿では,高次元摂動によって生じる課題に対処するために,部分空間ゼロ次最適化を提案する。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - Flat-LoRA: Low-Rank Adaption over a Flat Loss Landscape [52.98187034726091]
Low-Rank Adaptation (LoRA) は低ランク行列のみを最適化することでモデルを微調整する効率的な方法である。
ロラ空間に平坦に見える解は、全パラメータ空間に鋭い方向が存在し、一般化性能を損なう可能性がある。
フルパラメータ空間の平坦領域に位置する低ランク適応を求める効率的なアプローチであるFlat-LoRAを提案する。
論文 参考訳(メタデータ) (2024-09-22T11:24:10Z) - Q-GaLore: Quantized GaLore with INT4 Projection and Layer-Adaptive Low-Rank Gradients [86.40635601953446]
量子化と低ランク投影を組み合わせることでメモリ使用量を大幅に削減する新しい手法であるQ-Galoreを導入する。
本稿では,Q-Galoreがメモリ効率に優れた競合性能を実現することを実証する。
論文 参考訳(メタデータ) (2024-07-11T08:42:58Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - BlockLLM: Memory-Efficient Adaptation of LLMs by Selecting and Optimizing the Right Coordinate Blocks [19.007090250576585]
BlockLLMはブロック座標降下にインスパイアされたアプローチである。
微調整と事前訓練の両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-25T05:45:12Z) - GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection [133.45193150403537]
LLM(Large Language Models)のトレーニングは、重み付けやGPU状態の増大によって、メモリ上の重大な問題が発生する。
本研究では,メモリ効率のトレーニング戦略としてグラディエント・ローランド・プロジェクション(GaLore)を提案する。
私たちの8ビットのGaLoreは、BF16ベースラインと比較して、メモリを82.5%、トレーニング総メモリを63.3%削減します。
論文 参考訳(メタデータ) (2024-03-06T07:29:57Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z) - Towards Memory- and Time-Efficient Backpropagation for Training Spiking
Neural Networks [70.75043144299168]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックコンピューティングのためのエネルギー効率の高いモデルである。
本研究では,学習効率を大幅に向上させつつ,高い性能を達成できる空間学習時間(SLTT)法を提案する。
BPTTと比較して, メモリコストとトレーニング時間は, それぞれ70%以上, 50%以上削減されている。
論文 参考訳(メタデータ) (2023-02-28T05:01:01Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。