論文の概要: GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection
- arxiv url: http://arxiv.org/abs/2403.03507v2
- Date: Sun, 2 Jun 2024 21:24:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 16:08:41.866695
- Title: GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection
- Title(参考訳): GaLore: グラディエント低ランク投影によるメモリ効率のLLMトレーニング
- Authors: Jiawei Zhao, Zhenyu Zhang, Beidi Chen, Zhangyang Wang, Anima Anandkumar, Yuandong Tian,
- Abstract要約: LLM(Large Language Models)のトレーニングは、重み付けやGPU状態の増大によって、メモリ上の重大な問題が発生する。
本研究では,メモリ効率のトレーニング戦略としてグラディエント・ローランド・プロジェクション(GaLore)を提案する。
私たちの8ビットのGaLoreは、BF16ベースラインと比較して、メモリを82.5%、トレーニング総メモリを63.3%削減します。
- 参考スコア(独自算出の注目度): 133.45193150403537
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training Large Language Models (LLMs) presents significant memory challenges, predominantly due to the growing size of weights and optimizer states. Common memory-reduction approaches, such as low-rank adaptation (LoRA), add a trainable low-rank matrix to the frozen pre-trained weight in each layer, reducing trainable parameters and optimizer states. However, such approaches typically underperform training with full-rank weights in both pre-training and fine-tuning stages since they limit the parameter search to a low-rank subspace and alter the training dynamics, and further, may require full-rank warm start. In this work, we propose Gradient Low-Rank Projection (GaLore), a training strategy that allows full-parameter learning but is more memory-efficient than common low-rank adaptation methods such as LoRA. Our approach reduces memory usage by up to 65.5% in optimizer states while maintaining both efficiency and performance for pre-training on LLaMA 1B and 7B architectures with C4 dataset with up to 19.7B tokens, and on fine-tuning RoBERTa on GLUE tasks. Our 8-bit GaLore further reduces optimizer memory by up to 82.5% and total training memory by 63.3%, compared to a BF16 baseline. Notably, we demonstrate, for the first time, the feasibility of pre-training a 7B model on consumer GPUs with 24GB memory (e.g., NVIDIA RTX 4090) without model parallel, checkpointing, or offloading strategies.
- Abstract(参考訳): LLM(Large Language Models)のトレーニングは、重み付けと最適化状態の増大により、大きなメモリ問題を引き起こす。
ローランク適応(LoRA)のような一般的なメモリ削減手法は、各層の凍結事前学習重量にトレーニング可能なローランク行列を追加し、トレーニング可能なパラメータとオプティマイザ状態を削減する。
しかし、これらの手法は、パラメータ探索を低ランクのサブスペースに制限し、トレーニングダイナミクスを変更し、さらにフルランクのウォームスタートを必要とするため、トレーニング前のトレーニングと微調整の段階で、フルランクのウェイトでトレーニングを行うのが一般的である。
本研究では,全パラメータ学習が可能な学習戦略であるGradient Low-Rank Projection (GaLore)を提案する。
提案手法では,最大19.7BトークンのC4データセットによるLLaMA 1Bおよび7Bアーキテクチャの事前トレーニングと,GLUEタスク上でのRoBERTaの微調整により,メモリ使用量を最大65.5%削減する。
私たちの8ビットのGaLoreは、BF16ベースラインと比較して、最適化メモリを最大82.5%、トレーニングメモリを63.3%削減します。
特に、モデル並列、チェックポイント、またはオフロード戦略を使わずに、24GBのメモリを持つコンシューマGPU(NVIDIA RTX 4090など)で7Bモデルを事前トレーニングする可能性を示す。
関連論文リスト
- Q-GaLore: Quantized GaLore with INT4 Projection and Layer-Adaptive Low-Rank Gradients [86.40635601953446]
量子化と低ランク投影を組み合わせることでメモリ使用量を大幅に削減する新しい手法であるQ-Galoreを導入する。
本稿では,Q-Galoreがメモリ効率に優れた競合性能を実現することを実証する。
論文 参考訳(メタデータ) (2024-07-11T08:42:58Z) - Grass: Compute Efficient Low-Memory LLM Training with Structured Sparse Gradients [24.58231358634904]
大規模言語モデル(LLM)のトレーニングと微調整は、しばしば限られたGPUメモリによってボトルネックとなる。
グラス(GRAdient Stuctured Sparsification,GRAdient Stuctured Sparsification,GRAdient Stuctured Sparsification)は、スパースプロジェクションを利用して勾配を構造化されたスパース更新に変換する新しい手法である。
論文 参考訳(メタデータ) (2024-06-25T15:50:32Z) - BlockLLM: Memory-Efficient Adaptation of LLMs by Selecting and Optimizing the Right Coordinate Blocks [19.007090250576585]
BlockLLMはブロック座標降下にインスパイアされたアプローチである。
微調整と事前訓練の両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-25T05:45:12Z) - SLTrain: a sparse plus low-rank approach for parameter and memory efficient pretraining [39.56934385513862]
大規模言語モデル(LLM)をゼロから訓練するには、計算能力と広範なメモリ容量が必要である。
最近の研究では、パラメータとメモリの点で効率的な微調整のための重量の低ランク構造を探索している。
本稿では,SLTrain と呼ばれる事前学習用低ランク行列とスパース行列の和として重みをパラメータ化することを提案する。
論文 参考訳(メタデータ) (2024-06-04T11:14:21Z) - FinGPT-HPC: Efficient Pretraining and Finetuning Large Language Models
for Financial Applications with High-Performance Computing [10.47214968497857]
本稿では,低ランク構造を利用した大規模言語モデルの事前学習と微調整を行う高性能手法を提案する。
本手法は精度低下を伴わずに保持できる1.3Xの高速化と2.64Xのモデル圧縮比を実現する。
ファインタニングでは,一般タスクと財務タスクの平均精度が6.3%,24.0%向上した。
論文 参考訳(メタデータ) (2024-02-21T05:03:17Z) - Time-, Memory- and Parameter-Efficient Visual Adaptation [75.28557015773217]
バックボーンを介して勾配をバックプロパゲートしない適応法を提案する。
凍結した、事前訓練されたバックボーンの機能を利用する軽量ネットワークを並列に設計することで、これを実現する。
論文 参考訳(メタデータ) (2024-02-05T10:55:47Z) - ROAM: memory-efficient large DNN training via optimized operator
ordering and memory layout [8.99065455675796]
本稿では,演算子順序とテンソルメモリレイアウトを最適化したメモリ効率の高い実行計画の導出のために,グラフレベルで動作するROAMを提案する。
実験の結果、ROAMはPytorchと2つの最先端手法と比較して35.7%、13.3%、27.2%の大幅なメモリ削減を実現し、53.7倍の高速化を実現している。
論文 参考訳(メタデータ) (2023-10-30T06:29:21Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - Full Parameter Fine-tuning for Large Language Models with Limited Resources [55.794732214059806]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、トレーニングには大量のGPUリソースを必要としている。
我々は,メモリ使用量を削減するために,勾配とパラメータの更新を1ステップで融合する新しい計算,LOMO(LOw-Memory Optimization)を提案する。
論文 参考訳(メタデータ) (2023-06-16T11:37:15Z) - LST: Ladder Side-Tuning for Parameter and Memory Efficient Transfer
Learning [82.93130407930762]
大規模な事前訓練されたモデルのパラメータセット全体を更新するのはコストがかかる。
PETL技術は、トレーニング済みのバックボーンネットワーク内のパラメータの小さなサブセットを更新して、新しいタスクを実行できる。
本稿では,学習用メモリの必要量を大幅に削減するPETL技術であるLadder Side-Tuning (LST)を提案する。
論文 参考訳(メタデータ) (2022-06-13T23:51:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。