Fugu-MT 論文翻訳(概要): GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection

論文の概要: GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection

arxiv url: http://arxiv.org/abs/2403.03507v2
Date: Sun, 2 Jun 2024 21:24:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-04 16:08:41.866695
Title: GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection
Title（参考訳）: GaLore: グラディエント低ランク投影によるメモリ効率のLLMトレーニング
Authors: Jiawei Zhao, Zhenyu Zhang, Beidi Chen, Zhangyang Wang, Anima Anandkumar, Yuandong Tian,
Abstract要約: LLM(Large Language Models)のトレーニングは、重み付けやGPU状態の増大によって、メモリ上の重大な問題が発生する。本研究では,メモリ効率のトレーニング戦略としてグラディエント・ローランド・プロジェクション(GaLore)を提案する。私たちの8ビットのGaLoreは、BF16ベースラインと比較して、メモリを82.5%、トレーニング総メモリを63.3%削減します。
参考スコア（独自算出の注目度）: 133.45193150403537
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Training Large Language Models (LLMs) presents significant memory challenges, predominantly due to the growing size of weights and optimizer states. Common memory-reduction approaches, such as low-rank adaptation (LoRA), add a trainable low-rank matrix to the frozen pre-trained weight in each layer, reducing trainable parameters and optimizer states. However, such approaches typically underperform training with full-rank weights in both pre-training and fine-tuning stages since they limit the parameter search to a low-rank subspace and alter the training dynamics, and further, may require full-rank warm start. In this work, we propose Gradient Low-Rank Projection (GaLore), a training strategy that allows full-parameter learning but is more memory-efficient than common low-rank adaptation methods such as LoRA. Our approach reduces memory usage by up to 65.5% in optimizer states while maintaining both efficiency and performance for pre-training on LLaMA 1B and 7B architectures with C4 dataset with up to 19.7B tokens, and on fine-tuning RoBERTa on GLUE tasks. Our 8-bit GaLore further reduces optimizer memory by up to 82.5% and total training memory by 63.3%, compared to a BF16 baseline. Notably, we demonstrate, for the first time, the feasibility of pre-training a 7B model on consumer GPUs with 24GB memory (e.g., NVIDIA RTX 4090) without model parallel, checkpointing, or offloading strategies.
Abstract（参考訳）: LLM(Large Language Models)のトレーニングは、重み付けと最適化状態の増大により、大きなメモリ問題を引き起こす。ローランク適応(LoRA)のような一般的なメモリ削減手法は、各層の凍結事前学習重量にトレーニング可能なローランク行列を追加し、トレーニング可能なパラメータとオプティマイザ状態を削減する。しかし、これらの手法は、パラメータ探索を低ランクのサブスペースに制限し、トレーニングダイナミクスを変更し、さらにフルランクのウォームスタートを必要とするため、トレーニング前のトレーニングと微調整の段階で、フルランクのウェイトでトレーニングを行うのが一般的である。本研究では,全パラメータ学習が可能な学習戦略であるGradient Low-Rank Projection (GaLore)を提案する。提案手法では,最大19.7BトークンのC4データセットによるLLaMA 1Bおよび7Bアーキテクチャの事前トレーニングと,GLUEタスク上でのRoBERTaの微調整により,メモリ使用量を最大65.5%削減する。私たちの8ビットのGaLoreは、BF16ベースラインと比較して、最適化メモリを最大82.5%、トレーニングメモリを63.3%削減します。特に、モデル並列、チェックポイント、またはオフロード戦略を使わずに、24GBのメモリを持つコンシューマGPU(NVIDIA RTX 4090など)で7Bモデルを事前トレーニングする可能性を示す。

関連論文リスト

Gradient Weight-normalized Low-rank Projection for Efficient LLM Training [16.00576040281808]
大規模言語モデル(LLM)は様々なタスクにおいて顕著な性能を示してきたが、計算資源に対する需要の増大は大きな課題となっている。これを解決するために、パラメータ効率のよい微細チューニング法(PEFT)が開発されているが、完全な微細チューニングに比べて性能が劣ることが多い。我々はGradNormLoRPを導入し、パラメータとメモリ効率を両立させながら、完全な微調整に匹敵する性能を維持した。
論文参考訳（メタデータ） (2024-12-27T12:23:39Z)
APOLLO: SGD-like Memory, AdamW-level Performance [61.53444035835778]
大規模言語モデル(LLM)は、トレーニング中にメモリ集約的であることで知られている。メモリ使用量を減らすために、様々なメモリ効率のScalが提案されている。 i)コストのかかるSVDオペレーション、(ii)AdamWと比較して大きなパフォーマンストレードオフ、(iii)競争性能を維持する上でのメモリオーバーヘッド、などです。
論文参考訳（メタデータ） (2024-12-06T18:55:34Z)
COAP: Memory-Efficient Training with Correlation-Aware Gradient Projection [17.54863041098623]
トレーニング性能を維持しながら計算オーバーヘッドを最小限に抑えるメモリ効率の高いCOAPを提案する。 LLaMA-1Bでは、メモリをわずか2%追加で61%削減し、AdamWと同じPPLを実現する。 8ビット量子化により、COAPはメモリを81%削減し、LLaVA-v1.5-7BファインチューニングのためにGaLoreを4倍高速化する。
論文参考訳（メタデータ） (2024-11-26T03:50:52Z)
Natural GaLore: Accelerating GaLore for memory-efficient LLM Training and Fine-tuning [1.3597551064547502]
GaLoreは、よりメモリ効率の良いフル教師付き学習を可能にする。本研究はNatural GaLoreを導入し,低ランク勾配に対する逆経験的漁業情報行列を効率的に適用する。
論文参考訳（メタデータ） (2024-10-21T14:05:06Z)
CompAct: Compressed Activations for Memory-Efficient LLM Training [7.837209773889032]
CompActはGPU上でのピークメモリ利用を事前トレーニングで25～30%削減し、LLMの微調整で50%削減する技術である。低ランクで圧縮されたアクティベーションを後方パスに格納することで、必要なメモリを大幅に削減する。 CompActの貯蓄は、より大きなモデルに対してさらに高いスケールを期待しています。
論文参考訳（メタデータ） (2024-10-20T10:24:38Z)
Q-GaLore: Quantized GaLore with INT4 Projection and Layer-Adaptive Low-Rank Gradients [86.40635601953446]
量子化と低ランク投影を組み合わせることでメモリ使用量を大幅に削減する新しい手法であるQ-Galoreを導入する。本稿では,Q-Galoreがメモリ効率に優れた競合性能を実現することを実証する。
論文参考訳（メタデータ） (2024-07-11T08:42:58Z)
BlockLLM: Memory-Efficient Adaptation of LLMs by Selecting and Optimizing the Right Coordinate Blocks [19.007090250576585]
BlockLLMはブロック座標降下にインスパイアされたアプローチである。微調整と事前訓練の両方で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-06-25T05:45:12Z)
SLTrain: a sparse plus low-rank approach for parameter and memory efficient pretraining [39.56934385513862]
大規模言語モデル(LLM)をゼロから訓練するには、計算能力と広範なメモリ容量が必要である。最近の研究では、パラメータとメモリの点で効率的な微調整のための重量の低ランク構造を探索している。本稿では,SLTrain と呼ばれる事前学習用低ランク行列とスパース行列の和として重みをパラメータ化することを提案する。
論文参考訳（メタデータ） (2024-06-04T11:14:21Z)
FinGPT-HPC: Efficient Pretraining and Finetuning Large Language Models for Financial Applications with High-Performance Computing [10.47214968497857]
本稿では,低ランク構造を利用した大規模言語モデルの事前学習と微調整を行う高性能手法を提案する。本手法は精度低下を伴わずに保持できる1.3Xの高速化と2.64Xのモデル圧縮比を実現する。ファインタニングでは,一般タスクと財務タスクの平均精度が6.3%,24.0%向上した。
論文参考訳（メタデータ） (2024-02-21T05:03:17Z)
Time-, Memory- and Parameter-Efficient Visual Adaptation [75.28557015773217]
バックボーンを介して勾配をバックプロパゲートしない適応法を提案する。凍結した、事前訓練されたバックボーンの機能を利用する軽量ネットワークを並列に設計することで、これを実現する。
論文参考訳（メタデータ） (2024-02-05T10:55:47Z)
AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。 AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文参考訳（メタデータ） (2023-10-16T09:04:28Z)
Full Parameter Fine-tuning for Large Language Models with Limited Resources [55.794732214059806]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、トレーニングには大量のGPUリソースを必要としている。我々は,メモリ使用量を削減するために,勾配とパラメータの更新を1ステップで融合する新しい計算,LOMO(LOw-Memory Optimization)を提案する。
論文参考訳（メタデータ） (2023-06-16T11:37:15Z)
LST: Ladder Side-Tuning for Parameter and Memory Efficient Transfer Learning [82.93130407930762]
大規模な事前訓練されたモデルのパラメータセット全体を更新するのはコストがかかる。 PETL技術は、トレーニング済みのバックボーンネットワーク内のパラメータの小さなサブセットを更新して、新しいタスクを実行できる。本稿では,学習用メモリの必要量を大幅に削減するPETL技術であるLadder Side-Tuning (LST)を提案する。
論文参考訳（メタデータ） (2022-06-13T23:51:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。