論文の概要: GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection
- arxiv url: http://arxiv.org/abs/2403.03507v1
- Date: Wed, 6 Mar 2024 07:29:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 15:55:06.309149
- Title: GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection
- Title(参考訳): GaLore: グラディエント低ランク投影によるメモリ効率のLLMトレーニング
- Authors: Jiawei Zhao, Zhenyu Zhang, Beidi Chen, Zhangyang Wang, Anima
Anandkumar, Yuandong Tian
- Abstract要約: LLM(Large Language Models)のトレーニングは、重み付けやGPU状態の増大によって、メモリ上の重大な問題が発生する。
本研究では,メモリ効率のトレーニング戦略としてグラディエント・ローランド・プロジェクション(GaLore)を提案する。
私たちの8ビットのGaLoreは、BF16ベースラインと比較して、メモリを82.5%、トレーニング総メモリを63.3%削減します。
- 参考スコア(独自算出の注目度): 139.19973370560533
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training Large Language Models (LLMs) presents significant memory challenges,
predominantly due to the growing size of weights and optimizer states. Common
memory-reduction approaches, such as low-rank adaptation (LoRA), add a
trainable low-rank matrix to the frozen pre-trained weight in each layer,
reducing trainable parameters and optimizer states. However, such approaches
typically underperform training with full-rank weights in both pre-training and
fine-tuning stages since they limit the parameter search to a low-rank subspace
and alter the training dynamics, and further, may require full-rank warm start.
In this work, we propose Gradient Low-Rank Projection (GaLore), a training
strategy that allows full-parameter learning but is more memory-efficient than
common low-rank adaptation methods such as LoRA. Our approach reduces memory
usage by up to 65.5% in optimizer states while maintaining both efficiency and
performance for pre-training on LLaMA 1B and 7B architectures with C4 dataset
with up to 19.7B tokens, and on fine-tuning RoBERTa on GLUE tasks. Our 8-bit
GaLore further reduces optimizer memory by up to 82.5% and total training
memory by 63.3%, compared to a BF16 baseline. Notably, we demonstrate, for the
first time, the feasibility of pre-training a 7B model on consumer GPUs with
24GB memory (e.g., NVIDIA RTX 4090) without model parallel, checkpointing, or
offloading strategies.
- Abstract(参考訳): LLM(Large Language Models)のトレーニングは、重み付けと最適化状態の増大により、大きなメモリ問題を引き起こす。
ローランク適応(LoRA)のような一般的なメモリ削減手法は、各層の凍結事前学習重量にトレーニング可能なローランク行列を追加し、トレーニング可能なパラメータとオプティマイザ状態を削減する。
しかし、そのようなアプローチは、パラメータ探索を低ランクのサブスペースに制限し、トレーニングダイナミクスを変化させるので、事前訓練と微調整の両方においてフルランクの重みを持つトレーニングを過小評価し、さらにフルランクのウォームスタートを必要とする。
本研究では,フルパラメータ学習を可能にするがloraのような一般的な低ランク適応法よりもメモリ効率が高い学習戦略である勾配低ランクプロジェクション(galore)を提案する。
本手法は,最大19.7bトークンのc4データセットを用いたllama 1bおよび7bアーキテクチャの事前トレーニングの効率と性能を維持しつつ,最大65.5%のオプティマイザ状態のメモリ使用量を削減する。
8ビットガロアにより、最大82.5%のオプティマイザメモリと、bf16ベースラインと比較して63.3%のトレーニングメモリが削減された。
特に、モデル並列、チェックポイント、またはオフロード戦略を使わずに、24GBメモリ(NVIDIA RTX 4090など)のコンシューマGPU上で7Bモデルを事前トレーニングする可能性を示す。
関連論文リスト
- FinGPT-HPC: Efficient Pretraining and Finetuning Large Language Models
for Financial Applications with High-Performance Computing [10.47214968497857]
本稿では,低ランク構造を利用した大規模言語モデルの事前学習と微調整を行う高性能手法を提案する。
本手法は精度低下を伴わずに保持できる1.3Xの高速化と2.64Xのモデル圧縮比を実現する。
ファインタニングでは,一般タスクと財務タスクの平均精度が6.3%,24.0%向上した。
論文 参考訳(メタデータ) (2024-02-21T05:03:17Z) - Time-, Memory- and Parameter-Efficient Visual Adaptation [75.28557015773217]
バックボーンを介して勾配をバックプロパゲートしない適応法を提案する。
凍結した、事前訓練されたバックボーンの機能を利用する軽量ネットワークを並列に設計することで、これを実現する。
論文 参考訳(メタデータ) (2024-02-05T10:55:47Z) - APT: Adaptive Pruning and Tuning Pretrained Language Models for
Efficient Training and Inference [71.39286164015104]
大規模言語モデル(LM)による微調整と推論は一般的に高価であることが知られている。
LMのパラメータを適応的にプーンし調整するAPTを導入する。
APTは、LMの微調整を最大8倍高速化し、LMのメモリトレーニングのフットプリントを最大70%削減する。
論文 参考訳(メタデータ) (2024-01-22T18:39:40Z) - ROAM: memory-efficient large DNN training via optimized operator
ordering and memory layout [8.99065455675796]
本稿では,演算子順序とテンソルメモリレイアウトを最適化したメモリ効率の高い実行計画の導出のために,グラフレベルで動作するROAMを提案する。
実験の結果、ROAMはPytorchと2つの最先端手法と比較して35.7%、13.3%、27.2%の大幅なメモリ削減を実現し、53.7倍の高速化を実現している。
論文 参考訳(メタデータ) (2023-10-30T06:29:21Z) - FP8-LM: Training FP8 Large Language Models [47.17804713425323]
本稿では,大規模言語モデルの学習のためのFP8自動混合精度フレームワークを提案する。
実験の結果,H100 GPUプラットフォーム上でのGPT-175Bモデルのトレーニングにおいて,我々のFP8混合精度トレーニングフレームワークは,実際のメモリ使用量の39%削減だけでなく,広く採用されているBF16フレームワークよりも75%高速に動作したことがわかった。
論文 参考訳(メタデータ) (2023-10-27T17:59:51Z) - Full Parameter Fine-tuning for Large Language Models with Limited
Resources [41.05569573467512]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、トレーニングには大量のGPUリソースを必要としている。
我々は,メモリ使用量を削減するために,勾配とパラメータの更新を1ステップで融合する新しい計算,LOMO(LOw-Memory Optimization)を提案する。
論文 参考訳(メタデータ) (2023-06-16T11:37:15Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of
Language Model [92.55145016562867]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - LST: Ladder Side-Tuning for Parameter and Memory Efficient Transfer
Learning [82.93130407930762]
大規模な事前訓練されたモデルのパラメータセット全体を更新するのはコストがかかる。
PETL技術は、トレーニング済みのバックボーンネットワーク内のパラメータの小さなサブセットを更新して、新しいタスクを実行できる。
本稿では,学習用メモリの必要量を大幅に削減するPETL技術であるLadder Side-Tuning (LST)を提案する。
論文 参考訳(メタデータ) (2022-06-13T23:51:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。