論文の概要: Quantized Side Tuning: Fast and Memory-Efficient Tuning of Quantized
Large Language Models
- arxiv url: http://arxiv.org/abs/2401.07159v1
- Date: Sat, 13 Jan 2024 21:00:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 19:33:13.865380
- Title: Quantized Side Tuning: Fast and Memory-Efficient Tuning of Quantized
Large Language Models
- Title(参考訳): 量子化サイドチューニング:量子化大言語モデルの高速かつメモリ効率の高いチューニング
- Authors: Zhengxin Zhang, Dan Zhao, Xupeng Miao, Gabriele Oliaro, Qing Li, Yong
Jiang, and Zhihao Jia
- Abstract要約: 大規模言語モデル(LLM)の微調整は、様々な下流タスクに実験的に有効である。
LLMを微調整するための既存のアプローチは、パラメータ効率の良い微調整に焦点を当てるか、トレーニングフェーズ中にメモリフットプリントを減らそうとする。
本稿では,2段プロセスを介して動作することで,LLMのメモリ効率と高速な微調整を可能にする量子化サイドチューニング(QST)を提案する。
- 参考スコア(独自算出の注目度): 37.516453975389624
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Finetuning large language models (LLMs) has been empirically effective on a
variety of downstream tasks. Existing approaches to finetuning an LLM either
focus on parameter-efficient finetuning, which only updates a small number of
trainable parameters, or attempt to reduce the memory footprint during the
training phase of the finetuning. Typically, the memory footprint during
finetuning stems from three contributors: model weights, optimizer states, and
intermediate activations. However, existing works still require considerable
memory and none can simultaneously mitigate memory footprint for all three
sources. In this paper, we present Quantized Side Tuing (QST), which enables
memory-efficient and fast finetuning of LLMs by operating through a dual-stage
process. First, QST quantizes an LLM's model weights into 4-bit to reduce the
memory footprint of the LLM's original weights; QST also introduces a side
network separated from the LLM, which utilizes the hidden states of the LLM to
make task-specific predictions. Using a separate side network avoids performing
backpropagation through the LLM, thus reducing the memory requirement of the
intermediate activations. Furthermore, QST leverages several low-rank adaptors
and gradient-free downsample modules to significantly reduce the trainable
parameters, so as to save the memory footprint of the optimizer states.
Experiments show that QST can reduce the total memory footprint by up to 2.3
$\times$ and speed up the finetuning process by up to 3 $\times$ while
achieving competent performance compared with the state-of-the-art. When it
comes to full finetuning, QST can reduce the total memory footprint up to 7
$\times$.
- Abstract(参考訳): 大規模言語モデル(LLM)の微調整は、様々な下流タスクに実験的に有効である。
LLMを微調整するための既存のアプローチは、少数のトレーニング可能なパラメータだけを更新するパラメータ効率の高い微調整にフォーカスするか、あるいは微調整のトレーニングフェーズ中にメモリフットプリントを減らそうとする。
通常、微調整中のメモリフットプリントは、モデルウェイト、オプティマイザ状態、中間活性化の3つのコントリビュータに由来する。
しかし、既存の作品は依然としてかなりのメモリを必要とするため、3つのソースのメモリフットプリントを軽減できるものはない。
本稿では,2段プロセスを介して動作することで,メモリ効率と高速なLCMの微調整を可能にするQuantized Side Tuing (QST)を提案する。
まず、QSTはLLMのモデルの重みを4ビットに量子化し、LLMの元々の重みのメモリフットプリントを削減する。
別々のサイドネットワークを使用することで、LCMによるバックプロパゲーションが回避され、中間アクティベーションのメモリ要求が低減される。
さらに、QSTはいくつかの低ランク適応器と勾配のないダウンサンプルモジュールを活用し、トレーニング可能なパラメータを大幅に削減し、オプティマイザ状態のメモリフットプリントを節約する。
実験の結果、QSTはメモリ全体のフットプリントを最大2.3$\times$に減らし、ファインタニングプロセスを最大3$\times$に高速化し、最先端技術と比較して有能なパフォーマンスを達成することができる。
完全な微調整に関しては、QSTはメモリ全体のフットプリントを最大7$\times$まで削減できる。
関連論文リスト
- On the Compressibility of Quantized Large Language Models [13.443384050034922]
大規模言語モデル(LLM)は、エッジまたはモバイルデバイスにデプロイされ、データプライバシとリアルタイム処理機能を提供する。
LLMは、エッジやモバイルデバイスの限られたメモリに完全に収まるには大きすぎるかもしれないし、推論を完了するには、部分的にストレージからロードする必要がある。
データ圧縮技術を適用してデータ移動を減らし、メモリ制約デバイス上での量子化LDMの推論を高速化する。
論文 参考訳(メタデータ) (2024-03-03T03:27:07Z) - QFT: Quantized Full-parameter Tuning of LLMs with Affordable Resources [37.265708531464746]
大規模言語モデル(LLM)は、さまざまな自然言語処理タスクに顕著な影響を与えている。
これらのトレーニング済みモデルを下流データセットに微調整することで、さらなる大幅なパフォーマンス向上が達成されるが、このプロセスは異常なリソース要求のために困難だった。
性能を損なうことなくメモリ効率のよい微調整を可能にするLLMのための新しい量子フルパラメータチューニングフレームワークQFTを提案する。
論文 参考訳(メタデータ) (2023-10-11T02:47:40Z) - ModuLoRA: Finetuning 2-Bit LLMs on Consumer GPUs by Integrating with
Modular Quantizers [38.16040503271727]
大規模言語モデル(LLM)のためのメモリ効率の高い微調整アルゴリズムを提案する。
lploraは、テキスト分類、自然言語推論、タスクに続く命令に対する競合性能を、既存のアプローチよりもはるかに少ないメモリで実現している。
私たちはまた、一般的な要約タスクにおいて最先端のROUGEスコアを超えます。
論文 参考訳(メタデータ) (2023-09-28T02:55:01Z) - SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight
Compression [76.73007709690306]
Sparse-Quantized Representation (SpQR) は,新しい圧縮フォーマットと量子化技術である。
SpQRは、高精度なLLaMAとFalcon LLMのパープレキシティにおいて、1%未満の相対的精度の損失を達成している。
これにより、1台の24GBのコンシューマGPU上で33BパラメータのLSMを実行でき、15%のスピードアップでパフォーマンスの劣化は発生しない。
論文 参考訳(メタデータ) (2023-06-05T17:53:28Z) - Memory-Efficient Fine-Tuning of Compressed Large Language Models via
sub-4-bit Integer Quantization [27.79783067245817]
大規模言語モデル(LLM)は、高いメモリ要求と計算コストのため、微調整とデプロイメントの課題に直面している。
本稿では,PEFT と量子化 LLM の利点を組み合わせた簡易かつ効果的な手法である PEQA (Efficient Adaptation and Quantization-aware) を提案する。
論文 参考訳(メタデータ) (2023-05-23T15:20:01Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - LST: Ladder Side-Tuning for Parameter and Memory Efficient Transfer
Learning [82.93130407930762]
大規模な事前訓練されたモデルのパラメータセット全体を更新するのはコストがかかる。
PETL技術は、トレーニング済みのバックボーンネットワーク内のパラメータの小さなサブセットを更新して、新しいタスクを実行できる。
本稿では,学習用メモリの必要量を大幅に削減するPETL技術であるLadder Side-Tuning (LST)を提案する。
論文 参考訳(メタデータ) (2022-06-13T23:51:56Z) - LiST: Lite Self-training Makes Efficient Few-shot Learners [91.28065455714018]
LiSTは古典的な微調整法よりも35%改善し、プロンプトチューニングよりも6%改善した。
論文 参考訳(メタデータ) (2021-10-12T18:47:18Z) - TinyTL: Reduce Activations, Not Trainable Parameters for Efficient
On-Device Learning [78.80707950262214]
デバイス上での学習により、エッジデバイスはAIモデルを新しいデータに継続的に適応できる。
既存の作業は、トレーニング可能なパラメータの数を減らすことで、この問題を解決する。
メモリ効率の高いオンデバイス学習のためのTiny-Transfer-Learning(TinyTL)を提案する。
論文 参考訳(メタデータ) (2020-07-22T18:39:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。