Fugu-MT 論文翻訳(概要): Quantized Side Tuning: Fast and Memory-Efficient Tuning of Quantized Large Language Models

論文の概要: Quantized Side Tuning: Fast and Memory-Efficient Tuning of Quantized Large Language Models

arxiv url: http://arxiv.org/abs/2401.07159v1
Date: Sat, 13 Jan 2024 21:00:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-17 19:33:13.865380
Title: Quantized Side Tuning: Fast and Memory-Efficient Tuning of Quantized Large Language Models
Title（参考訳）: 量子化サイドチューニング:量子化大言語モデルの高速かつメモリ効率の高いチューニング
Authors: Zhengxin Zhang, Dan Zhao, Xupeng Miao, Gabriele Oliaro, Qing Li, Yong Jiang, and Zhihao Jia
Abstract要約: 大規模言語モデル(LLM)の微調整は、様々な下流タスクに実験的に有効である。 LLMを微調整するための既存のアプローチは、パラメータ効率の良い微調整に焦点を当てるか、トレーニングフェーズ中にメモリフットプリントを減らそうとする。本稿では,2段プロセスを介して動作することで,LLMのメモリ効率と高速な微調整を可能にする量子化サイドチューニング(QST)を提案する。
参考スコア（独自算出の注目度）: 37.516453975389624
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Finetuning large language models (LLMs) has been empirically effective on a variety of downstream tasks. Existing approaches to finetuning an LLM either focus on parameter-efficient finetuning, which only updates a small number of trainable parameters, or attempt to reduce the memory footprint during the training phase of the finetuning. Typically, the memory footprint during finetuning stems from three contributors: model weights, optimizer states, and intermediate activations. However, existing works still require considerable memory and none can simultaneously mitigate memory footprint for all three sources. In this paper, we present Quantized Side Tuing (QST), which enables memory-efficient and fast finetuning of LLMs by operating through a dual-stage process. First, QST quantizes an LLM's model weights into 4-bit to reduce the memory footprint of the LLM's original weights; QST also introduces a side network separated from the LLM, which utilizes the hidden states of the LLM to make task-specific predictions. Using a separate side network avoids performing backpropagation through the LLM, thus reducing the memory requirement of the intermediate activations. Furthermore, QST leverages several low-rank adaptors and gradient-free downsample modules to significantly reduce the trainable parameters, so as to save the memory footprint of the optimizer states. Experiments show that QST can reduce the total memory footprint by up to 2.3 $\times$ and speed up the finetuning process by up to 3 $\times$ while achieving competent performance compared with the state-of-the-art. When it comes to full finetuning, QST can reduce the total memory footprint up to 7 $\times$.
Abstract（参考訳）: 大規模言語モデル(LLM)の微調整は、様々な下流タスクに実験的に有効である。 LLMを微調整するための既存のアプローチは、少数のトレーニング可能なパラメータだけを更新するパラメータ効率の高い微調整にフォーカスするか、あるいは微調整のトレーニングフェーズ中にメモリフットプリントを減らそうとする。通常、微調整中のメモリフットプリントは、モデルウェイト、オプティマイザ状態、中間活性化の3つのコントリビュータに由来する。しかし、既存の作品は依然としてかなりのメモリを必要とするため、3つのソースのメモリフットプリントを軽減できるものはない。本稿では,2段プロセスを介して動作することで,メモリ効率と高速なLCMの微調整を可能にするQuantized Side Tuing (QST)を提案する。まず、QSTはLLMのモデルの重みを4ビットに量子化し、LLMの元々の重みのメモリフットプリントを削減する。別々のサイドネットワークを使用することで、LCMによるバックプロパゲーションが回避され、中間アクティベーションのメモリ要求が低減される。さらに、QSTはいくつかの低ランク適応器と勾配のないダウンサンプルモジュールを活用し、トレーニング可能なパラメータを大幅に削減し、オプティマイザ状態のメモリフットプリントを節約する。実験の結果、QSTはメモリ全体のフットプリントを最大2.3$\times$に減らし、ファインタニングプロセスを最大3$\times$に高速化し、最先端技術と比較して有能なパフォーマンスを達成することができる。完全な微調整に関しては、QSTはメモリ全体のフットプリントを最大7$\times$まで削減できる。

関連論文リスト

Quantizing Large Language Models for Code Generation: A Differentiated Replication [51.85505914274633]
大規模言語モデル(LLM)は、コード生成において印象的な能力を示しており、特に自然言語で記述された要求を自動的に実装する。 LLMはメモリ(そして結果として炭素)のフットプリントに重大な課題をもたらす。 LLM量子化の新しいフロンティアは4ビット精度であり、平均メモリフットプリントが70%減少する。
論文参考訳（メタデータ） (2025-03-10T09:26:08Z)
Sparse Gradient Compression for Fine-Tuning Large Language Models [58.44973963468691]
ダウンストリームタスクのための微調整された大型言語モデル(LLM)は、広く利用されていることと、オープンソースモデルの利用が増加しているために、ますます重要になっている。微調整に伴う高メモリコストは、特にモデルのサイズが大きくなるにつれて大きな課題である。これらの制約に対処するためにスパース圧縮勾配(SGC)を提案する。
論文参考訳（メタデータ） (2025-02-01T04:18:28Z)
Fast Matrix Multiplications for Lookup Table-Quantized LLMs [58.11584672945781]
FLUTEはLUT量子化LLM用のフレキシブルなルックアップテーブルエンジンである。バッチサイズ32と量子化グループサイズ128では、FLUTEカーネルは既存のGEMMカーネルよりも2〜4倍高速である。
論文参考訳（メタデータ） (2024-07-15T17:55:42Z)
Low-Rank Quantization-Aware Training for LLMs [8.535254310145005]
大規模言語モデル(LLM)は、一様だが、計算とメモリの需要がますます増大しているため、その実践的な展開は困難である。 LLMのための軽量かつメモリ効率のQATアルゴリズムであるLR-QATを提案する。提案手法は、PTQ(Common-training Quantization)アプローチよりも優れ、メモリ使用率のごく一部でフルモデルQATと同じモデル性能に達する。
論文参考訳（メタデータ） (2024-06-10T15:44:22Z)
Zeroth-Order Fine-Tuning of LLMs with Extreme Sparsity [66.67596152389591]
ゼロ階最適化(ZO)は、微調整された大規模言語モデルのためのメモリ効率の高い戦略である。本研究では,ZO を用いた LLM パラメータの極小サブセットの微調整の実現可能性について検討した。この結果から,ZO を用いた LLM の微調整パラメータ 0.1% は,ZO の微調整性能より優れることが示された。
論文参考訳（メタデータ） (2024-06-05T04:07:35Z)
QFT: Quantized Full-parameter Tuning of LLMs with Affordable Resources [37.265708531464746]
大規模言語モデル(LLM)は、さまざまな自然言語処理タスクに顕著な影響を与えている。これらのトレーニング済みモデルを下流データセットに微調整することで、さらなる大幅なパフォーマンス向上が達成されるが、このプロセスは異常なリソース要求のために困難だった。性能を損なうことなくメモリ効率のよい微調整を可能にするLLMのための新しい量子フルパラメータチューニングフレームワークQFTを提案する。
論文参考訳（メタデータ） (2023-10-11T02:47:40Z)
ModuLoRA: Finetuning 2-Bit LLMs on Consumer GPUs by Integrating with Modular Quantizers [38.16040503271727]
大規模言語モデル(LLM)のためのメモリ効率の高い微調整アルゴリズムを提案する。 lploraは、テキスト分類、自然言語推論、タスクに続く命令に対する競合性能を、既存のアプローチよりもはるかに少ないメモリで実現している。私たちはまた、一般的な要約タスクにおいて最先端のROUGEスコアを超えます。
論文参考訳（メタデータ） (2023-09-28T02:55:01Z)
SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight Compression [76.73007709690306]
Sparse-Quantized Representation (SpQR) は,新しい圧縮フォーマットと量子化技術である。 SpQRは、高精度なLLaMAとFalcon LLMのパープレキシティにおいて、1%未満の相対的精度の損失を達成している。これにより、1台の24GBのコンシューマGPU上で33BパラメータのLSMを実行でき、15%のスピードアップでパフォーマンスの劣化は発生しない。
論文参考訳（メタデータ） (2023-06-05T17:53:28Z)
Memory-Efficient Fine-Tuning of Compressed Large Language Models via sub-4-bit Integer Quantization [27.79783067245817]
大規模言語モデル(LLM)は、高いメモリ要求と計算コストのため、微調整とデプロイメントの課題に直面している。本稿では,PEFT と量子化 LLM の利点を組み合わせた簡易かつ効果的な手法である PEQA (Efficient Adaptation and Quantization-aware) を提案する。
論文参考訳（メタデータ） (2023-05-23T15:20:01Z)
LST: Ladder Side-Tuning for Parameter and Memory Efficient Transfer Learning [82.93130407930762]
大規模な事前訓練されたモデルのパラメータセット全体を更新するのはコストがかかる。 PETL技術は、トレーニング済みのバックボーンネットワーク内のパラメータの小さなサブセットを更新して、新しいタスクを実行できる。本稿では,学習用メモリの必要量を大幅に削減するPETL技術であるLadder Side-Tuning (LST)を提案する。
論文参考訳（メタデータ） (2022-06-13T23:51:56Z)
LiST: Lite Self-training Makes Efficient Few-shot Learners [91.28065455714018]
LiSTは古典的な微調整法よりも35%改善し、プロンプトチューニングよりも6%改善した。
論文参考訳（メタデータ） (2021-10-12T18:47:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。