論文の概要: Memory-Efficient Fine-Tuning of Compressed Large Language Models via
sub-4-bit Integer Quantization
- arxiv url: http://arxiv.org/abs/2305.14152v1
- Date: Tue, 23 May 2023 15:20:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 15:24:38.623529
- Title: Memory-Efficient Fine-Tuning of Compressed Large Language Models via
sub-4-bit Integer Quantization
- Title(参考訳): サブ4ビット整数量子化による圧縮大言語モデルのメモリ効率向上
- Authors: Jeonghoon Kim, Jung Hyun Lee, Sungdong Kim, Joonsuk Park, Kang Min
Yoo, Se Jung Kwon, Dongsoo Lee
- Abstract要約: 本稿では,モデル圧縮と推論を容易にする新しい量子化対応PEFT手法PEQAを提案する。
PEQAは、最初は、各完全連結層のパラメータ行列が、低ビット整数とスカラーベクトルの行列に量子化される。
これは、PEQAのスケーラビリティ、タスク固有の適応性能、命令に従う能力を示す、最大65億ドルのパラメータからなる大きな言語モデルを使用して行われる。
- 参考スコア(独自算出の注目度): 15.587795818367113
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Parameter-efficient fine-tuning (PEFT) methods have emerged to mitigate the
prohibitive cost of full fine-tuning large language models (LLMs). Nonetheless,
the enormous size of LLMs impedes routine deployment. To address the issue, we
present Parameter-Efficient and Quantization-aware Adaptation (PEQA), a novel
quantization-aware PEFT technique that facilitates model compression and
accelerates inference. PEQA operates through a dual-stage process: initially,
the parameter matrix of each fully-connected layer undergoes quantization into
a matrix of low-bit integers and a scalar vector; subsequently, fine-tuning
occurs on the scalar vector for each downstream task. Such a strategy
compresses the size of the model considerably, leading to a lower inference
latency upon deployment and a reduction in the overall memory required. At the
same time, fast fine-tuning and efficient task switching becomes possible. In
this way, PEQA offers the benefits of quantization, while inheriting the
advantages of PEFT. We compare PEQA with competitive baselines in comprehensive
experiments ranging from natural language understanding to generation
benchmarks. This is done using large language models of up to $65$ billion
parameters, demonstrating PEQA's scalability, task-specific adaptation
performance, and ability to follow instructions, even in extremely low-bit
settings.
- Abstract(参考訳): パラメータ効率のよい微細チューニング(PEFT)法が登場し、完全微調整大言語モデル(LLM)の禁止コストを軽減している。
それでも、LLMの巨大なサイズは、定期的なデプロイメントを妨げる。
そこで本研究では,モデル圧縮を容易にし,推論を高速化する新しい量子化対応PEFT技術PEQAを提案する。
PEQAは、最初は、各完全連結層のパラメータ行列が低ビット整数の行列とスカラーベクトルの行列に量子化され、その後、各下流タスクのスカラーベクトルに微調整が行われる。
このような戦略はモデルのサイズを大幅に圧縮し、デプロイメント時の推論遅延の低減と、必要なメモリ全体の削減につながる。
同時に、高速な微調整と効率的なタスク切り替えが可能となる。
このようにPEQAは、PEFTの利点を継承しながら、量子化の利点を提供する。
自然言語理解から生成ベンチマークまでの総合的な実験において,PEQAと競争ベースラインを比較した。
これは、PEQAのスケーラビリティ、タスク固有の適応性能、命令に従う能力を示す、最大65億ドルのパラメータを持つ大きな言語モデルを使用して実現されている。
関連論文リスト
- SLiM: One-shot Quantized Sparse Plus Low-rank Approximation of LLMs [2.7624021966289605]
大規模言語モデル(LLM)は、自然言語の理解と生成タスクに革命をもたらした。
LLMは、大きなパラメータサイズのため、メモリ消費が高く、推論時間が遅い。
本稿では,1ショットの量子スパースプラス低ランク近似を用いたLEMの圧縮手法であるSLiMを紹介する。
論文 参考訳(メタデータ) (2024-10-12T18:36:07Z) - LRQ: Optimizing Post-Training Quantization for Large Language Models by Learning Low-Rank Weight-Scaling Matrices [41.17378536966264]
低ランク量子化$-$は、大規模言語モデルのための単純だが効果的なポストトレーニング重み量子化法である。
低ランク構造によるパラメータ共有により、LRQは重みの個別のスケーリングを可能にしながら、パラメータを著しく少ない値で学習するのみである。
従来の LLM PTQ よりも, (i) 8$-bit ウェイトおよび (ii) 4$-bit ウェイトおよび (ii) 8$-bit アクティベーション量子化, (iii) 低ビット ウェイトのみの量子化スキームにおける LRQ の優位性を示す。
論文 参考訳(メタデータ) (2024-07-16T09:32:07Z) - EfficientQAT: Efficient Quantization-Aware Training for Large Language Models [50.525259103219256]
量子化対応トレーニング(QAT)は、低ビット表現によるメモリ消費を最小限の精度で削減することで、ソリューションを提供する。
より有効なQATアルゴリズムであるEfficient QAT(Efficient Quantization-Aware Training)を提案する。
効率的なQATは、全てのパラメータのブロックワイドトレーニング(Block-AP)と量子化パラメータのエンドツーエンドトレーニング(E2E-QP)の2つのフェーズを含む。
論文 参考訳(メタデータ) (2024-07-10T17:53:30Z) - SPP: Sparsity-Preserved Parameter-Efficient Fine-Tuning for Large Language Models [53.638791265113625]
空間保存型大規模言語モデルのための効率的な微調整法
コードはhttps://github.com/Lucky-Lance/SPP.comで公開される。
論文 参考訳(メタデータ) (2024-05-25T04:55:27Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [67.67135738642547]
後学習量子化(PTQ)は、大規模言語モデル(LLM)において研究される強力な圧縮手法である。
既存のPTQ法は、特に4ビット幅以下では、精度と効率の点で理想的ではない。
本稿では,LSM,すなわちSliM-LLMに対するSalience-Driven Mixed-Precision Quantizationスキームを提案する。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - AffineQuant: Affine Transformation Quantization for Large Language Models [58.45460102764]
ポストトレーニング量子化(PTQ)は、その圧縮効率とトレーニングの文脈における費用対効果により、かなりの関心を集めている。
既存の大規模言語モデル(LLM)のPTQ手法は、事前量子化重みと後量子化重みの間の変換のスケーリングに最適化範囲を制限している。
本稿では,PTQ(AffineQuant)における等価アフィン変換を用いた直接最適化を提唱する。
論文 参考訳(メタデータ) (2024-03-19T08:40:21Z) - A Comprehensive Evaluation of Quantization Strategies for Large Language Models [42.03804933928227]
大規模言語モデル(LLM)におけるパラメータの数を増やすことで、ダウンストリームタスクのパフォーマンスが向上するが、計算とメモリコストが上昇する。
モデルウェイトやアクティベーションに必要なビットを最小性能で削減する量子化技術が普及している。
本稿では,知識とキャパシティ,(2)アライメント,(3)効率の3つの重要な次元からなる構造化評価フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-26T17:45:36Z) - L4Q: Parameter Efficient Quantization-Aware Fine-Tuning on Large Language Models [5.304907804008533]
量子化学習(QAT)とローランド適応(LoRA)を統合し,量子化誤差を効果的に低減する手法であるL4Qを提案する。
メモリ最適化層設計を採用することで、L4QはQATのメモリオーバーヘッドを大幅に削減し、完全な量子化重みを生成する。
論文 参考訳(メタデータ) (2024-02-07T14:35:05Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - PreQuant: A Task-agnostic Quantization Approach for Pre-trained Language
Models [52.09865918265002]
ファインチューニングのフレームワークPreQuantに先立って,新しい量子化を提案する。
PreQuantは様々な量子化戦略と互換性があり、インダクションされた量子化誤差を修正するために、アウタリア対応の微調整が組み込まれている。
BERT,RoBERTa,T5を用いたGLUEベンチマークにおけるPreQuantの有効性を示す。
論文 参考訳(メタデータ) (2023-05-30T08:41:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。