論文の概要: Memory-Efficient Fine-Tuning of Compressed Large Language Models via
sub-4-bit Integer Quantization
- arxiv url: http://arxiv.org/abs/2305.14152v1
- Date: Tue, 23 May 2023 15:20:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 15:24:38.623529
- Title: Memory-Efficient Fine-Tuning of Compressed Large Language Models via
sub-4-bit Integer Quantization
- Title(参考訳): サブ4ビット整数量子化による圧縮大言語モデルのメモリ効率向上
- Authors: Jeonghoon Kim, Jung Hyun Lee, Sungdong Kim, Joonsuk Park, Kang Min
Yoo, Se Jung Kwon, Dongsoo Lee
- Abstract要約: 本稿では,モデル圧縮と推論を容易にする新しい量子化対応PEFT手法PEQAを提案する。
PEQAは、最初は、各完全連結層のパラメータ行列が、低ビット整数とスカラーベクトルの行列に量子化される。
これは、PEQAのスケーラビリティ、タスク固有の適応性能、命令に従う能力を示す、最大65億ドルのパラメータからなる大きな言語モデルを使用して行われる。
- 参考スコア(独自算出の注目度): 15.587795818367113
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Parameter-efficient fine-tuning (PEFT) methods have emerged to mitigate the
prohibitive cost of full fine-tuning large language models (LLMs). Nonetheless,
the enormous size of LLMs impedes routine deployment. To address the issue, we
present Parameter-Efficient and Quantization-aware Adaptation (PEQA), a novel
quantization-aware PEFT technique that facilitates model compression and
accelerates inference. PEQA operates through a dual-stage process: initially,
the parameter matrix of each fully-connected layer undergoes quantization into
a matrix of low-bit integers and a scalar vector; subsequently, fine-tuning
occurs on the scalar vector for each downstream task. Such a strategy
compresses the size of the model considerably, leading to a lower inference
latency upon deployment and a reduction in the overall memory required. At the
same time, fast fine-tuning and efficient task switching becomes possible. In
this way, PEQA offers the benefits of quantization, while inheriting the
advantages of PEFT. We compare PEQA with competitive baselines in comprehensive
experiments ranging from natural language understanding to generation
benchmarks. This is done using large language models of up to $65$ billion
parameters, demonstrating PEQA's scalability, task-specific adaptation
performance, and ability to follow instructions, even in extremely low-bit
settings.
- Abstract(参考訳): パラメータ効率のよい微細チューニング(PEFT)法が登場し、完全微調整大言語モデル(LLM)の禁止コストを軽減している。
それでも、LLMの巨大なサイズは、定期的なデプロイメントを妨げる。
そこで本研究では,モデル圧縮を容易にし,推論を高速化する新しい量子化対応PEFT技術PEQAを提案する。
PEQAは、最初は、各完全連結層のパラメータ行列が低ビット整数の行列とスカラーベクトルの行列に量子化され、その後、各下流タスクのスカラーベクトルに微調整が行われる。
このような戦略はモデルのサイズを大幅に圧縮し、デプロイメント時の推論遅延の低減と、必要なメモリ全体の削減につながる。
同時に、高速な微調整と効率的なタスク切り替えが可能となる。
このようにPEQAは、PEFTの利点を継承しながら、量子化の利点を提供する。
自然言語理解から生成ベンチマークまでの総合的な実験において,PEQAと競争ベースラインを比較した。
これは、PEQAのスケーラビリティ、タスク固有の適応性能、命令に従う能力を示す、最大65億ドルのパラメータを持つ大きな言語モデルを使用して実現されている。
関連論文リスト
- RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [95.32315448601241]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - LRQ: Optimizing Post-Training Quantization for Large Language Models by Learning Low-Rank Weight-Scaling Matrices [41.17378536966264]
低ランク量子化(LRQ)は、低ランクウェイトスケーリング行列を利用して中間トランスフォーマーブロックの出力を再構成する。
低ランク構造によるパラメータ共有により、LRQは重みの個別のスケーリングを可能にしながら、パラメータを著しく少ない値で学習するのみである。
従来のLLM PTQよりも, (i) 8ビットの重みとアクティベーションの量子化, (ii) 4ビットの重みと8ビットのアクティベーションの量子化, (iii) 低ビットの重みのみの量子化スキームにおいて, LRQの優位性を示す。
論文 参考訳(メタデータ) (2024-07-16T09:32:07Z) - SPP: Sparsity-Preserved Parameter-Efficient Fine-Tuning for Large Language Models [53.638791265113625]
空間保存型大規模言語モデルのための効率的な微調整法
コードはhttps://github.com/Lucky-Lance/SPP.comで公開される。
論文 参考訳(メタデータ) (2024-05-25T04:55:27Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [67.67135738642547]
後学習量子化(PTQ)は、大規模言語モデル(LLM)において研究される強力な圧縮手法である。
既存のPTQ法は、特に4ビット幅以下では、精度と効率の点で理想的ではない。
本稿では,LSM,すなわちSliM-LLMに対するSalience-Driven Mixed-Precision Quantizationスキームを提案する。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - AffineQuant: Affine Transformation Quantization for Large Language Models [58.45460102764]
ポストトレーニング量子化(PTQ)は、その圧縮効率とトレーニングの文脈における費用対効果により、かなりの関心を集めている。
既存の大規模言語モデル(LLM)のPTQ手法は、事前量子化重みと後量子化重みの間の変換のスケーリングに最適化範囲を制限している。
本稿では,PTQ(AffineQuant)における等価アフィン変換を用いた直接最適化を提唱する。
論文 参考訳(メタデータ) (2024-03-19T08:40:21Z) - A Comprehensive Evaluation of Quantization Strategies for Large Language Models [42.03804933928227]
大規模言語モデル(LLM)におけるパラメータの数を増やすことで、ダウンストリームタスクのパフォーマンスが向上するが、計算とメモリコストが上昇する。
モデルウェイトやアクティベーションに必要なビットを最小性能で削減する量子化技術が普及している。
本稿では,知識とキャパシティ,(2)アライメント,(3)効率の3つの重要な次元からなる構造化評価フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-26T17:45:36Z) - L4Q: Parameter Efficient Quantization-Aware Fine-Tuning on Large Language Models [5.304907804008533]
量子化学習(QAT)とローランド適応(LoRA)を統合したL4Qを提案する。
メモリ最適化レイヤ設計を採用することで、L4QはQATのメモリオーバーヘッドを大幅に削減し、トレーニングコストはLoRAに匹敵する。
この量子化法と微調整法の組み合わせにより精度が向上することを示した。
論文 参考訳(メタデータ) (2024-02-07T14:35:05Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - PB-LLM: Partially Binarized Large Language Models [14.244537605866864]
本稿では,Large Language Models (LLMs) 圧縮のために,モデル重みを1ビットに圧縮するネットワークバイナライゼーションについて検討する。
本稿では,LLMの言語的推論能力を維持しつつ,極端に低ビットの量子化を実現する手法として,PB-LLM(Partial-Binarized LLM)を提案する。
論文 参考訳(メタデータ) (2023-09-29T14:35:27Z) - PreQuant: A Task-agnostic Quantization Approach for Pre-trained Language
Models [52.09865918265002]
ファインチューニングのフレームワークPreQuantに先立って,新しい量子化を提案する。
PreQuantは様々な量子化戦略と互換性があり、インダクションされた量子化誤差を修正するために、アウタリア対応の微調整が組み込まれている。
BERT,RoBERTa,T5を用いたGLUEベンチマークにおけるPreQuantの有効性を示す。
論文 参考訳(メタデータ) (2023-05-30T08:41:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。