論文の概要: OWQ: Outlier-Aware Weight Quantization for Efficient Fine-Tuning and
Inference of Large Language Models
- arxiv url: http://arxiv.org/abs/2306.02272v4
- Date: Wed, 24 Jan 2024 02:53:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-25 11:47:50.368596
- Title: OWQ: Outlier-Aware Weight Quantization for Efficient Fine-Tuning and
Inference of Large Language Models
- Title(参考訳): OWQ: 大規模言語モデルの効率的な微調整と推論のための外乱対応重み量子化
- Authors: Changhun Lee, Jungyu Jin, Taesu Kim, Hyungjun Kim, Eunhyeok Park
- Abstract要約: outlier-aware weight Quantization (OWQ)メソッドは、低精度表現によって大きな言語モデルのフットプリントを最小化する。
OWQは、量子化に敏感な構造的重みの小さなサブセットを優先順位付けし、それらを高精度に保存し、残りの高密度重みに高度に調整された量子化を適用する。
OWQを用いた3.1ビットモデルは、OPTQによって最適化された4ビットモデルと互換性があることを示した。
- 参考スコア(独自算出の注目度): 15.461748851931588
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) with hundreds of billions of parameters require
powerful server-grade GPUs for inference, limiting their practical deployment.
To address this challenge, we introduce the outlier-aware weight quantization
(OWQ) method, which aims to minimize LLM's footprint through low-precision
representation. OWQ prioritizes a small subset of structured weights sensitive
to quantization, storing them in high-precision, while applying highly tuned
quantization to the remaining dense weights. This sensitivity-aware
mixed-precision scheme reduces the quantization error notably, and extensive
experiments demonstrate that 3.1-bit models using OWQ perform comparably to
4-bit models optimized by OPTQ. Furthermore, OWQ incorporates a
parameter-efficient fine-tuning for task-specific adaptation, called weak
column tuning (WCT), enabling accurate task-specific LLM adaptation with
minimal memory overhead in the optimized format. OWQ represents a notable
advancement in the flexibility, efficiency, and practicality of LLM
optimization literature. The source code is available at
https://github.com/xvyaward/owq
- Abstract(参考訳): 数十億のパラメータを持つ大規模言語モデル(LLM)は、推論に強力なサーバグレードGPUを必要とし、実際のデプロイメントを制限する。
この課題に対処するために,低精度表現によるLCMのフットプリントの最小化を目的とした,outlier-aware weight Quantization (OWQ)法を提案する。
owqは量子化に敏感な構造重みの小さなサブセットを優先し、高精度に保存し、残りの密度重みに高度に調整された量子化を適用する。
この感度対応混合精度スキームは量子化誤差を顕著に低減し、OWQを用いた3.1ビットモデルがOPTQで最適化された4ビットモデルと互換性があることを示した。
さらにOWQは、WCT(Wilt column tuning)と呼ばれるタスク固有の適応のためのパラメータ効率の細かいチューニングを導入し、最適化されたフォーマットで最小限のメモリオーバーヘッドでタスク固有のLLM適応を可能にする。
OWQはLLM最適化文献の柔軟性、効率、実用性において顕著な進歩を示している。
ソースコードはhttps://github.com/xvyaward/owqで入手できる。
関連論文リスト
- WKVQuant: Quantizing Weight and Key/Value Cache for Large Language
Models Gains More [55.0856305773081]
大規模言語モデル (LLM) は、そのメモリ要求と自動回帰テキスト生成プロセスの計算要求のために、重要なデプロイメント課題に直面している。
本稿では、モデルパラメータとアクティベーションを低ビット整数に変換することでメモリ消費を低減する手法であるLCMの量子化に着目し、これらの課題に対処する。
論文 参考訳(メタデータ) (2024-02-19T11:33:21Z) - OneBit: Towards Extremely Low-bit Large Language Models [69.15388378646395]
本稿では, LLMの重量行列を1ビットに大胆に定量化し, LLMの極低ビット幅展開への道を開く。
実験によると、OneBitは、堅牢なトレーニングプロセスで優れたパフォーマンス(少なくとも、非量子化パフォーマンスの83%)を達成する。
論文 参考訳(メタデータ) (2024-02-17T14:26:57Z) - QLLM: Accurate and Efficient Low-Bitwidth Quantization for Large Language Models [44.515165695546614]
量子化アウェアトレーニング(QAT)はソリューションを提供するが、トレーニング後の量子化(PTQ)は大規模言語モデル(LLM)のより実践的なアプローチとなる。
LLM向けに設計された高精度かつ効率的な低ビット幅PTQ法QLLMを提案する。
論文 参考訳(メタデータ) (2023-10-12T05:25:49Z) - QFT: Quantized Full-parameter Tuning of LLMs with Affordable Resources [37.265708531464746]
大規模言語モデル(LLM)は、さまざまな自然言語処理タスクに顕著な影響を与えている。
これらのトレーニング済みモデルを下流データセットに微調整することで、さらなる大幅なパフォーマンス向上が達成されるが、このプロセスは異常なリソース要求のために困難だった。
性能を損なうことなくメモリ効率のよい微調整を可能にするLLMのための新しい量子フルパラメータチューニングフレームワークQFTを提案する。
論文 参考訳(メタデータ) (2023-10-11T02:47:40Z) - QA-LoRA: Quantization-Aware Low-Rank Adaptation of Large Language Models [85.02796681773447]
量子化対応低ランク適応(QA-LoRA)アルゴリズムを提案する。
その動機は量子化と適応の自由の不均衡度にある。
QA-LoRAは数行のコードで簡単に実装できる。
論文 参考訳(メタデータ) (2023-09-26T07:22:23Z) - Norm Tweaking: High-performance Low-bit Quantization of Large Language
Models [21.855106896725598]
そこで本研究では,現在のPTQ手法のプラグインとして利用できるノルム調整手法を提案する。
本手法は,重量のみの量子化と重みとアクティベーションの連成量子化の両面で有意な改善を示す。
私たちのシンプルで効果的なアプローチは、現実世界のアプリケーションにとってより実用的です。
論文 参考訳(メタデータ) (2023-09-06T06:51:15Z) - OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models [57.27101446992148]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効である。
多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T02:28:35Z) - FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only
Quantization for LLMs [9.072821427818557]
大規模言語モデル(LLM)は、様々な言語タスクで最先端のパフォーマンスを達成しているが、実用的なデプロイメントには課題がある。
メモリ消費を削減し,LLMの推論を高速化する,効率的な重みのみの量子化法を提案する。
我々は,OPT-175Bや内部MoEモデルのような大規模オープンソースモデルに対するアプローチを評価し,スループットを最大3.65倍に向上しながら,最小限の精度の損失を示す。
論文 参考訳(メタデータ) (2023-08-16T23:57:41Z) - AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration [54.692405042065815]
大規模言語モデル(LLM)は、多数のアプリケーションの能力を変革した。
エッジデバイス上でのLSMの実行により、レイテンシの低減とユーザエクスペリエンスの向上を実現している。
低ビット量のみの量子化のためのアクティベーション・アウェア・ウェイト量子化(AWQ)を提案する。
論文 参考訳(メタデータ) (2023-06-01T17:59:10Z) - PreQuant: A Task-agnostic Quantization Approach for Pre-trained Language
Models [52.09865918265002]
ファインチューニングのフレームワークPreQuantに先立って,新しい量子化を提案する。
PreQuantは様々な量子化戦略と互換性があり、インダクションされた量子化誤差を修正するために、アウタリア対応の微調整が組み込まれている。
BERT,RoBERTa,T5を用いたGLUEベンチマークにおけるPreQuantの有効性を示す。
論文 参考訳(メタデータ) (2023-05-30T08:41:33Z) - Memory-Efficient Fine-Tuning of Compressed Large Language Models via
sub-4-bit Integer Quantization [27.79783067245817]
大規模言語モデル(LLM)は、高いメモリ要求と計算コストのため、微調整とデプロイメントの課題に直面している。
本稿では,PEFT と量子化 LLM の利点を組み合わせた簡易かつ効果的な手法である PEQA (Efficient Adaptation and Quantization-aware) を提案する。
論文 参考訳(メタデータ) (2023-05-23T15:20:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。