論文の概要: OWQ: Lessons learned from activation outliers for weight quantization in
large language models
- arxiv url: http://arxiv.org/abs/2306.02272v2
- Date: Tue, 13 Jun 2023 07:31:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 16:46:23.398187
- Title: OWQ: Lessons learned from activation outliers for weight quantization in
large language models
- Title(参考訳): OWQ:大規模言語モデルにおける重み量子化のためのアクティベーション・アウトリーから学んだ教訓
- Authors: Changhun Lee, Jungyu Jin, Taesu Kim, Hyungjun Kim, Eunhyeok Park
- Abstract要約: 本稿では,品質劣化を最小限に抑えたウェイトに対するポストトレーニング量子化法を提案する。
本稿では、弱い重みを識別し、それらを高精度に割り当てる、outlier-aware weight Quantization (OWQ)と呼ばれる革新的なPTQ手法を提案する。
実験の結果,OWQが生成する3.01ビットモデルは,OPTQが生成する4ビットモデルに匹敵する品質を示した。
- 参考スコア(独自算出の注目度): 14.067729046445216
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) with hundreds of billions of parameters show
impressive results across various language tasks using simple prompt tuning and
few-shot examples, without the need for task-specific fine-tuning. However,
their enormous size requires multiple server-grade GPUs even for inference,
creating a significant cost barrier. To address this limitation, we introduce a
novel post-training quantization method for weights with minimal quality
degradation. While activation outliers are known to be problematic in
activation quantization, our theoretical analysis suggests that we can identify
factors contributing to weight quantization errors by considering activation
outliers. We propose an innovative PTQ scheme called outlier-aware weight
quantization (OWQ), which identifies vulnerable weights and allocates
high-precision to them. Our extensive experiments demonstrate that the 3.01-bit
models produced by OWQ exhibit comparable quality to the 4-bit models generated
by OPTQ.
- Abstract(参考訳): 数十億のパラメータを持つ大規模言語モデル(LLM)は、タスク固有の微調整を必要とせずに、単純なプロンプトチューニングと少数ショット例を使用して、様々な言語タスクで印象的な結果を示す。
しかし、その巨大なサイズは推論にも複数のサーバグレードのGPUを必要とし、大きなコスト障壁を生み出します。
この制限に対処するため, 最小品質劣化の重みに対するポストトレーニング量子化法を提案する。
アクティベーション・アウトレイアは, アクティベーション・量子化において問題となることが知られているが, 理論解析により, アクティベーション・アウトレイアを考慮すれば, 重み量子化誤差に寄与する要因を同定できることが示唆された。
我々は,脆弱性のある重みを識別し,高い精度を付与する,outlier-aware weight quantization(owq)と呼ばれる革新的なptqスキームを提案する。
OWQが生成する3.01ビットモデルは,OPTQが生成する4ビットモデルに匹敵する品質を示した。
関連論文リスト
- GWQ: Gradient-Aware Weight Quantization for Large Language Models [61.17678373122165]
勾配対応重み量子化(GWQ)は、勾配を利用して外れ値の局所化を行う、低ビット重み量子化のための最初の量子化手法である。
GWQはFP16精度で上位1%の外れ値に対応し、残りの非外れ値重みは低ビットフォーマットで格納される。
ゼロショットタスクでは、GWQ量子化モデルは他の量子化法よりも精度が高い。
論文 参考訳(メタデータ) (2024-10-30T11:16:04Z) - SQFT: Low-cost Model Adaptation in Low-precision Sparse Foundation Models [2.867517731896504]
SQFTは、大規模事前学習モデルの低精度スパースパラメータ効率微調整のためのエンドツーエンドソリューションである。
SQFTは資源制約のある環境で効果的なモデル操作を可能にする。
SQFTはまた、異なる数値精度の量子化重みとアダプタを持つという課題にも対処している。
論文 参考訳(メタデータ) (2024-10-01T19:49:35Z) - Accurate and Efficient Fine-Tuning of Quantized Large Language Models Through Optimal Balance [20.659750151408186]
大規模言語モデル(LLM)は、様々な領域で素晴らしいパフォーマンスを示している。
パラメータ量子化とローランド適応(LoRA)を組み合わせた既存ソリューション
平衡ランク適応(Q-BaRA)と高ランク適応(QA-HiRA)を考慮した量子化微調整(QA-HiRA)を提案する。
論文 参考訳(メタデータ) (2024-07-24T06:16:37Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [67.67135738642547]
後学習量子化(PTQ)は、大規模言語モデル(LLM)において研究される強力な圧縮手法である。
既存のPTQ法は、特に4ビット幅以下では、精度と効率の点で理想的ではない。
本稿では,LSM,すなわちSliM-LLMに対するSalience-Driven Mixed-Precision Quantizationスキームを提案する。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - WKVQuant: Quantizing Weight and Key/Value Cache for Large Language
Models Gains More [55.0856305773081]
大規模言語モデル (LLM) は、そのメモリ要求と自動回帰テキスト生成プロセスの計算要求のために、重要なデプロイメント課題に直面している。
本稿では、モデルパラメータとアクティベーションを低ビット整数に変換することでメモリ消費を低減する手法であるLCMの量子化に着目し、これらの課題に対処する。
論文 参考訳(メタデータ) (2024-02-19T11:33:21Z) - Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。
トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文 参考訳(メタデータ) (2024-01-11T18:54:44Z) - Norm Tweaking: High-performance Low-bit Quantization of Large Language
Models [21.855106896725598]
そこで本研究では,現在のPTQ手法のプラグインとして利用できるノルム調整手法を提案する。
本手法は,重量のみの量子化と重みとアクティベーションの連成量子化の両面で有意な改善を示す。
私たちのシンプルで効果的なアプローチは、現実世界のアプリケーションにとってより実用的です。
論文 参考訳(メタデータ) (2023-09-06T06:51:15Z) - OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models [57.27101446992148]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効である。
多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T02:28:35Z) - FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only
Quantization for LLMs [9.072821427818557]
大規模言語モデル(LLM)は、様々な言語タスクで最先端のパフォーマンスを達成しているが、実用的なデプロイメントには課題がある。
メモリ消費を削減し,LLMの推論を高速化する,効率的な重みのみの量子化法を提案する。
我々は,OPT-175Bや内部MoEモデルのような大規模オープンソースモデルに対するアプローチを評価し,スループットを最大3.65倍に向上しながら,最小限の精度の損失を示す。
論文 参考訳(メタデータ) (2023-08-16T23:57:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。