論文の概要: Integer or Floating Point? New Outlooks for Low-Bit Quantization on
Large Language Models
- arxiv url: http://arxiv.org/abs/2305.12356v1
- Date: Sun, 21 May 2023 05:28:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 21:02:21.346300
- Title: Integer or Floating Point? New Outlooks for Low-Bit Quantization on
Large Language Models
- Title(参考訳): 整数か浮動小数点か?
大規模言語モデルにおける低ビット量子化の新しい展望
- Authors: Yijia Zhang, Lingran Zhao, Shijie Cao, Wenqiang Wang, Ting Cao, Fan
Yang, Mao Yang, Shanghang Zhang, Ningyi Xu
- Abstract要約: 低ビット整数形式(例えばINT8/INT4)は、大規模言語モデル(LLM)の従来の選択肢である。
低ビット浮動小数点フォーマット(例えばFP8/FP4)は魅力的な代替手段であり、NVIDIAのH100 GPUのような最先端ハードウェアからサポートを受けている。
本稿では,階層的に最適なフォーマットを選択するMoFQ(Mixture of Formats Quantization)を提案する。
- 参考スコア(独自算出の注目度): 17.055400141733124
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient deployment of large language models (LLMs) necessitates low-bit
quantization to minimize model size and inference cost. While low-bit integer
formats (e.g., INT8/INT4) have been the conventional choice, emerging low-bit
floating-point formats (e.g., FP8/FP4) offer a compelling alternative and are
gaining support from cutting-edge hardware, such as NVIDIA's H100 GPU. However,
the superiority of low-bit INT versus FP formats for quantization on LLMs
remains unclear. In this study, we conduct a comparative analysis of INT and FP
quantization with the same bit-width, revealing that the optimal quantization
format varies across different layers due to the complexity and diversity of
tensor distribution. Consequently, we advocate the Mixture of Formats
Quantization (MoFQ), which selects the optimal format on a layer-wise basis.
This simple yet effective approach achieves state-of-the-art results in both
weight-only (W-only) and weight-activation (WA) post-training quantization
scenarios when tested on LLaMA across various tasks. In 4-bit W-only
quantization, MoFQ surpasses GPTQ without complex hyperparameter tuning and
with an order of magnitude faster quantization speed. While in 8-bit WA
quantization, MoFQ significantly outperforms INT/FP-only methods, achieving
performance close to the full precision model. Notably, MoFQ incurs no hardware
overhead compared to INT/FP-only quantization, as the bit-width remains
unchanged.
- Abstract(参考訳): 大規模言語モデル(llms)の効率的な展開は、モデルのサイズと推論コストを最小限に抑えるために低ビットの量子化を必要とする。
低ビット整数フォーマット(例えばINT8/INT4)が従来の選択肢であったが、新しい低ビット浮動小数点フォーマット(例えばFP8/FP4)は魅力的な代替手段を提供し、NVIDIAのH100 GPUのような最先端ハードウェアからサポートを受けている。
しかし、LLM上での量子化における低ビットINTとFPフォーマットの優位性は未だ不明である。
本研究では,同一ビット幅のintおよびfp量子化の比較解析を行い,テンソル分布の複雑さと多様性により,最適量子化形式が異なる層間で異なることを明らかにした。
そこで我々は,階層的に最適なフォーマットを選択するMoFQ(Mixture of Formats Quantization)を提案する。
この単純で効果的なアプローチは、LLaMA上で様々なタスクでテストした場合に、ウェイトオンリー(Wのみ)とウェイトアクティベーション(WA)後の量子化シナリオの両方で、最先端の結果を達成する。
4ビットWのみの量子化では、MoFQは複雑なハイパーパラメータチューニングがなく、桁違いに高速な量子化速度でGPTQを超える。
8ビットのWA量子化では、MoFQはINT/FPのみの手法よりも優れており、完全な精度モデルに近い性能を実現している。
特に、MoFQは、ビット幅が変わらないため、INT/FPのみの量子化に比べてハードウェアのオーバーヘッドは発生しない。
関連論文リスト
- ZeroQuant(4+2): Redefining LLMs Quantization with a New FP6-Centric
Strategy for Diverse Generative Tasks [31.431016659268206]
本研究では,大規模言語モデル(LLM)におけるGPTQのような4ビット量子化手法について検討する。
タスクスコープは、コード生成や抽象的な要約といった、より生成的なカテゴリに拡張します。
最新のINT4微細粒量子化に類似したレイテンシを実現するために,FP6のための新しい4+2設計を提案する。
論文 参考訳(メタデータ) (2023-12-14T01:06:37Z) - Post-Training Quantization with Low-precision Minifloats and Integers on
FPGAs [41.10746835088149]
ポストトレーニング量子化(PTQ)はモデル圧縮の強力な技術であり、追加のトレーニングオーバーヘッドなしにニューラルネットワークの精度を低下させる。
近年,8ビット浮動小数点量子化(FP8)をPTQの文脈でモデル推論に適用する研究が進められている。
本稿では,モデルのメモリフットプリント,レイテンシ,エネルギーコストをさらに削減できる,精度の低い浮動小数点形状のミニフロートを提案する。
論文 参考訳(メタデータ) (2023-11-21T05:27:16Z) - AFPQ: Asymmetric Floating Point Quantization for LLMs [6.176074875528637]
正値と負値の別スケールを設定する非対称FP量子化(AFPQ)を提案する。
提案手法は精度が向上し, GPTQ や AWQ など他の量子化手法に簡単に接続できる。
非対称整数(INT)量子化と比較して余分なストレージは不要である。
論文 参考訳(メタデータ) (2023-11-03T09:07:09Z) - LLM-FP4: 4-Bit Floating-Point Quantized Transformers [38.23587031169402]
大規模言語モデル(LLM)における重みとアクティベーションを4ビット浮動小数点値まで定量化するLLM-FP4を提案する。
整数量子化と比較すると、浮動小数点(FP)量子化はより柔軟であり、長い尾や鐘のような分布を扱うことができる。
LLaMA-13Bの重みとアクティベーションの両方を4ビットに定量化し,平均スコア63.1を得る。
論文 参考訳(メタデータ) (2023-10-25T17:59:32Z) - OmniQuant: Omnidirectionally Calibrated Quantization for Large Language
Models [59.176603429408225]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
最近のPTQ法はメモリフットプリントの削減に有効であるが、極端に低ビットの量子化に対処できない。
多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T02:28:35Z) - ZeroQuant-FP: A Leap Forward in LLMs Post-Training W4A8 Quantization
Using Floating-Point Formats [25.543571445739936]
本研究では,大規模言語モデル(LLM)における浮動小数点量子化(FP)の実現可能性について検討する。
LLMでは、FP8のアクティベーションは整数(INT8)を一貫して上回り、性能エッジは10億を超えるパラメータを持つモデルではより顕著になる。
重量量子化では、FP4はINT4に匹敵する性能を示し、H100のようなFP対応ハードウェアへの展開を単純化している。
論文 参考訳(メタデータ) (2023-07-19T06:58:03Z) - SqueezeLLM: Dense-and-Sparse Quantization [83.7810943431625]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Distribution-Flexible Subset Quantization for Post-Quantizing
Super-Resolution Networks [68.83451203841624]
本稿では,超高分解能ネットワークのためのポストトレーニング量子化手法であるDFSQを提案する。
DFSQは活性化のチャネルワイド正規化を行い、分布フレキシブルなサブセット量子化(SQ)を適用する
6ビットの量子化と8ビットの量子化では完全精度に匹敵する性能を達成し、4ビットの量子化では0.1dBのPSNR低下しか生じない。
論文 参考訳(メタデータ) (2023-05-10T04:19:11Z) - Towards Efficient Post-training Quantization of Pre-trained Language
Models [85.68317334241287]
PLMのポストトレーニング量子化(PTQ)について検討し,モジュール単位の量子化誤差最小化(MREM)を提案する。
GLUEとSQuADベンチマークの実験により、提案したPTQソリューションはQATに近く動作するだけでなく、トレーニング時間、メモリオーバーヘッド、データ消費を大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2021-09-30T12:50:06Z) - Differentiable Model Compression via Pseudo Quantization Noise [99.89011673907814]
本稿では,モデルパラメータに独立な擬似量子化雑音を加えて量子化演算子の効果を近似する。
本手法が,画像分類,言語モデリング,音声ソース分離などのベンチマークやアーキテクチャにおいて,最先端の量子化技術を上回ることを実験的に検証した。
論文 参考訳(メタデータ) (2021-04-20T14:14:03Z) - HAWQV3: Dyadic Neural Network Quantization [73.11579145354801]
現在の低精度量子化アルゴリズムは、浮動小数点から量子化された整数値への変換の隠れコストを持つことが多い。
HAWQV3は、新しい混合精度整数のみの量子化フレームワークである。
論文 参考訳(メタデータ) (2020-11-20T23:51:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。