論文の概要: The Power of Negative Zero: Datatype Customization for Quantized Large Language Models
- arxiv url: http://arxiv.org/abs/2501.04052v1
- Date: Mon, 06 Jan 2025 22:40:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-09 14:56:48.167106
- Title: The Power of Negative Zero: Datatype Customization for Quantized Large Language Models
- Title(参考訳): 負のゼロの力: 量子化大言語モデルのためのデータ型カスタマイズ
- Authors: Yuzong Chen, Xilai Dai, Chi-chih Chang, Yash Akhauri, Mohamed S. Abdelfattah,
- Abstract要約: 学習後の量子化は、大規模言語モデル(LLM)のメモリと計算要求を緩和する最もハードウェア効率の良い方法の1つである。
本稿では,基本FPデータ型を拡張して冗長ゼロリマッピング(RaZeR)を行う。
RaZeRは、負のゼロFPエンコーディングを、FP量子化エンコーディングを最大限活用し、数値分布をよりよく適合させるために、予め定義された特別な値のセットに再マップする。
- 参考スコア(独自算出の注目度): 5.503925076208333
- License:
- Abstract: Large language models (LLMs) have demonstrated remarkable performance across various machine learning tasks, quickly becoming one of the most prevalent AI workloads. Yet the substantial memory requirement of LLMs significantly hinders their deployment for end users. Post-training quantization (PTQ) serves as one of the most hardware-efficient methods to mitigate the memory and computational demands of LLMs. Although the traditional integer (INT) datatype has received widespread adoption in PTQ methods, floating-point (FP) quantization has emerged as a viable alternative thanks to its effectiveness in fitting LLM numerical distributions. However, the FP datatype in sign-magnitude binary representation contains both positive and negative zero, which constrains its representation capability, particularly under low precision (3 and 4 bits). In this paper, we extend the basic FP datatype to perform Redundant Zero Remapping (RaZeR), which remaps the negative zero FP encoding to a set of pre-defined special values to maximally utilize FP quantization encodings and to better fit LLM numerical distributions. Through careful selection of special values, RaZeR outperforms conventional asymmetric INT quantization while achieving high computational efficiency. We demonstrate that RaZeR can be seamlessly integrated with quantization algorithms for both weights and KV-cache, including advanced methods with clipping and transformations, and consistently achieve better model accuracy. Additionally, we implement a fast GEMV kernel with fused dequantization that efficiently converts the 4-bit RaZeR value to FP16 through novel bit-level manipulation. On modern GPUs, our evaluation shows that RaZeR improves the GEMV speed by up to 7.56$\times$ compared to the FP16 implementation, while achieving up to 2.72$\times$ speedup in the LLM decoding throughput.
- Abstract(参考訳): 大規模言語モデル(LLM)は、さまざまな機械学習タスクで顕著なパフォーマンスを示し、すぐに最も一般的なAIワークロードの1つになった。
しかし、LLMのかなりのメモリ要件は、エンドユーザへのデプロイメントを著しく妨げます。
後トレーニング量子化(PTQ)は、LCMのメモリと計算要求を緩和する最もハードウェア効率の良い手法の1つである。
従来の整数(INT)データ型はPTQ法で広く採用されているが、浮動小数点(FP)量子化は、LLM数値分布の適合性により、実現可能な代替手段として現れている。
しかし、符号-マグニチュードのバイナリ表現におけるFPデータ型は、正と負のゼロの両方を含み、特に3ビットと4ビットの低い精度で、その表現能力を制限する。
本稿では,基本FPデータ型を拡張して冗長ゼロリマッピング(RaZeR)を行い,負ゼロFPエンコーディングを予め定義された特別な値の集合に再マップし,FP量子化エンコーディングの最大化とLLM数値分布の整合性を向上する。
特別な値を慎重に選択することで、RaZeRは計算効率を高くしながら従来の非対称INT量子化よりも優れる。
我々は,RaZeRを重みとKV-cacheの量子化アルゴリズムとシームレスに統合できることを実証した。
さらに,4ビットのRaZeR値をFP16に効率よく変換できる高速GEMVカーネルを実装した。
現代のGPUでは、RazeRはFP16実装と比較して最大7.56$\times$でGEMV速度を向上し、LLM復号スループットでは最大2.72$\times$スピードアップを実現している。
関連論文リスト
- Anda: Unlocking Efficient LLM Inference with a Variable-Length Grouped Activation Data Format [5.527166214435735]
量子化大言語モデル(LLM)は低ビット整数(INT)重みを利用し、浮動小数点(FP)アクティベーションを保持する。
これにより、コストのかかるメモリアクセスと計算に関連するFPアクティベーションに、エネルギとレイテンシのボトルネックがシフトする。
既存のLCMアクセラレータは、FP計算とデータ移動を協調的に最適化する可能性を見越して、計算最適化に重点を置いている。
論文 参考訳(メタデータ) (2024-11-24T20:59:39Z) - Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。
PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。
我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文 参考訳(メタデータ) (2024-10-17T11:46:33Z) - Efficient Arbitrary Precision Acceleration for Large Language Models on GPU Tensor Cores [3.6385567224218556]
大規模言語モデル(LLM)は広く応用されているが、効率的な推論では課題に直面している。
本稿では、並列計算を容易にし、対称量子化をサポートする新しいバイポーラ-INTデータフォーマットを提案する。
ビットレベルで分解・復元する任意の精度行列乗算方式を実装し,フレキシブルな精度を実現する。
論文 参考訳(メタデータ) (2024-09-26T14:17:58Z) - I-LLM: Efficient Integer-Only Inference for Fully-Quantized Low-Bit Large Language Models [20.070306492164427]
学習後の量子化は、大きな言語モデルの推論を加速する強力な技術として機能する。
既存の作業は、推論中にかなりの数の浮動小数点(FP)操作を必要とする。
この制限は、エッジとクラウドデバイス上の大きな言語モデルのデプロイを妨げる。
大規模言語モデルに適した整数のみの完全量子化PTQフレームワークであるI-LLMを提案する。
論文 参考訳(メタデータ) (2024-05-28T05:56:11Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [67.67135738642547]
後学習量子化(PTQ)は、大規模言語モデル(LLM)において研究される強力な圧縮手法である。
既存のPTQ法は、特に4ビット幅以下では、精度と効率の点で理想的ではない。
本稿では,LSM,すなわちSliM-LLMに対するSalience-Driven Mixed-Precision Quantizationスキームを提案する。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - DB-LLM: Accurate Dual-Binarization for Efficient LLMs [83.70686728471547]
大規模言語モデル(LLM)は自然言語処理の分野を著しく進歩させてきた。
既存の超低ビット量子化は、常に深刻な精度低下を引き起こす。
本稿では,LLM,すなわちDB-LLMのための新しいデュアルバイナライズ手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T09:04:30Z) - OneBit: Towards Extremely Low-bit Large Language Models [66.29839811207617]
本稿では, LLMの重量行列を1ビットに大胆に定量化し, LLMの極低ビット幅展開への道を開く。
実験によると、OneBitは(LLaMAモデルの非量子化性能の少なくとも81%)優れたパフォーマンスを、堅牢なトレーニングプロセスで達成している。
論文 参考訳(メタデータ) (2024-02-17T14:26:57Z) - Trainable Fixed-Point Quantization for Deep Learning Acceleration on
FPGAs [30.325651150798915]
量子化は、組み込みFPGAのようなリソース制約のあるデバイスにディープラーニングモデルをデプロイするための重要な技術である。
モデルトレーニング中の二点位置を自動的に学習する,トレーニング可能な固定点量子化手法であるQFXを提案する。
QFXはPyTorchベースのライブラリとして実装され、FPGA HLSでサポートされている固定点演算を効率的にエミュレートする。
論文 参考訳(メタデータ) (2024-01-31T02:18:27Z) - Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。
トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文 参考訳(メタデータ) (2024-01-11T18:54:44Z) - QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language
Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。
これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。
我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文 参考訳(メタデータ) (2023-10-13T17:15:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。