論文の概要: FP6-LLM: Efficiently Serving Large Language Models Through FP6-Centric
Algorithm-System Co-Design
- arxiv url: http://arxiv.org/abs/2401.14112v1
- Date: Thu, 25 Jan 2024 11:46:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-26 14:42:26.958992
- Title: FP6-LLM: Efficiently Serving Large Language Models Through FP6-Centric
Algorithm-System Co-Design
- Title(参考訳): FP6-LLM:FP6-Centric Algorithm-System Co-Designによる大規模言語モデルの効率的な実行
- Authors: Haojun Xia, Zhen Zheng, Xiaoxia Wu, Shiyang Chen, Zhewei Yao, Stephen
Youn, Arash Bakhtiari, Michael Wyatt, Donglin Zhuang, Zhongzhu Zhou, Olatunji
Ruwase, Yuxiong He, Shuaiwen Leon Song
- Abstract要約: 6ビット量子化(FP6)は、大きな言語モデル(LLM)のサイズを効果的に削減できる。
既存のシステムは、FP6量子化のCoreサポートを提供していない。
各種量子化ビット幅に対するフロートポイント重みのコアサポートを統一した最初のフルスタックGPUカーネル設計スキームであるTCFPxを提案する。
- 参考スコア(独自算出の注目度): 30.594788583458893
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Six-bit quantization (FP6) can effectively reduce the size of large language
models (LLMs) and preserve the model quality consistently across varied
applications. However, existing systems do not provide Tensor Core support for
FP6 quantization and struggle to achieve practical performance improvements
during LLM inference. It is challenging to support FP6 quantization on GPUs due
to (1) unfriendly memory access of model weights with irregular bit-width and
(2) high runtime overhead of weight de-quantization. To address these problems,
we propose TC-FPx, the first full-stack GPU kernel design scheme with unified
Tensor Core support of float-point weights for various quantization bit-width.
We integrate TC-FPx kernel into an existing inference system, providing new
end-to-end support (called FP6-LLM) for quantized LLM inference, where better
trade-offs between inference cost and model quality are achieved. Experiments
show that FP6-LLM enables the inference of LLaMA-70b using only a single GPU,
achieving 1.69x-2.65x higher normalized inference throughput than the FP16
baseline. The source code will be publicly available soon.
- Abstract(参考訳): 6ビット量子化(FP6)は、大規模言語モデル(LLM)のサイズを効果的に削減し、様々なアプリケーションにわたってモデル品質を一定に保つ。
しかし、既存のシステムは、FP6量子化のためのTensor Coreサポートを提供しておらず、LLM推論における実用的なパフォーマンス向上に苦慮している。
gpu上でfp6量子化をサポートするのは,(1)不規則なビット幅を持つモデル重みのメモリアクセス,(2)重み脱量子化のランタイムオーバヘッドが高いためである。
これらの問題に対処するために,様々な量子化ビット幅の浮動小数点重みを統一したTensor Coreをサポートする,最初のフルスタックGPUカーネル設計手法であるTC-FPxを提案する。
我々は,TC-FPxカーネルを既存の推論システムに統合し,量子化LSM推論のための新しいエンドツーエンドサポート(FP6-LLM)を提供する。
実験の結果、FP6-LLMは1つのGPUだけでLLaMA-70bの推論を可能にし、FP16ベースラインよりも1.69x-2.65倍高い正規化推論スループットを実現している。
ソースコードは近く公開される予定だ。
関連論文リスト
- "Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization [67.3213104337679]
我々は,学術ベンチマークや実世界のタスクにまたがる一般的な量子化形式を評価する。
W4A16は同期デプロイメントと中間層アーキテクチャの非同期デプロイメントに最適なコスト効率を提供する。
論文 参考訳(メタデータ) (2024-11-04T18:21:59Z) - Fast Matrix Multiplications for Lookup Table-Quantized LLMs [58.11584672945781]
FLUTEはLUT量子化LLM用のフレキシブルなルックアップテーブルエンジンである。
バッチサイズ32と量子化グループサイズ128では、FLUTEカーネルは既存のGEMMカーネルよりも2〜4倍高速である。
論文 参考訳(メタデータ) (2024-07-15T17:55:42Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - ZeroQuant(4+2): Redefining LLMs Quantization with a New FP6-Centric
Strategy for Diverse Generative Tasks [31.431016659268206]
本研究では,大規模言語モデル(LLM)におけるGPTQのような4ビット量子化手法について検討する。
タスクスコープは、コード生成や抽象的な要約といった、より生成的なカテゴリに拡張します。
最新のINT4微細粒量子化に類似したレイテンシを実現するために,FP6のための新しい4+2設計を提案する。
論文 参考訳(メタデータ) (2023-12-14T01:06:37Z) - LLM-FP4: 4-Bit Floating-Point Quantized Transformers [38.23587031169402]
大規模言語モデル(LLM)における重みとアクティベーションを4ビット浮動小数点値まで定量化するLLM-FP4を提案する。
整数量子化と比較すると、浮動小数点(FP)量子化はより柔軟であり、長い尾や鐘のような分布を扱うことができる。
LLaMA-13Bの重みとアクティベーションの両方を4ビットに定量化し,平均スコア63.1を得る。
論文 参考訳(メタデータ) (2023-10-25T17:59:32Z) - QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language
Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。
これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。
我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文 参考訳(メタデータ) (2023-10-13T17:15:05Z) - ZeroQuant-FP: A Leap Forward in LLMs Post-Training W4A8 Quantization
Using Floating-Point Formats [25.543571445739936]
本研究では,大規模言語モデル(LLM)における浮動小数点量子化(FP)の実現可能性について検討する。
LLMでは、FP8のアクティベーションは整数(INT8)を一貫して上回り、性能エッジは10億を超えるパラメータを持つモデルではより顕著になる。
重量量子化では、FP4はINT4に匹敵する性能を示し、H100のようなFP対応ハードウェアへの展開を単純化している。
論文 参考訳(メタデータ) (2023-07-19T06:58:03Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - ZeroQuant: Efficient and Affordable Post-Training Quantization for
Large-Scale Transformers [29.566132632781848]
我々は、ZeroQuantと呼ばれる大きなTransformerベースのモデルを圧縮するための、効率的で安価なポストトレーニング量子化手法を提案する。
ZeroQuantは3つの主要コンポーネントを備えたエンドツーエンドの量子化と推論パイプラインである。
論文 参考訳(メタデータ) (2022-06-04T00:28:21Z) - Mix and Match: A Novel FPGA-Centric Deep Neural Network Quantization
Framework [39.981546951333556]
本稿では,ハードウェアフレンドリーなモデル圧縮手法である重量量子化について述べる。
これは、(1)異なる行の重みの分布は同じではなく、(2)FPGAハードウェアリソースのより良い利用を達成する可能性によって動機づけられます。
論文 参考訳(メタデータ) (2020-12-08T06:25:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。