論文の概要: FlexQ: Efficient Post-training INT6 Quantization for LLM Serving via Algorithm-System Co-Design
- arxiv url: http://arxiv.org/abs/2508.04405v1
- Date: Wed, 06 Aug 2025 12:47:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.721502
- Title: FlexQ: Efficient Post-training INT6 Quantization for LLM Serving via Algorithm-System Co-Design
- Title(参考訳): FlexQ: アルゴリズムとシステムの共同設計によるLLMサービングのための効率的な後トレーニングINT6量子化
- Authors: Hao Zhang, Aining Jia, Weifeng Bu, Yushu Cai, Kai Sheng, Hao Chen, Xin He,
- Abstract要約: 大規模言語モデル(LLM)は例外的な性能を示すが、かなりのメモリと計算コストを必要とする。
既存のINT4/INT8量子化はこれらのコストを削減するが、しばしば精度を低下させるか、最適効率を欠く。
アルゴリズムの革新とシステムレベルの評価を組み合わせた新しいフレームワークFlexQを提案する。
- 参考スコア(独自算出の注目度): 18.37843481770631
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) demonstrate exceptional performance but entail significant memory and computational costs, restricting their practical deployment. While existing INT4/INT8 quantization reduces these costs, they often degrade accuracy or lack optimal efficiency. INT6 quantization offers a superior trade-off between model accuracy and inference efficiency, but lacks hardware support in modern GPUs, forcing emulation via higher-precision arithmetic units that limit acceleration. In this paper, we propose FlexQ, a novel post-training INT6 quantization framework combining algorithmic innovation with system-level optimizations. FlexQ employs uniform 6-bit weight quantization across all layers, with adaptive retention of 8-bit activations in layers identified through layer-wise sensitivity analysis. To maximize hardware efficiency, we develop a specialized high-performance GPU kernel supporting matrix multiplication for W6A6 and W6A8 representations via Binary Tensor Core (BTC) equivalents, effectively bypassing the lack of native INT6 tensor cores. Evaluations on LLaMA models show FlexQ maintains near-FP16 accuracy, with perplexity increases of no more than 0.05. The proposed kernel achieves an average 1.39$\times$ speedup over ABQ-LLM on LLaMA-2-70B linear layers. End-to-end, FlexQ delivers 1.33$\times$ inference acceleration and 1.21$\times$ memory savings over SmoothQuant. Code is released at https://github.com/FlyFoxPlayer/FlexQ.
- Abstract(参考訳): 大規模言語モデル(LLM)は例外的な性能を示すが、メモリと計算コストがかなり高く、実際の展開を制限している。
既存のINT4/INT8量子化はこれらのコストを削減するが、しばしば精度を低下させるか、最適効率を欠く。
INT6量子化はモデル精度と推論効率に優れたトレードオフを提供するが、現代のGPUではハードウェアサポートが欠如しており、加速を制限する高精度演算ユニットによるエミュレーションを強制している。
本稿では,アルゴリズムの革新とシステムレベルの最適化を組み合わせた,新しい学習後INT6量子化フレームワークFlexQを提案する。
FlexQは、すべての層にわたって均一な6ビットの量量子化を採用し、層ワイド感度分析によって識別された層における8ビットのアクティベーションの適応的保持を実現している。
ハードウェア効率を最大化するために、ネイティブINT6テンソルコアの欠如を効果的に回避し、W6A6とW6A8の表現をバイナリテンソルコア(BTC)の等価値でサポートする特別な高性能GPUカーネルを開発した。
LLaMAモデルの評価によると、FlexQはFP16に近い精度を維持しており、パープレキシティは0.05以下である。
提案したカーネルは、LLaMA-2-70B線形層上のABQ-LLM上での平均1.39$\times$スピードアップを達成する。
FlexQは、SmoothQuant上で1.33$\times$推論アクセラレーションと1.21$\times$メモリセーブを提供する。
コードはhttps://github.com/FlyFoxPlayer/FlexQ.comで公開されている。
関連論文リスト
- BlockFFN: Towards End-Side Acceleration-Friendly Mixture-of-Experts with Chunk-Level Activation Sparsity [66.94629945519125]
我々は、新しいMoEアーキテクチャであるBlockFFNと、その効率的なトレーニングとデプロイメント技術を紹介します。
具体的には、ReLUアクティベーションとRMSNormを統合したルータを、微分可能かつ柔軟なルーティングに使用します。
次に、トークンレベルのスペーサ(TLS)とチャンクレベルのスペーサ(CLS)の両方を促進するために、CLS対応のトレーニング目標を設計し、BlockFFNをより加速しやすいものにした。
論文 参考訳(メタデータ) (2025-07-11T17:28:56Z) - FireQ: Fast INT4-FP8 Kernel and RoPE-aware Quantization for LLM Inference Acceleration [1.6127639408026697]
FireQはPTQフレームワークとINT4-FP8行列乗算カーネルである。
FireQは、線形層重みとキー値をINT4に、アクティベーションとクエリをFP8に量子化する。
プリフィル相の3段配管は、プリフィル相における第1トーケンを減少させる。
論文 参考訳(メタデータ) (2025-05-27T07:58:35Z) - Towards Accurate and Efficient Sub-8-Bit Integer Training [24.853958178296587]
量子化は、ニューラルネットワークトレーニングにおける低ビット幅フォーマットを可能にする。
最近の手法では、量子化器上での新しいデータフォーマットと追加の事前処理操作が開発されている。
高い精度と効率を同時に達成することは、依然として非常に難しい。
論文 参考訳(メタデータ) (2024-11-17T03:32:36Z) - ABQ-LLM: Arbitrary-Bit Quantized Inference Acceleration for Large Language Models [9.444063879246242]
本稿では,新しい任意のビット量子化アルゴリズムと推論フレームワークであるABQ-LLMを紹介する。
様々な量子化設定において優れた性能を実現し、GPU上で効率的な任意の精度の量子化推論を可能にする。
論文 参考訳(メタデータ) (2024-08-16T06:39:08Z) - QServe: W4A8KV4 Quantization and System Co-design for Efficient LLM Serving [52.31791050376249]
量子化は大規模言語モデル(LLM)の推論を加速させる。
4ビット重み、8ビットアクティベーション、4ビットKVキャッシュを備えたW4A8KV4量子化アルゴリズムQoQを導入する。
QServeは、Llama-3-8BをA100で1.2倍、L40Sで1.4倍、Qwen-721.5BをA100で2.4倍、L40Sで3.5倍、達成可能な最大機能を改善する。
論文 参考訳(メタデータ) (2024-05-07T17:59:30Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - FP6-LLM: Efficiently Serving Large Language Models Through FP6-Centric
Algorithm-System Co-Design [30.594788583458893]
6ビット量子化(FP6)は、大きな言語モデル(LLM)のサイズを効果的に削減できる。
既存のシステムは、FP6量子化のCoreサポートを提供していない。
各種量子化ビット幅に対するフロートポイント重みのコアサポートを統一した最初のフルスタックGPUカーネル設計スキームであるTCFPxを提案する。
論文 参考訳(メタデータ) (2024-01-25T11:46:38Z) - Dual Grained Quantization: Efficient Fine-Grained Quantization for LLM [6.85331857224501]
LLM(Large Language Models)は、メモリ要件と計算能力に関する重要なハードウェア上の課題を提起する。
LLMには2つの主要な量子化スキームがある: 粗粒(textite.g.$ channel-wise)量子化と細粒(textite.g.$ group-wise)量子化である。
我々は、高速な推論速度を確保しつつ優れた性能を維持するLLMのための新しいA8W4量子化であるDual Grained Quantization (DGQ)を紹介する。
論文 参考訳(メタデータ) (2023-10-07T14:50:28Z) - OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models [57.27101446992148]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効である。
多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T02:28:35Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - FlexGen: High-Throughput Generative Inference of Large Language Models
with a Single GPU [89.2451963569343]
FlexGenは、単一のコモディティGPU上で大きな言語モデル(LLM)推論を実行するための世代エンジンである。
1つの16GB GPU上でOPT-175Bを実行する場合、FlexGenは最先端のオフロードシステムに比べてスループットが大幅に向上する。
HELMベンチマークでは、FlexGenは7つの代表サブシナリオに16GBのGPUで30Bモデルを21時間でベンチマークすることができる。
論文 参考訳(メタデータ) (2023-03-13T05:19:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。