論文の概要: FASQ: Flexible Accelerated Subspace Quantization for Calibration-Free LLM Compression
- arxiv url: http://arxiv.org/abs/2605.04084v1
- Date: Wed, 22 Apr 2026 20:03:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 06:56:26.584835
- Title: FASQ: Flexible Accelerated Subspace Quantization for Calibration-Free LLM Compression
- Title(参考訳): FASQ:キャリブレーションフリーLLM圧縮のためのフレキシブル加速部分空間量子化
- Authors: Ye Qiao, Yian Wang, Zhiheng Chen, Hyoukjun Kwon, Sitao Huang,
- Abstract要約: FASQ(Flexible Accelerated Subspace Quantization)は,大規模言語モデルに製品量化を適用するキャリブレーションフリーフレームワークである。
Meta-Llama-3-8Bでは、FASQは4ビット GPTQ と AWQ の精度(67-42%モデルサイズ)を37-42%モデルサイズで上回っている。
- 参考スコア(独自算出の注目度): 5.385515135626162
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compressing large language models (LLMs) for deployment on commodity GPUs remains challenging: conventional scalar quantization is limited to fixed bit-widths (e.g., 8/4/3-bit), offers only a few discrete compression points, and typically requires calibration data. We present FASQ (Flexible Accelerated Subspace Quantization), a calibration-free framework that applies product quantization to LLM weight matrices. By tuning two parameters, sub-vector size and codebook cardinality, FASQ exposes a continuous design space spanning 27-49% of the original FP16 model size, filling compression gaps that fixed-bit schemes cannot reach. On Meta-Llama-3-8B, FASQ surpasses 4-bit GPTQ and AWQ in accuracy (67.1-67.7 avg.) at 37-42% model size, with consistent results on Qwen3-8B and Qwen3.5-9B-Base. To make product quantization practical at inference time, we design custom CUDA kernels: a LUT-free direct-compute GEMV for decode and an output-stationary double-buffered LUT GEMM for prefill, both with split-K parallelism. On an RTX~3090, FASQ achieves 45.2 tok/s decode at effective 4-bit (2.56x memory reduction) and 51.8 tok/s at effective 3-bit (2.80x), both surpassing FP16 tensor-core performance (43.9 tok/s) and delivering 1.6 to 1.8x the throughput of AWQ, 2.5 to 2.5x of GPTQ, and 4.3 to 5x of RTN. FASQ is the only compressed method that accelerates decode beyond FP16, offering calibration-free compression, continuous size-quality trade-offs, and real-time inference on a single consumer GPU.
- Abstract(参考訳): 通常のスカラー量子化は固定ビット幅(例:8/4/3ビット)に限定され、いくつかの離散圧縮ポイントしか提供せず、キャリブレーションデータを必要とする。
LLM重み行列に積量子化を適用するキャリブレーションフリーフレームワークであるFASQ(Flexible Accelerated Subspace Quantization)を提案する。
サブベクトルサイズとコードブック濃度の2つのパラメータをチューニングすることにより、FASQはFP16モデルの27~49%に及ぶ連続的な設計空間を公開し、固定ビットスキームが到達できない圧縮ギャップを埋める。
Meta-Llama-3-8B では、4ビット GPTQ と AWQ の精度 (67.1-67.7 avg.) を37-42% モデルサイズで上回り、Qwen3-8B と Qwen3.5-9B-Base で一貫した結果を得た。
製品量子化を推論時に現実的に行うために,デコード用のLUTフリー直接計算GEMVとプリフィル用の出力定常2バッファGEMMをスプリットK並列処理で設計する。
RTX~3090では、実効4ビット(2.56倍メモリ削減)で45.2トン/秒、実効3ビット(2.80倍)で51.8トン/秒、FP16テンソルコア性能(43.9トン/秒)を上回り、AWQのスループットが1.6から1.8倍、GPTQの2.5から2.5倍、RTNの4.3から5倍となる。
FASQはFP16を超えるデコードを促進する唯一の圧縮方法であり、キャリブレーションのない圧縮、連続的なサイズ品質のトレードオフ、一台の消費者向けGPU上でのリアルタイム推論を提供する。
関連論文リスト
- SPQ: An Ensemble Technique for Large Language Model Compression [1.2891210250935148]
SPQ(SVD-Pruning-Quantization)は,大規模言語モデルLLM圧縮のためのアンサンブル手法である。
最大75%のメモリ削減を実現し、パープレキシティを維持または改善する。
GPTQよりも推論を改善し、最大1.9倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2026-02-20T18:44:16Z) - BPDQ: Bit-Plane Decomposition Quantization on a Variable Grid for Large Language Models [56.504879072674015]
本稿では,ビットプレーンとスカラー係数による可変量子化グリッドを構成するビットプレーン分解量子化(BPDQ)を提案する。
BPDQは、1つのGTX 3090上でQwen2.5-72Bを83.85%のGSM8Kの精度で提供できる(ただし16ビットでは90.83%)。
論文 参考訳(メタデータ) (2026-02-04T02:54:37Z) - ARCQuant: Boosting NVFP4 Quantization with Augmented Residual Channels for LLMs [4.431548809730958]
ARCQuantは、Augmented Residual Channelsを通じてNVFP4パフォーマンスを向上させるフレームワークである。
ARCQuantは、複雑なタスクや下流タスクにおいて、完全精度のベースラインに匹敵する、最先端の精度を実現する。
論文 参考訳(メタデータ) (2026-01-12T12:27:22Z) - HAS-VQ: Hessian-Adaptive Sparse Vector Quantization for High-Fidelity LLM Compression [0.0]
HAS-VQ (Hessian-Adaptive Sparse Vec-tor Quantization) は,高感度のアウトレーヤをバルク重量分布から厳密に分離する圧縮フレームワークである。
我々は, SmolLM2-1.7B上のHAS-VQを評価し, 2つの異なる優越性を証明した。
論文 参考訳(メタデータ) (2026-01-11T15:35:10Z) - CCQ: Convolutional Code for Extreme Low-bit Quantization in LLMs [25.32003624625106]
畳み込み符号量子化(英: Convolutional Code Quantization、CCQ)は、大言語モデルを2.0-2.75ビットに圧縮する推論最適化量子化手法である。
コードブックと重みの線形マッピングが可能なルックアップフリーな符号化空間を構築する。
CCQ は様々なベンチマークにおいて LLM 上で優れた性能を発揮することを示す実験である。
論文 参考訳(メタデータ) (2025-07-09T06:04:14Z) - KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization [67.74400574357472]
LLMは、大きなコンテキストウィンドウを必要とするアプリケーションでの利用が増えており、この大きなコンテキストウィンドウでは、KVキャッシュのアクティベーションが推論時のメモリ消費の主要な要因として表面化している。
量子化はKVキャッシュのアクティベーションを圧縮する上で有望な手法であるが、既存のソリューションは4ビット以下の精度でアクティベーションを正確に表現できない。
我々の研究であるKVQuantは、いくつかの新しい手法を取り入れることで、低精度のKVキャッシュ量子化を容易にする。
論文 参考訳(メタデータ) (2024-01-31T18:58:14Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight
Compression [76.73007709690306]
Sparse-Quantized Representation (SpQR) は,新しい圧縮フォーマットと量子化技術である。
SpQRは、高精度なLLaMAとFalcon LLMのパープレキシティにおいて、1%未満の相対的精度の損失を達成している。
これにより、1台の24GBのコンシューマGPU上で33BパラメータのLSMを実行でき、15%のスピードアップでパフォーマンスの劣化は発生しない。
論文 参考訳(メタデータ) (2023-06-05T17:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。