論文の概要: Fast NF4 Dequantization Kernels for Large Language Model Inference
- arxiv url: http://arxiv.org/abs/2604.02556v1
- Date: Thu, 02 Apr 2026 22:15:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.231282
- Title: Fast NF4 Dequantization Kernels for Large Language Model Inference
- Title(参考訳): 大規模言語モデル推論のための高速NF4量子化カーネル
- Authors: Xiangbo Qi, Chaoyi Jiang, Murali Annavaram,
- Abstract要約: 大規模言語モデル(LLM)は、単一のGPUデバイスのメモリ容量を超えて成長している。
NF4 (4-bit NormalFloat)量子化は4$times$メモリの削減を可能にするが、FP16フォーマットに戻すには高価な量子化を必要とする。
本稿では,このギャップに対応する軽量な共有メモリ最適化手法を提案する。
- 参考スコア(独自算出の注目度): 10.293114205183166
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have grown beyond the memory capacity of single GPU devices, necessitating quantization techniques for practical deployment. While NF4 (4-bit NormalFloat) quantization enables 4$\times$ memory reduction, inference on current NVIDIA GPUs (e.g., Ampere A100) requires expensive dequantization back to FP16 format, creating a critical performance bottleneck. This paper presents a lightweight shared memory optimization that addresses this gap through principled memory hierarchy exploitation while maintaining full ecosystem compatibility. We compare our technique against the open-source BitsAndBytes implementation, achieving 2.0--2.2$\times$ kernel speedup across three models (Gemma 27B, Qwen3 32B, and Llama3.3 70B) and up to 1.54$\times$ end-to-end improvement by leveraging the 12--15$\times$ latency advantage of shared memory over global memory access. Our optimization reduces instruction counts through simplified indexing logic while using only 64 bytes of shared memory per thread block, demonstrating that lightweight optimizations can deliver substantial performance gains with minimal engineering effort. This work provides a plug-and-play solution for the HuggingFace ecosystem that democratizes access to advanced models on existing GPU infrastructure.
- Abstract(参考訳): 大規模言語モデル(LLM)は、単一のGPUデバイスのメモリ容量を超えて成長し、実用的なデプロイメントのために量子化技術を必要としている。
NF4(4-bit NormalFloat)量子化は4$\times$メモリ削減を可能にするが、現在のNVIDIA GPU(例:Ampere A100)の推論は、FP16フォーマットへの高価なデクエント化を必要とし、重要なパフォーマンスボトルネックを生み出している。
本稿では、エコシステムの完全な互換性を維持しつつ、メモリ階層の原則的利用を通じて、このギャップに対処する軽量な共有メモリ最適化を提案する。
我々は、オープンソースのBitsAndBytes実装と比較し、3つのモデル(Gemma 27B、Qwen3 32B、Llama3.3 70B)で2.0--2.2$\times$カーネルのスピードアップを実現し、12-15$\times$グローバルメモリアクセスによる共有メモリのレイテンシの優位性を利用して、最大1.54$\times$エンドツーエンドの改善を実現した。
最適化では,スレッドブロック当たり64バイトの共有メモリしか使用せず,インデクシングロジックを単純化して命令数を削減し,軽量な最適化により,最小限のエンジニアリング労力で大幅なパフォーマンス向上を実現することを示す。
この作業は、既存のGPUインフラストラクチャ上の高度なモデルへのアクセスを民主化するHuggingFaceエコシステムのプラグイン・アンド・プレイソリューションを提供する。
関連論文リスト
- FlashAttention-4: Algorithm and Kernel Pipelining Co-Design for Asymmetric Hardware Scaling [20.849774181776414]
FlashAttention-4はcuDNN 9.13で最大1.3$times$、BF16でB200 GPUで2.7$times$Tritonで最大2.7$times$を達成している。
従来のC++テンプレートベースのアプローチと比較して20~30$times$高速なコンパイルタイムを実現しています。
論文 参考訳(メタデータ) (2026-03-05T18:24:49Z) - FPGA Co-Design for Efficient N:M Sparse and Quantized Model Inference [0.8749675983608171]
大規模言語モデル(LLM)は、幅広い言語処理タスクにおいて顕著な性能を示している。
この研究は、ウェイトプルーニングと低ビット量子化を活用する自動化フレームワークを導入している。
本研究では,FPGA(Field-Programmable Gate Array)プラットフォーム上でアクセラレータを生成するハードウェア・ソフトウェア共同設計手法を提案する。
論文 参考訳(メタデータ) (2025-12-31T08:27:40Z) - APT-LLM: Exploiting Arbitrary-Precision Tensor Core Computing for LLM Acceleration [5.075697428779204]
大規模言語モデル(LLM)は、AIアプリケーションに革命をもたらしたが、その膨大な計算要求は、デプロイメントとリアルタイムのパフォーマンスを著しく制限している。
これは主にGPU Coreの限定的なサポート、非効率なメモリ管理、非フレキシブルなカーネル最適化が原因である。
本稿では,任意の精度のLLM,すなわちAPT-LLMに対する包括的加速法を提案する。
論文 参考訳(メタデータ) (2025-08-26T14:48:29Z) - MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。
バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。
MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文 参考訳(メタデータ) (2024-08-21T16:10:41Z) - Fast Matrix Multiplications for Lookup Table-Quantized LLMs [58.11584672945781]
FLUTEはLUT量子化LLM用のフレキシブルなルックアップテーブルエンジンである。
バッチサイズ32と量子化グループサイズ128では、FLUTEカーネルは既存のGEMMカーネルよりも2〜4倍高速である。
論文 参考訳(メタデータ) (2024-07-15T17:55:42Z) - QMoE: Practical Sub-1-Bit Compression of Trillion-Parameter Models [64.34635279436054]
Mixture-of-Experts (MoE)アーキテクチャは、スパースルーティングによる大規模言語モデル(LLM)の高推論コストに対する一般的な解決策を提供する。
本稿では,QMoEと呼ばれる新しい圧縮実行フレームワークの形で,このメモリ問題に対する解決策を提案する。
論文 参考訳(メタデータ) (2023-10-25T17:24:53Z) - Distributed Out-of-Memory NMF on CPU/GPU Architectures [1.0051474951635875]
本稿では,HPCシステムに対する非負行列分解(NMF)アルゴリズムのメモリ外実装を提案する。
ベンチマークの結果、CPUベースのNMFkよりもGPUを使用した新しい実装により、32Xから76倍のスピードアップが大幅に改善された。
論文 参考訳(メタデータ) (2022-02-19T03:49:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。