論文の概要: ARCQuant: Boosting NVFP4 Quantization with Augmented Residual Channels for LLMs
- arxiv url: http://arxiv.org/abs/2601.07475v1
- Date: Mon, 12 Jan 2026 12:27:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.378521
- Title: ARCQuant: Boosting NVFP4 Quantization with Augmented Residual Channels for LLMs
- Title(参考訳): ARCQuant: LLM用拡張残留チャネルを用いたNVFP4量子化
- Authors: Haoqian Meng, Yilun Luo, Yafei Zhao, Wenyuan Liu, Peng Zhang, Xindian Ma,
- Abstract要約: ARCQuantは、Augmented Residual Channelsを通じてNVFP4パフォーマンスを向上させるフレームワークである。
ARCQuantは、複雑なタスクや下流タスクにおいて、完全精度のベースラインに匹敵する、最先端の精度を実現する。
- 参考スコア(独自算出の注目度): 4.431548809730958
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The emergence of fine-grained numerical formats like NVFP4 presents new opportunities for efficient Large Language Model (LLM) inference. However, it is difficult to adapt existing Post-Training Quantization (PTQ) strategies to these formats: rotation-based methods compromise fine-grained block isolation; smoothing techniques struggle with significant 4-bit quantization errors; and mixed-precision approaches often conflict with hardware constraints on unified-precision computation. To address these challenges, we propose ARCQuant, a framework that boosts NVFP4 performance via Augmented Residual Channels. Distinct from methods that compromise block isolation or hardware uniformity, ARCQuant maintains a strictly unified NVFP4 format by augmenting the activation matrix with quantized residual channels. This design integrates the error compensation process directly into the matrix reduction dimension, enabling the use of standard, highly optimized GEMM kernels with minimal overhead. Theoretical analysis confirms that the worst-case error bound of our dual-stage NVFP4 quantization is comparable to that of standard 8-bit formats such as MXFP8. Extensive experiments on LLaMA and Qwen models demonstrate that ARCQuant achieves state-of-the-art accuracy, comparable to full-precision baselines in perplexity and downstream tasks. Furthermore, deployment on RTX 5090 and RTX PRO 6000 GPUs confirms practical benefits, achieving up to 3x speedup over FP16. Our code is available at https://github.com/actypedef/ARCQuant .
- Abstract(参考訳): NVFP4のような微粒な数値形式が出現すると、効率的なLarge Language Model(LLM)推論の新しい機会がもたらされる。
しかし、これらのフォーマットに既存のPTQ(Post-Training Quantization)戦略を適用することは困難である。ローテーションベースの手法は、きめ細かいブロック分離を損なうこと、スムーズな手法は重要な4ビット量子化誤差に苦しむこと、混合精度アプローチは、統一精度計算におけるハードウェア制約と矛盾することが多い。
これらの課題に対処するために、Augmented Residual Channelsを介してNVFP4パフォーマンスを向上させるARCQuantを提案する。
ARCQuantはブロック分離やハードウェアの統一性を損なう方法とは別として、アクティベーションマトリックスを量子化された残留チャネルで拡張することにより、厳密に統一されたNVFP4フォーマットを維持している。
この設計は、誤差補償プロセスを行列還元次元に直接統合し、最小限のオーバーヘッドで標準的で高度に最適化されたGEMMカーネルの使用を可能にする。
理論的解析により、二段NVFP4量子化の最悪のエラー境界は、MXFP8のような標準8ビットフォーマットに匹敵することがわかった。
LLaMAおよびQwenモデルに対する大規模な実験により、ARCQuantは、パープレキシティおよび下流タスクにおける完全精度ベースラインに匹敵する最先端の精度を達成することを示した。
さらに、RTX 5090とRTX PRO 6000 GPUへのデプロイは、FP16よりも最大3倍のスピードアップを実現し、実用上のメリットを確認している。
私たちのコードはhttps://github.com/actypedef/ARCQuant で利用可能です。
関連論文リスト
- INT v.s. FP: A Comprehensive Study of Fine-Grained Low-bit Quantization Formats [51.72056104795248]
NvidiaのBlackwellアーキテクチャのような現代のAIハードウェアは、低精度浮動小数点(FP)フォーマットをますます受け入れている。
本稿では,FPフォーマットと整数(INT)フォーマットのトレードオフを系統的に検討する。
FPは粗粒度量子化に優れるが、きめ細かい(ブロックワイド)レベルでの比較はよりニュアンスが高い。
論文 参考訳(メタデータ) (2025-10-29T15:11:53Z) - Post-Training Quantization via Residual Truncation and Zero Suppression for Diffusion Models [10.000323762676633]
拡散モデルは、高品質な画像生成を実現するが、高い計算要求のため、デプロイメントの課題に直面している。
拡散モデルのための4ビットPTQスキームであるResidual Truncation and Zero Suppression (QuaRTZ) による量子化を提案する。
提案手法は,外乱保存とLSB精度のバランスをとることにより,丸め誤差を低減し,量子化効率を向上させる。
論文 参考訳(メタデータ) (2025-09-30T15:55:42Z) - Bridging the Gap Between Promise and Performance for Microscaling FP4 Quantization [77.67818998672516]
本研究は,MXFP4とNVFP4の学習後量子化に関する総合的研究である。
本稿では,従来のGPTQ量子化アルゴリズムの変種であるMicro-Rotated-GPTQ(MR-GPTQ)を紹介する。
MR-GPTQは最先端の精度で一致または性能が向上することを示す。
論文 参考訳(メタデータ) (2025-09-27T09:22:21Z) - PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - LiquidGEMM: Hardware-Efficient W4A8 GEMM Kernel for High-Performance LLM Serving [16.392977892243895]
LiquidGEMMは、4ビットの重みと8ビットのアクティベーション量子化のためのハードウェア効率の量子化手法である。
LiquidGEMMは最先端のW4A8カーネル上で最大2.90倍のスピードアップを実現し、最大4.94倍のエンドツーエンドのシステムレベルのスピードアップを実現している。
論文 参考訳(メタデータ) (2025-09-01T08:16:20Z) - Optimizing Large Language Model Training Using FP4 Quantization [73.55459961002371]
量子化トレーニングは、低ビット演算によるコスト削減を可能にすることで、有望なソリューションを提供する。
この研究は、大規模言語モデル(LLM)のための最初のFP4トレーニングフレームワークを紹介します。
論文 参考訳(メタデータ) (2025-01-28T18:04:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。