論文の概要: SFMP: Fine-Grained, Hardware-Friendly and Search-Free Mixed-Precision Quantization for Large Language Models
- arxiv url: http://arxiv.org/abs/2602.01027v1
- Date: Sun, 01 Feb 2026 05:24:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.539859
- Title: SFMP: Fine-Grained, Hardware-Friendly and Search-Free Mixed-Precision Quantization for Large Language Models
- Title(参考訳): SFMP:大規模言語モデルのための細粒度、ハードウェアフレンドリー、検索不要混合精度量子化
- Authors: Xin Nie, Haicheng Zhang, Liang Dong, Beining Feng, Jinhong Weng, Guiling Sun,
- Abstract要約: 混合精度量子化(Mixed-precision Quantization)は、強いメモリ予算の下で大きな言語モデルを圧縮するための有望なアプローチである。
本研究では,大規模言語モデルを対象とした検索自由かつハードウェアフレンドリな混合精度量子化フレームワークであるSFMPを提案する。
- 参考スコア(独自算出の注目度): 4.269807933198402
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixed-precision quantization is a promising approach for compressing large language models under tight memory budgets. However, existing mixed-precision methods typically suffer from one of two limitations: they either rely on expensive discrete optimization to determine precision allocation, or introduce hardware inefficiencies due to irregular memory layouts. We propose SFMP, a search-free and hardware-friendly mixed-precision quantization framework for large language models. The framework is built upon four novel ideas: Fractional bit-width, which extends integer bit-width for weight matrix to fractional value and transforms discrete precision allocation as a continuous problem; 2)Block-wise mixed-precision, enabling fine-grained precision within weight matrices while remaining hardware-friendly; 3)Row-column weight reordering, which aggregates salient weights via row and column reordering, incurring only a small activation reordering overhead during inference; 4)Unified GEMM kernel, which supports mixed-precision GEMM at arbitrary average bit-width. Extensive experiments demonstrate that SFMP outperforms state-of-the-art layer-wise mixed-precision methods under the same memory constraints, while significantly reducing quantization cost and improving inference efficiency. Code is available at https://github.com/Nkniexin/SFMP
- Abstract(参考訳): 混合精度量子化(Mixed-precision Quantization)は、強いメモリ予算の下で大きな言語モデルを圧縮するための有望なアプローチである。
しかし、既存の混合精度法は、通常2つの制限の1つに悩まされる:それらは精度の割り当てを決定するために高価な離散最適化に依存するか、不規則なメモリレイアウトのためにハードウェアの非効率を導入するかである。
本研究では,大規模言語モデルを対象とした検索自由かつハードウェアフレンドリな混合精度量子化フレームワークであるSFMPを提案する。
このフレームワークは、4つの新しいアイデアに基づいて構築されている: 分数ビット幅: 重み行列の整数ビット幅を分数値に拡張し、連続的な問題として離散精度割り当てを変換する; 2) ブロックワイドな混合精度: ハードウェアフレンドリーなままの重量行列内できめ細かな精度を実現する; 3) 列と列の並べ替えによってサレントウェイトウェイトを集約するローカラムウェイトリオーダリング: 推論中に小さなアクティベートリオーダのみを与える; 4) GEMMカーネル: 任意の平均ビット幅での混合精度GEMMをサポートする統一GEMMカーネル。
拡張実験により、SFMPは、同じメモリ制約下で、最先端のレイヤーワイド混合精度法より優れ、量子化コストを著しく低減し、推論効率を向上することを示した。
コードはhttps://github.com/Nkniexin/SFMPで入手できる。
関連論文リスト
- MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文 参考訳(メタデータ) (2025-07-06T08:16:50Z) - Addition is almost all you need: Compressing neural networks with double binary factorization [0.0]
二重二元因子化(DBF)は、密度重み行列を2つの二元行列の積に分解する新しい方法である。
DBFは2値表現の効率性を保ちつつ、最先端の手法と競合する圧縮率を達成する。
重量あたりの2ビットでは、DBFはQuIP#やQTIPのような最高の量子化手法と競合する。
論文 参考訳(メタデータ) (2025-05-16T10:07:36Z) - FineQ: Software-Hardware Co-Design for Low-Bit Fine-Grained Mixed-Precision Quantization of LLMs [13.951330786310262]
FineQは、ソフトウェアとハードウェアの共同設計であり、大規模言語モデルの低ビット細粒度混合精度量子化のための設計である。
重みをよりきめ細かいクラスタに分割し、これらのクラスタ内の外れ値の分布を考慮する。
近似平均ビット幅でのSOTA混合精度量子化アルゴリズムと比較してモデル精度が向上する。
論文 参考訳(メタデータ) (2025-04-28T12:47:23Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である
本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。
実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - Accurate Block Quantization in LLMs with Outliers [0.6138671548064355]
極大規模LLMの推理需要はここ数カ月で大きく伸びている。
この問題は処理中のシーケンスの長さが爆発的に増加することで増大する。
重みとアクティベーションの両方の正確な量子化を可能にする様々な量子化技術が提案されている。
論文 参考訳(メタデータ) (2024-03-29T12:15:06Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。