論文の概要: SQ-format: A Unified Sparse-Quantized Hardware-friendly Data Format for LLMs
- arxiv url: http://arxiv.org/abs/2512.05409v1
- Date: Fri, 05 Dec 2025 03:58:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.890516
- Title: SQ-format: A Unified Sparse-Quantized Hardware-friendly Data Format for LLMs
- Title(参考訳): SQ-format: LLM用統一スパース量子ハードウェアフレンドリなデータフォーマット
- Authors: Ruixuan Huang, Hao Zeng, Hantao Huang, Jinyuan Shi, Minghui Yu, Ian En-Hsu Yen, Shuai Wang,
- Abstract要約: 後学習量子化(PTQ)は、大規模言語モデル(LLM)の民主化において重要な役割を果たす
既存の低ビット量子化とスペーサー化技術は、ハードウェアサポートが限られているため、精度と効率のバランスをとるのが難しい。
本稿では,量子化とスパース化のための統一データフォーマットであるスパース量子フォーマット(SQ-format)を提案する。
- 参考スコア(独自算出の注目度): 8.787017031267482
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-training quantization (PTQ) plays a crucial role in the democratization of large language models (LLMs). However, existing low-bit quantization and sparsification techniques are difficult to balance accuracy and efficiency due to the limited hardware support. For example, W4A8 can only achieve the same peak TOPS as W8A8 whereas the GPU-supported sparse data format (2:4 semi-structure sparse) is seldomly adopted due to the loss of accuracy. To bridge this gap, in this paper, we propose the Sparse-Quantized Format (SQ-format), which is a unified data format for quantization and sparsification potentially easily supported by new hardware and existing GPUs. SQ-format makes use of the fact that sparse matrix can be accelerated in high-precision, and low-precision matrix multiplication can also be accelerated accordingly. As such, SQ-format is proposed to achieve Pareto improvement between performance and throughput. This format is particularly suitable for activations with outlier inequality status and makes their static compression possible. We show the state-of-the-art PTQ performance with SQ-format, propose the hardware required to support it, and further offer the design exploration and insights for the next-generation AI accelerators.
- Abstract(参考訳): 学習後の量子化(PTQ)は、大規模言語モデル(LLM)の民主化において重要な役割を果たす。
しかし、ハードウェアサポートが限られているため、既存の低ビット量子化とスペーサー化技術は精度と効率のバランスをとるのが難しい。
例えば、W4A8はW8A8と同じピークTOPSしか達成できないが、GPUがサポートしているスパースデータフォーマット(2:4半構造スパース)は精度の低下によりほとんど採用されない。
本稿では、このギャップを埋めるために、新しいハードウェアや既存のGPUで容易にサポート可能な量子化とスパース化のための統一データフォーマットであるスパース量子フォーマット(SQ-format)を提案する。
SQ-formatはスパース行列が高精度で加速できるという事実を利用し、それに応じて低精度行列乗算も加速できる。
そのため、SQ-formatはパフォーマンスとスループットのPareto改善を実現するために提案されている。
このフォーマットは、特に不等式が低いアクティベーションに適しており、静的圧縮を可能にする。
我々は、SQ-formatによる最先端のPTQパフォーマンスを示し、それをサポートするために必要なハードウェアを提案し、さらに、次世代AIアクセラレータの設計調査と洞察を提供する。
関連論文リスト
- "Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization [67.3213104337679]
量子化は大規模言語モデル(LLM)推論を高速化するための強力なツールであるが、異なるフォーマット間での精度と性能のトレードオフは依然として不明である。
FP8,INT8,INT4の量子化を学術ベンチマークや実世界のタスクで評価し,これまでで最も包括的な実証的研究を行った。
論文 参考訳(メタデータ) (2024-11-04T18:21:59Z) - Mitigating the Impact of Outlier Channels for Language Model Quantization with Activation Regularization [62.15918574997175]
言語モデルには、平均値が他のチャネルよりも桁違いに高い外れ値チャネルが含まれていることが知られている。
本稿では,QAT(Quantization-Aware Training)とアクティベーション・カルトシス・正規化(Activation Kurtosis regularization)によって,レイヤの入力を正規化する戦略を提案する。
入力と出力の両方を正規化することは、入力量子化の難しさを重みに"移行"するのを防ぐために重要であることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:25:30Z) - Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。
トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文 参考訳(メタデータ) (2024-01-11T18:54:44Z) - EfficientDM: Efficient Quantization-Aware Fine-Tuning of Low-Bit Diffusion Models [21.17675493267517]
ポストトレーニング量子化(PTQ)と量子化学習(QAT)は、拡散モデルを圧縮・加速する2つの主要なアプローチである。
我々は、PTQのような効率でQATレベルの性能を実現するために、EfficientDMと呼ばれる低ビット拡散モデルのためのデータフリーかつパラメータ効率の微調整フレームワークを導入する。
提案手法は, PTQに基づく拡散モデルにおいて, 同様の時間とデータ効率を保ちながら, 性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-10-05T02:51:53Z) - Integer or Floating Point? New Outlooks for Low-Bit Quantization on
Large Language Models [17.055400141733124]
低ビット整数形式(例えばINT8/INT4)は、大規模言語モデル(LLM)の従来の選択肢である。
低ビット浮動小数点フォーマット(例えばFP8/FP4)は魅力的な代替手段であり、NVIDIAのH100 GPUのような最先端ハードウェアからサポートを受けている。
本稿では,階層的に最適なフォーマットを選択するMoFQ(Mixture of Formats Quantization)を提案する。
論文 参考訳(メタデータ) (2023-05-21T05:28:37Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。