論文の概要: FGMP: Fine-Grained Mixed-Precision Weight and Activation Quantization for Hardware-Accelerated LLM Inference
- arxiv url: http://arxiv.org/abs/2504.14152v1
- Date: Sat, 19 Apr 2025 02:51:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 04:40:11.286655
- Title: FGMP: Fine-Grained Mixed-Precision Weight and Activation Quantization for Hardware-Accelerated LLM Inference
- Title(参考訳): FGMP:ハードウェア加速LDM推論のための微粒混合精度ウェイトとアクティベーション量子化
- Authors: Coleman Hooper, Charbel Sakr, Ben Keller, Rangharajan Venkatesan, Kurt Keutzer, Sophia Shao, Brucek Khailany,
- Abstract要約: 量子化は、大きな言語モデル(LLM)推論効率を改善する強力なツールである。
LLM重みとアクティベーションを高精度に定量化することは、モデルの精度を劣化させることなく困難である。
ハードウェア-ソフトウェア共設計手法であるFGMP量子化法を提案する。
- 参考スコア(独自算出の注目度): 25.6644057021512
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quantization is a powerful tool to improve large language model (LLM) inference efficiency by utilizing more energy-efficient low-precision datapaths and reducing memory footprint. However, accurately quantizing LLM weights and activations to low precision is challenging without degrading model accuracy. We propose fine-grained mixed precision (FGMP) quantization, a post-training mixed-precision quantization hardware-software co-design methodology that maintains accuracy while quantizing the majority of weights and activations to reduced precision. Our work makes the following contributions: 1) We develop a policy that uses the perturbation in each value, weighted by the Fisher information, to select which weight and activation blocks to keep in higher precision. This approach preserves accuracy by identifying which weight and activation blocks need to be retained in higher precision to minimize the perturbation in the model loss. 2) We also propose a sensitivity-weighted clipping approach for fine-grained quantization which helps retain accuracy for blocks that are quantized to low precision. 3) We then propose hardware augmentations to leverage the efficiency benefits of FGMP quantization. Our hardware implementation encompasses i) datapath support for FGMP at block granularity, and ii) a mixed-precision activation quantization unit to assign activation blocks to high or low precision on the fly with minimal runtime and energy overhead. Our design, prototyped using NVFP4 (an FP4 format with microscaling) as the low-precision datatype and FP8 as the high-precision datatype, facilitates efficient FGMP quantization, attaining <1% perplexity degradation on Wikitext-103 for the Llama-2-7B model relative to an all-FP8 baseline design while consuming 14% less energy during inference and requiring 30% less weight memory.
- Abstract(参考訳): 量子化は、よりエネルギー効率の低い低精度データパスを活用し、メモリフットプリントを減らすことで、大きな言語モデル(LLM)推論効率を改善する強力なツールである。
しかし, モデル精度を低下させることなく, LLM重みとアクティベーションを高精度に定量化することは困難である。
本稿では、重みとアクティベーションの大部分を定量化して精度を維持しながら精度を維持する、後学習型混合精密量子化ハードウェア-ソフトウェア共設計手法であるFGMP量子化法を提案する。
私たちの研究は以下の貢献をしている。
1)フィッシャー情報によって重み付けされた各値の摂動を利用して、どの重みとアクティベーションブロックを選択してより高精度に維持するかを選択する政策を開発する。
この手法は、モデル損失の摂動を最小限に抑えるために、どの重みとアクティベーションブロックを高い精度で保持する必要があるかを特定することにより、精度を保っている。
2) 細粒度量子化のための感度重み付きクリッピング手法も提案する。
3)FGMP量子化の効率性を活用したハードウェア拡張を提案する。
我々のハードウェア実装は包含する
一 ブロック粒度におけるFGMPのデータパスサポート及び
二 アクティベーションブロックを、最小限のランタイム及びエネルギーオーバーヘッドでハエの高精度又は低精度に割り当てる混合精度アクティベーション量子化ユニット
NVFP4(マイクロスケーリング付きFP4フォーマット)を低精度データ型として,FP8を高精度データ型として試作し,全FP8ベースライン設計と比較したWikitext-103のWikitext-103に対して,14%のエネルギー消費と30%の軽量メモリを必要としながら,効率的なFGMP量子化を実現する。
関連論文リスト
- Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics [65.37942405146232]
超低精度量子化により達成された,超軽量な状態要素を持つ新しいタイプのオーバーロードを提案する。
提案したSOLOは,精度の低下を最小限に抑え,メモリの大幅な節約(7Bモデルのトレーニング時に約45GB)を実現する。
論文 参考訳(メタデータ) (2025-05-01T06:47:45Z) - FineQ: Software-Hardware Co-Design for Low-Bit Fine-Grained Mixed-Precision Quantization of LLMs [13.951330786310262]
FineQは、ソフトウェアとハードウェアの共同設計であり、大規模言語モデルの低ビット細粒度混合精度量子化のための設計である。
重みをよりきめ細かいクラスタに分割し、これらのクラスタ内の外れ値の分布を考慮する。
近似平均ビット幅でのSOTA混合精度量子化アルゴリズムと比較してモデル精度が向上する。
論文 参考訳(メタデータ) (2025-04-28T12:47:23Z) - QUAD: Quantization and Parameter-Efficient Tuning of LLM with Activation Decomposition [21.13478769431063]
QUID(Quantization with Activation Decomposition)は、Singular Value Decomposition(SVD)を利用して、有効4ビット量子化のためのアクティベーションアウトリアを抑制するフレームワークである。
W4A4の量子化では94パーセントの精度、W4A4/A8では98%の精度、Llama-3およびQwen-2.5モデルのパラメータ効率の微調整を実現している。
論文 参考訳(メタデータ) (2025-03-25T05:03:56Z) - Optimizing Large Language Model Training Using FP4 Quantization [73.55459961002371]
量子化トレーニングは、低ビット演算によるコスト削減を可能にすることで、有望なソリューションを提供する。
この研究は、大規模言語モデル(LLM)のための最初のFP4トレーニングフレームワークを紹介します。
論文 参考訳(メタデータ) (2025-01-28T18:04:50Z) - Taming Sensitive Weights : Noise Perturbation Fine-tuning for Robust LLM Quantization [5.718172547021947]
量子化誤差に対する感度重みの影響を抑えるため,NPFT(Noth Perturbation Fine-tuning)を提案する。
NPFTは、外周重量を同定し、外周重量のランダムな摂動を、PEFT最適化によるモデルとして追加する。
OPTおよびLLaMAモデルに適用すると、NPFT法は均一および非一様量子化器の安定な性能向上を実現する。
論文 参考訳(メタデータ) (2024-12-08T21:46:22Z) - Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。
PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。
我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文 参考訳(メタデータ) (2024-10-17T11:46:33Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [67.67135738642547]
後学習量子化(PTQ)は、大規模言語モデル(LLM)において研究される強力な圧縮手法である。
既存のPTQ法は、特に4ビット幅以下では、精度と効率の点で理想的ではない。
本稿では,LSM,すなわちSliM-LLMに対するSalience-Driven Mixed-Precision Quantizationスキームを提案する。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - AMED: Automatic Mixed-Precision Quantization for Edge Devices [3.5223695602582614]
量子ニューラルネットワークは、レイテンシ、消費電力、モデルサイズをパフォーマンスに大きな影響を与えずに減少させることでよく知られている。
混合精度量子化は、異なるビット幅での算術演算をサポートするカスタマイズされたハードウェアのより良い利用を提供する。
論文 参考訳(メタデータ) (2022-05-30T21:23:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。