論文の概要: FireQ: Fast INT4-FP8 Kernel and RoPE-aware Quantization for LLM Inference Acceleration
- arxiv url: http://arxiv.org/abs/2505.20839v1
- Date: Tue, 27 May 2025 07:58:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.488159
- Title: FireQ: Fast INT4-FP8 Kernel and RoPE-aware Quantization for LLM Inference Acceleration
- Title(参考訳): FireQ: LLM推論高速化のための高速INT4-FP8カーネルとRoPE対応量子化
- Authors: Daehyeon Baek, Jieun Choi, Jimyoung Son, Kyungmin Bin, Seungbeom Choi, Kihyo Moon, Minsung Jang, Hyojung Lee,
- Abstract要約: FireQはPTQフレームワークとINT4-FP8行列乗算カーネルである。
FireQは、線形層重みとキー値をINT4に、アクティベーションとクエリをFP8に量子化する。
プリフィル相の3段配管は、プリフィル相における第1トーケンを減少させる。
- 参考スコア(独自算出の注目度): 1.6127639408026697
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As large language models become increasingly prevalent, memory bandwidth constraints significantly limit inference throughput, motivating post-training quantization (PTQ). In this paper, we propose FireQ, a co-designed PTQ framework and an INT4-FP8 matrix multiplication kernel that accelerates LLM inference across all linear layers. Specifically, FireQ quantizes linear layer weights and key-values to INT4, and activations and queries to FP8, significantly enhancing throughput. Additionally, we introduce a three-stage pipelining for the prefill phase, which modifies the FlashAttention-3 kernel, effectively reducing time-to-first-token in the prefill phase. To minimize accuracy loss from quantization, we develop novel outlier smoothing techniques tailored separately for linear and attention layers. In linear layers, we explicitly use per-tensor scaling to prevent underflow caused by the FP8 quantization scaling factor of INT4 quantization, and channel-wise scaling to compensate for coarse granularity of INT4. In attention layers, we address quantization challenges posed by rotary positional embeddings (RoPE) by combining pre-RoPE and post-RoPE scaling strategies. FireQ significantly outperforms state-of-the-art methods, achieving 1.68x faster inference in feed-forward network layers on Llama2-7B and 1.26x faster prefill phase performance on Llama3-8B compared to QServe, with negligible accuracy loss.
- Abstract(参考訳): 大規模言語モデルが普及するにつれて、メモリ帯域幅の制約は推論のスループットを著しく制限し、学習後の量子化(PTQ)を動機付けている。
本稿では,共同設計したPTQフレームワークであるFireQと,LLM推論を全線形層にわたって高速化するINT4-FP8行列乗算カーネルを提案する。
具体的には、リニアレイヤの重みとキー値をINT4に、アクティベーションとクエリをFP8に量子化し、スループットを大幅に向上させる。
さらに,FlashAttention-3カーネルを改良したプレフィルフェーズ用の3段階パイプライニングを導入し,プリフィルフェーズにおける第1トーケンの時間を効果的に削減する。
量子化による精度損失を最小限に抑えるため,線形層と注目層を別々に調整した新しいアウトリア平滑化技術を開発した。
線形層では、INT4量子化のFP8量子化スケーリング因子による下フローを防止するためにテンソル単位のスケーリングを明示的に使用し、INT4の粗粒度を補うためにチャネルワイズスケーリングを行う。
注意層では、回転位置埋め込み(RoPE)による量子化の課題に、前RoPEと後RoPEスケーリング戦略を組み合わせることで対処する。
FireQは最先端の手法よりも優れており、Llama2-7B上のフィードフォワードネットワーク層では1.68倍、QServeと比較してLlama3-8Bでは1.26倍高速で精度が低下している。
関連論文リスト
- PTQ4DiT: Post-training Quantization for Diffusion Transformers [52.902071948957186]
ポストトレーニング量子化(PTQ)は、計算とメモリフットプリントを大幅に削減できる高速でデータ効率のソリューションとして登場した。
提案するPTQ4DiTは,DiTのための特別に設計されたPTQ手法である。
PTQ4DiTは8ビットの精度でDiTの量子化に成功した。
論文 参考訳(メタデータ) (2024-05-25T02:02:08Z) - QServe: W4A8KV4 Quantization and System Co-design for Efficient LLM Serving [52.31791050376249]
量子化は大規模言語モデル(LLM)の推論を加速させる。
4ビット重み、8ビットアクティベーション、4ビットKVキャッシュを備えたW4A8KV4量子化アルゴリズムQoQを導入する。
QServeは、Llama-3-8BをA100で1.2倍、L40Sで1.4倍、Qwen-721.5BをA100で2.4倍、L40Sで3.5倍、達成可能な最大機能を改善する。
論文 参考訳(メタデータ) (2024-05-07T17:59:30Z) - EdgeQAT: Entropy and Distribution Guided Quantization-Aware Training for
the Acceleration of Lightweight LLMs on the Edge [40.85258685379659]
トレーニング後の量子化(PTQ)メソッドは、ウェイト、アクティベーション、KVキャッシュを同時に8ビット以下に定量化する際に品質が低下する。
多くのQAT(Quantization-Aware Training)は、モデルウェイトを定量化し、アクティベーションを未修正のまま残し、エッジ上の推論加速度の量子化の可能性を完全に活用しない。
We propose EdgeQAT, the Entropy and Distribution Guided QAT for the optimization of light LLMs to achieve inference acceleration on Edge devices。
論文 参考訳(メタデータ) (2024-02-16T16:10:38Z) - LLM-FP4: 4-Bit Floating-Point Quantized Transformers [38.23587031169402]
大規模言語モデル(LLM)における重みとアクティベーションを4ビット浮動小数点値まで定量化するLLM-FP4を提案する。
整数量子化と比較すると、浮動小数点(FP)量子化はより柔軟であり、長い尾や鐘のような分布を扱うことができる。
LLaMA-13Bの重みとアクティベーションの両方を4ビットに定量化し,平均スコア63.1を得る。
論文 参考訳(メタデータ) (2023-10-25T17:59:32Z) - ZeroQuant-FP: A Leap Forward in LLMs Post-Training W4A8 Quantization
Using Floating-Point Formats [25.543571445739936]
本研究では,大規模言語モデル(LLM)における浮動小数点量子化(FP)の実現可能性について検討する。
LLMでは、FP8のアクティベーションは整数(INT8)を一貫して上回り、性能エッジは10億を超えるパラメータを持つモデルではより顕著になる。
重量量子化では、FP4はINT4に匹敵する性能を示し、H100のようなFP対応ハードウェアへの展開を単純化している。
論文 参考訳(メタデータ) (2023-07-19T06:58:03Z) - RPTQ: Reorder-based Post-training Quantization for Large Language Models [46.03754730678076]
大規模言語モデル(LLM)は目覚ましいパフォーマンスを示しているが、そのデプロイメントはメモリ使用量が非常に多いため、課題を呈している。
本稿では、リオーダーベースのアプローチを用いたRTTQと呼ばれる量子化手法を提案する。
実験では,LPMの3ビットアクティベーションを初めて利用し,メモリ使用量の大幅な削減を実現した。
論文 参考訳(メタデータ) (2023-04-03T15:46:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。