Fugu-MT 論文翻訳(概要): FireQ: Fast INT4-FP8 Kernel and RoPE-aware Quantization for LLM Inference Acceleration

論文の概要: FireQ: Fast INT4-FP8 Kernel and RoPE-aware Quantization for LLM Inference Acceleration

arxiv url: http://arxiv.org/abs/2505.20839v1
Date: Tue, 27 May 2025 07:58:35 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-28 17:05:58.488159
Title: FireQ: Fast INT4-FP8 Kernel and RoPE-aware Quantization for LLM Inference Acceleration
Title（参考訳）: FireQ: LLM推論高速化のための高速INT4-FP8カーネルとRoPE対応量子化
Authors: Daehyeon Baek, Jieun Choi, Jimyoung Son, Kyungmin Bin, Seungbeom Choi, Kihyo Moon, Minsung Jang, Hyojung Lee,
Abstract要約: FireQはPTQフレームワークとINT4-FP8行列乗算カーネルである。 FireQは、線形層重みとキー値をINT4に、アクティベーションとクエリをFP8に量子化する。プリフィル相の3段配管は、プリフィル相における第1トーケンを減少させる。
参考スコア（独自算出の注目度）: 1.6127639408026697
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: As large language models become increasingly prevalent, memory bandwidth constraints significantly limit inference throughput, motivating post-training quantization (PTQ). In this paper, we propose FireQ, a co-designed PTQ framework and an INT4-FP8 matrix multiplication kernel that accelerates LLM inference across all linear layers. Specifically, FireQ quantizes linear layer weights and key-values to INT4, and activations and queries to FP8, significantly enhancing throughput. Additionally, we introduce a three-stage pipelining for the prefill phase, which modifies the FlashAttention-3 kernel, effectively reducing time-to-first-token in the prefill phase. To minimize accuracy loss from quantization, we develop novel outlier smoothing techniques tailored separately for linear and attention layers. In linear layers, we explicitly use per-tensor scaling to prevent underflow caused by the FP8 quantization scaling factor of INT4 quantization, and channel-wise scaling to compensate for coarse granularity of INT4. In attention layers, we address quantization challenges posed by rotary positional embeddings (RoPE) by combining pre-RoPE and post-RoPE scaling strategies. FireQ significantly outperforms state-of-the-art methods, achieving 1.68x faster inference in feed-forward network layers on Llama2-7B and 1.26x faster prefill phase performance on Llama3-8B compared to QServe, with negligible accuracy loss.
Abstract（参考訳）: 大規模言語モデルが普及するにつれて、メモリ帯域幅の制約は推論のスループットを著しく制限し、学習後の量子化(PTQ)を動機付けている。本稿では,共同設計したPTQフレームワークであるFireQと,LLM推論を全線形層にわたって高速化するINT4-FP8行列乗算カーネルを提案する。具体的には、リニアレイヤの重みとキー値をINT4に、アクティベーションとクエリをFP8に量子化し、スループットを大幅に向上させる。さらに,FlashAttention-3カーネルを改良したプレフィルフェーズ用の3段階パイプライニングを導入し,プリフィルフェーズにおける第1トーケンの時間を効果的に削減する。量子化による精度損失を最小限に抑えるため,線形層と注目層を別々に調整した新しいアウトリア平滑化技術を開発した。線形層では、INT4量子化のFP8量子化スケーリング因子による下フローを防止するためにテンソル単位のスケーリングを明示的に使用し、INT4の粗粒度を補うためにチャネルワイズスケーリングを行う。注意層では、回転位置埋め込み(RoPE)による量子化の課題に、前RoPEと後RoPEスケーリング戦略を組み合わせることで対処する。 FireQは最先端の手法よりも優れており、Llama2-7B上のフィードフォワードネットワーク層では1.68倍、QServeと比較してLlama3-8Bでは1.26倍高速で精度が低下している。

関連論文リスト

FlexQ: Efficient Post-training INT6 Quantization for LLM Serving via Algorithm-System Co-Design [18.37843481770631]
大規模言語モデル(LLM)は例外的な性能を示すが、かなりのメモリと計算コストを必要とする。既存のINT4/INT8量子化はこれらのコストを削減するが、しばしば精度を低下させるか、最適効率を欠く。アルゴリズムの革新とシステムレベルの評価を組み合わせた新しいフレームワークFlexQを提案する。
論文参考訳（メタデータ） (2025-08-06T12:47:05Z)
KurTail : Kurtosis-based LLM Quantization [51.24081396305435]
KurTailは、大規模言語モデルのアクティベートにおいて、アウトレーヤを緩和する、新しいトレーニング後の量子化スキームである。 MMLUの精度は13.3%向上し、Wikiの難易度はQuaRotに比べて15.5%低下している。また、SpinQuantを2.6%のMMLUゲインで上回り、パープレキシティを2.9%削減し、トレーニングコストを削減した。
論文参考訳（メタデータ） (2025-03-03T12:43:06Z)
Optimizing Large Language Model Training Using FP4 Quantization [73.55459961002371]
量子化トレーニングは、低ビット演算によるコスト削減を可能にすることで、有望なソリューションを提供する。この研究は、大規模言語モデル(LLM)のための最初のFP4トレーニングフレームワークを紹介します。
論文参考訳（メタデータ） (2025-01-28T18:04:50Z)
ResQ: Mixed-Precision Quantization of Large Language Models with Low-Rank Residuals [10.860081994662645]
大規模言語モデル(LLM)の学習後の量子化は、推論時の計算コストを抑えるという約束を果たす。本稿では,最先端技術をさらに推し進めるPTQ手法であるResQを提案する。 ResQは、様々なベンチマークにおいて、最近の一様および混合精度のPTQ法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-12-18T22:01:55Z)
FlatQuant: Flatness Matters for LLM Quantization [58.28221892035609]
重みとアクティベーションの平坦性を高める新しいポストトレーニング量子化手法であるFlatQuantを提案する。本手法では, 線形層毎の最適アフィン変換を, 軽量な目的により数時間で調整する。 LLaMA-3-70BモデルでのW4A4量子化の精度は1%以下で、SpinQuantを7.5%上回る。
論文参考訳（メタデータ） (2024-10-12T08:10:28Z)
PTQ4DiT: Post-training Quantization for Diffusion Transformers [52.902071948957186]
ポストトレーニング量子化(PTQ)は、計算とメモリフットプリントを大幅に削減できる高速でデータ効率のソリューションとして登場した。提案するPTQ4DiTは,DiTのための特別に設計されたPTQ手法である。 PTQ4DiTは8ビットの精度でDiTの量子化に成功した。
論文参考訳（メタデータ） (2024-05-25T02:02:08Z)
QServe: W4A8KV4 Quantization and System Co-design for Efficient LLM Serving [52.31791050376249]
量子化は大規模言語モデル(LLM)の推論を加速させる。 4ビット重み、8ビットアクティベーション、4ビットKVキャッシュを備えたW4A8KV4量子化アルゴリズムQoQを導入する。 QServeは、Llama-3-8BをA100で1.2倍、L40Sで1.4倍、Qwen-721.5BをA100で2.4倍、L40Sで3.5倍、達成可能な最大機能を改善する。
論文参考訳（メタデータ） (2024-05-07T17:59:30Z)
AffineQuant: Affine Transformation Quantization for Large Language Models [58.45460102764]
ポストトレーニング量子化(PTQ)は、その圧縮効率とトレーニングの文脈における費用対効果により、かなりの関心を集めている。既存の大規模言語モデル(LLM)のPTQ手法は、事前量子化重みと後量子化重みの間の変換のスケーリングに最適化範囲を制限している。本稿では,PTQ(AffineQuant)における等価アフィン変換を用いた直接最適化を提唱する。
論文参考訳（メタデータ） (2024-03-19T08:40:21Z)
EdgeQAT: Entropy and Distribution Guided Quantization-Aware Training for the Acceleration of Lightweight LLMs on the Edge [40.85258685379659]
トレーニング後の量子化(PTQ)メソッドは、ウェイト、アクティベーション、KVキャッシュを同時に8ビット以下に定量化する際に品質が低下する。多くのQAT(Quantization-Aware Training)は、モデルウェイトを定量化し、アクティベーションを未修正のまま残し、エッジ上の推論加速度の量子化の可能性を完全に活用しない。 We propose EdgeQAT, the Entropy and Distribution Guided QAT for the optimization of light LLMs to achieve inference acceleration on Edge devices。
論文参考訳（メタデータ） (2024-02-16T16:10:38Z)
LLM-FP4: 4-Bit Floating-Point Quantized Transformers [38.23587031169402]
大規模言語モデル(LLM)における重みとアクティベーションを4ビット浮動小数点値まで定量化するLLM-FP4を提案する。整数量子化と比較すると、浮動小数点(FP)量子化はより柔軟であり、長い尾や鐘のような分布を扱うことができる。 LLaMA-13Bの重みとアクティベーションの両方を4ビットに定量化し,平均スコア63.1を得る。
論文参考訳（メタデータ） (2023-10-25T17:59:32Z)
ZeroQuant-FP: A Leap Forward in LLMs Post-Training W4A8 Quantization Using Floating-Point Formats [25.543571445739936]
本研究では,大規模言語モデル(LLM)における浮動小数点量子化(FP)の実現可能性について検討する。 LLMでは、FP8のアクティベーションは整数(INT8)を一貫して上回り、性能エッジは10億を超えるパラメータを持つモデルではより顕著になる。重量量子化では、FP4はINT4に匹敵する性能を示し、H100のようなFP対応ハードウェアへの展開を単純化している。
論文参考訳（メタデータ） (2023-07-19T06:58:03Z)
RPTQ: Reorder-based Post-training Quantization for Large Language Models [46.03754730678076]
大規模言語モデル(LLM)は目覚ましいパフォーマンスを示しているが、そのデプロイメントはメモリ使用量が非常に多いため、課題を呈している。本稿では、リオーダーベースのアプローチを用いたRTTQと呼ばれる量子化手法を提案する。実験では,LPMの3ビットアクティベーションを初めて利用し,メモリ使用量の大幅な削減を実現した。
論文参考訳（メタデータ） (2023-04-03T15:46:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。