Fugu-MT 論文翻訳(概要): FPTQuant: Function-Preserving Transforms for LLM Quantization

論文の概要: FPTQuant: Function-Preserving Transforms for LLM Quantization

arxiv url: http://arxiv.org/abs/2506.04985v1
Date: Thu, 05 Jun 2025 12:56:12 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-06 21:53:49.70919
Title: FPTQuant: Function-Preserving Transforms for LLM Quantization
Title（参考訳）: FPTQuant: LLM量子化のための関数保存変換
Authors: Boris van Breugel, Yelysei Bondarenko, Paul Whatmough, Markus Nagel,
Abstract要約: 本稿では,4つの新しい,軽量かつ表現力のある関数保存変換(FPT)を導入し,変換器の量子化を容易にするFPTQuantについて述べる。 FPTQuantはカスタムカーネルを必要としない。 FPTは、外れ値を減らすために局所的に訓練され、量子化モデルと完全精度モデルの出力が一致するようにエンド・ツー・エンドの両方で訓練される。
参考スコア（独自算出の注目度）: 15.610314778836939
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) require substantial compute, and thus energy, at inference time. While quantizing weights and activations is effective at improving efficiency, naive quantization of LLMs can significantly degrade performance due to large magnitude outliers. This paper describes FPTQuant, which introduces four novel, lightweight, and expressive function-preserving transforms (FPTs) to facilitate quantization of transformers: (1) a mergeable pre-RoPE transform for queries and keys, (2) a mergeable transform for values, (3) a mergeable scaling transform within the MLP block, and (4) a cheap, dynamic scaling transform. By leveraging the equivariances and independencies inherent to canonical transformer operation, we designed these FPTs to maintain the model's function while shaping the intermediate activation distributions to be more quantization friendly. FPTQuant requires no custom kernels and adds virtually no overhead during inference. The FPTs are trained both locally to reduce outliers, and end-to-end such that the outputs of the quantized and full-precision models match. FPTQuant enables static INT4 quantization with minimal overhead and shows SOTA speed-up of up to 3.9 times over FP. Empirically, FPTQuant has an excellent accuracy-speed trade-off -- it is performing on par or exceeding most prior work and only shows slightly lower accuracy compared to a method that is up to 29% slower.
Abstract（参考訳）: 大規模言語モデル(LLM)は、推論時にかなりの計算、すなわちエネルギーを必要とする。重みとアクティベーションの定量化は効率を向上させるのに有効であるが、LLMの単純量子化は、大きめのアウトレイアにより性能を著しく低下させることができる。本稿では,(1)クエリとキーに対するマージ可能なプレRoPE変換,(2)値に対するマージ可能な変換,(3)MLPブロック内のマージ可能なスケーリング変換,(4)安価でダイナミックなスケーリング変換の4つの新しい,軽量かつ表現力のある関数保存変換(FPTs)を導入して,トランスフォーマーの量子化を促進するFPTQuantについて述べる。正準変圧器演算に固有の等価性と独立性を利用して、中間活性化分布をより量子化フレンドリに形成しながら、モデル関数を維持するためにこれらのFPTを設計した。 FPTQuantはカスタムカーネルを必要としない。 FPTは、外れ値を減らすために局所的に訓練され、量子化モデルと完全精度モデルの出力が一致するようにエンド・ツー・エンドの両方で訓練される。 FPTQuantは、最小限のオーバーヘッドで静的INT4量子化を可能にし、FP上で最大3.9倍のSOTAスピードアップを示す。実証的には、FPTQuantは精度と速度のトレードオフに優れており、ほとんどの以前の作業と同等かそれ以上で実行されており、最大29%遅いメソッドに比べてわずかに精度が低い。

関連論文リスト

FP4DiT: Towards Effective Floating Point Quantization for Diffusion Transformers [15.324769026957641]
トレーニング後の量子化は、トレーニングや微調整を必要とせず、負担を軽減するための軽量な方法である。 W4A6量子化を実現するために浮動小数点量子化を利用するPTQ法であるFP4DiTを導入する。 FP4DiTは整数ベースのPTQをW4A6およびW4A8精度で上回ることを示した。
論文参考訳（メタデータ） (2025-03-19T17:44:21Z)
Optimizing Large Language Model Training Using FP4 Quantization [73.55459961002371]
量子化トレーニングは、低ビット演算によるコスト削減を可能にすることで、有望なソリューションを提供する。この研究は、大規模言語モデル(LLM)のための最初のFP4トレーニングフレームワークを紹介します。
論文参考訳（メタデータ） (2025-01-28T18:04:50Z)
FlatQuant: Flatness Matters for LLM Quantization [58.28221892035609]
重みとアクティベーションの平坦性を高める新しいポストトレーニング量子化手法であるFlatQuantを提案する。本手法では, 線形層毎の最適アフィン変換を, 軽量な目的により数時間で調整する。 LLaMA-3-70BモデルでのW4A4量子化の精度は1%以下で、SpinQuantを7.5%上回る。
論文参考訳（メタデータ） (2024-10-12T08:10:28Z)
HQ-DiT: Efficient Diffusion Transformer with FP4 Hybrid Quantization [10.307268005739202]
拡散変換器(DiT)は、最近、優れた視覚生成能力に対して大きな注目を集めている。 DiTは高いパラメータカウントと実装コストを持ち、携帯電話などのリソース制限されたデバイスでの使用を著しく制限している。 4ビット浮動小数点(FP)の精度をDiT推論の重みとアクティベーションの両面に利用した,効率的なポストトレーニング量子化法であるDiT(HQ-DiT)のハイブリッド浮動小点量子化を提案する。
論文参考訳（メタデータ） (2024-05-30T06:56:11Z)
AffineQuant: Affine Transformation Quantization for Large Language Models [58.45460102764]
ポストトレーニング量子化(PTQ)は、その圧縮効率とトレーニングの文脈における費用対効果により、かなりの関心を集めている。既存の大規模言語モデル(LLM)のPTQ手法は、事前量子化重みと後量子化重みの間の変換のスケーリングに最適化範囲を制限している。本稿では,PTQ(AffineQuant)における等価アフィン変換を用いた直接最適化を提唱する。
論文参考訳（メタデータ） (2024-03-19T08:40:21Z)
LLM-FP4: 4-Bit Floating-Point Quantized Transformers [38.23587031169402]
大規模言語モデル(LLM)における重みとアクティベーションを4ビット浮動小数点値まで定量化するLLM-FP4を提案する。整数量子化と比較すると、浮動小数点(FP)量子化はより柔軟であり、長い尾や鐘のような分布を扱うことができる。 LLaMA-13Bの重みとアクティベーションの両方を4ビットに定量化し,平均スコア63.1を得る。
論文参考訳（メタデータ） (2023-10-25T17:59:32Z)
QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文参考訳（メタデータ） (2023-10-13T17:15:05Z)
OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models [57.27101446992148]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効である。多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文参考訳（メタデータ） (2023-08-25T02:28:35Z)
Towards Accurate Post-Training Quantization for Vision Transformer [48.779346466374406]
既存のトレーニング後の量子化手法は依然として深刻な性能低下を引き起こしている。 APQ-ViTは、既存のトレーニング後の量子化手法を証明マージンによって超越している。
論文参考訳（メタデータ） (2023-03-25T03:05:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。