Fugu-MT 論文翻訳(概要): LLM-FP4: 4-Bit Floating-Point Quantized Transformers

論文の概要: LLM-FP4: 4-Bit Floating-Point Quantized Transformers

arxiv url: http://arxiv.org/abs/2310.16836v1
Date: Wed, 25 Oct 2023 17:59:32 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-26 13:01:56.206279
Title: LLM-FP4: 4-Bit Floating-Point Quantized Transformers
Title（参考訳）: LLM-FP4:4ビット浮動小数点量子変換器
Authors: Shih-yang Liu, Zechun Liu, Xijie Huang, Pingcheng Dong, Kwang-Ting Cheng
Abstract要約: 大規模言語モデル(LLM)における重みとアクティベーションを4ビット浮動小数点値まで定量化するLLM-FP4を提案する。整数量子化と比較すると、浮動小数点(FP)量子化はより柔軟であり、長い尾や鐘のような分布を扱うことができる。 LLaMA-13Bの重みとアクティベーションの両方を4ビットに定量化し,平均スコア63.1を得る。
参考スコア（独自算出の注目度）: 38.23587031169402
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose LLM-FP4 for quantizing both weights and activations in large language models (LLMs) down to 4-bit floating-point values, in a post-training manner. Existing post-training quantization (PTQ) solutions are primarily integer-based and struggle with bit widths below 8 bits. Compared to integer quantization, floating-point (FP) quantization is more flexible and can better handle long-tail or bell-shaped distributions, and it has emerged as a default choice in many hardware platforms. One characteristic of FP quantization is that its performance largely depends on the choice of exponent bits and clipping range. In this regard, we construct a strong FP-PTQ baseline by searching for the optimal quantization parameters. Furthermore, we observe a high inter-channel variance and low intra-channel variance pattern in activation distributions, which adds activation quantization difficulty. We recognize this pattern to be consistent across a spectrum of transformer models designed for diverse tasks, such as LLMs, BERT, and Vision Transformer models. To tackle this, we propose per-channel activation quantization and show that these additional scaling factors can be reparameterized as exponential biases of weights, incurring a negligible cost. Our method, for the first time, can quantize both weights and activations in the LLaMA-13B to only 4-bit and achieves an average score of 63.1 on the common sense zero-shot reasoning tasks, which is only 5.8 lower than the full-precision model, significantly outperforming the previous state-of-the-art by 12.7 points. Code is available at: https://github.com/nbasyl/LLM-FP4.
Abstract（参考訳）: 大規模言語モデル(LLM)における重みとアクティベーションを4ビット浮動小数点値まで定量化するLLM-FP4を提案する。既存のトレーニング後の量子化(PTQ)ソリューションは主に整数ベースであり、8ビット以下のビット幅で苦労する。整数量子化と比較すると、浮動小数点(FP)量子化はより柔軟であり、長い尾や鐘の形をした分布を扱うことができる。 FP量子化の特徴の1つは、その性能が指数ビットとクリッピング範囲の選択に依存することである。本稿では,最適な量子化パラメータを探索することにより,FP-PTQベースラインを構築する。さらに,活性化分布に高いチャネル間分散と低いチャネル内分散パターンが観察され,アクティベーション量子化の難しさが増す。我々は、このパターンがLLM、BERT、Vision Transformerモデルなどの様々なタスク用に設計されたトランスフォーマーモデルの範囲で一貫性があることを認識している。そこで本研究では,チャネル毎のアクティベーション量子化を提案し,これら付加的なスケーリング因子が重みの指数バイアスとして再評価可能であり,コストが無視できることを示す。提案手法は,LLaMA-13Bの重みとアクティベーションの両方を4ビットに定量化し,全精度モデルよりわずか5.8低い共通感覚ゼロショット推論タスクの平均スコア63.1を達成し,従来よりも12.7ポイント向上した。コードはhttps://github.com/nbasyl/llm-fp4。

関連論文リスト

PTQ1.61: Push the Real Limit of Extremely Low-Bit Post-Training Quantization Methods for Large Language Models [64.84734437930362]
大規模言語モデル(LLM)は、非常に低ビット(2ビット未満)の量子化に直面した場合、性能が著しく低下する。我々はPTQ1.61と呼ばれる極低ビットのPTQ法を提案し、これによって初めて1.61ビットの重み量子化が可能となる。実験により、PTQ1.61は極低ビット量子化において最先端の性能を達成することが示された。
論文参考訳（メタデータ） (2025-02-18T08:04:58Z)
Optimizing Large Language Model Training Using FP4 Quantization [73.55459961002371]
量子化トレーニングは、低ビット演算によるコスト削減を可能にすることで、有望なソリューションを提供する。この研究は、大規模言語モデル(LLM)のための最初のFP4トレーニングフレームワークを紹介します。
論文参考訳（メタデータ） (2025-01-28T18:04:50Z)
"Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization [67.3213104337679]
我々は,学術ベンチマークや実世界のタスクにまたがる一般的な量子化形式を評価する。 W4A16は同期デプロイメントと中間層アーキテクチャの非同期デプロイメントに最適なコスト効率を提供する。
論文参考訳（メタデータ） (2024-11-04T18:21:59Z)
FlatQuant: Flatness Matters for LLM Quantization [58.28221892035609]
重みとアクティベーションの平坦性を高める新しいポストトレーニング量子化手法であるFlatQuantを提案する。本手法では, 線形層毎の最適アフィン変換を, 軽量な目的により数時間で調整する。 LLaMA-3-70BモデルでのW4A4量子化の精度は1%以下で、SpinQuantを7.5%上回る。
論文参考訳（メタデータ） (2024-10-12T08:10:28Z)
HQ-DiT: Efficient Diffusion Transformer with FP4 Hybrid Quantization [10.307268005739202]
拡散変換器(DiT)は、最近、優れた視覚生成能力に対して大きな注目を集めている。 DiTは高いパラメータカウントと実装コストを持ち、携帯電話などのリソース制限されたデバイスでの使用を著しく制限している。 4ビット浮動小数点(FP)の精度をDiT推論の重みとアクティベーションの両面に利用した,効率的なポストトレーニング量子化法であるDiT(HQ-DiT)のハイブリッド浮動小点量子化を提案する。
論文参考訳（メタデータ） (2024-05-30T06:56:11Z)
Mitigating the Impact of Outlier Channels for Language Model Quantization with Activation Regularization [62.15918574997175]
言語モデルには、平均値が他のチャネルよりも桁違いに高い外れ値チャネルが含まれていることが知られている。本稿では,QAT(Quantization-Aware Training)とアクティベーション・カルトシス・正規化(Activation Kurtosis regularization)によって,レイヤの入力を正規化する戦略を提案する。入力と出力の両方を正規化することは、入力量子化の難しさを重みに"移行"するのを防ぐために重要であることを示す。
論文参考訳（メタデータ） (2024-04-04T17:25:30Z)
AffineQuant: Affine Transformation Quantization for Large Language Models [58.45460102764]
ポストトレーニング量子化(PTQ)は、その圧縮効率とトレーニングの文脈における費用対効果により、かなりの関心を集めている。既存の大規模言語モデル(LLM)のPTQ手法は、事前量子化重みと後量子化重みの間の変換のスケーリングに最適化範囲を制限している。本稿では,PTQ(AffineQuant)における等価アフィン変換を用いた直接最適化を提唱する。
論文参考訳（メタデータ） (2024-03-19T08:40:21Z)
ZeroQuant(4+2): Redefining LLMs Quantization with a New FP6-Centric Strategy for Diverse Generative Tasks [31.431016659268206]
本研究では,大規模言語モデル(LLM)におけるGPTQのような4ビット量子化手法について検討する。タスクスコープは、コード生成や抽象的な要約といった、より生成的なカテゴリに拡張します。最新のINT4微細粒量子化に類似したレイテンシを実現するために,FP6のための新しい4+2設計を提案する。
論文参考訳（メタデータ） (2023-12-14T01:06:37Z)
FPTQ: Fine-grained Post-Training Quantization for Large Language Models [28.11564378745513]
利用可能なオープンソースLLMのための新しいW4A8ポストトレーニング量子化法を提案する。我々は,BLOOM,LLaMA,LLaMA-2における最先端のW4A8量子化性能を標準ベンチマークで取得する。
論文参考訳（メタデータ） (2023-08-30T12:18:18Z)
OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models [57.27101446992148]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効である。多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文参考訳（メタデータ） (2023-08-25T02:28:35Z)
ZeroQuant-FP: A Leap Forward in LLMs Post-Training W4A8 Quantization Using Floating-Point Formats [25.543571445739936]
本研究では,大規模言語モデル(LLM)における浮動小数点量子化(FP)の実現可能性について検討する。 LLMでは、FP8のアクティベーションは整数(INT8)を一貫して上回り、性能エッジは10億を超えるパラメータを持つモデルではより顕著になる。重量量子化では、FP4はINT4に匹敵する性能を示し、H100のようなFP対応ハードウェアへの展開を単純化している。
論文参考訳（メタデータ） (2023-07-19T06:58:03Z)
Integer or Floating Point? New Outlooks for Low-Bit Quantization on Large Language Models [17.055400141733124]
低ビット整数形式(例えばINT8/INT4)は、大規模言語モデル(LLM)の従来の選択肢である。低ビット浮動小数点フォーマット(例えばFP8/FP4)は魅力的な代替手段であり、NVIDIAのH100 GPUのような最先端ハードウェアからサポートを受けている。本稿では,階層的に最適なフォーマットを選択するMoFQ(Mixture of Formats Quantization)を提案する。
論文参考訳（メタデータ） (2023-05-21T05:28:37Z)
Distribution-Flexible Subset Quantization for Post-Quantizing Super-Resolution Networks [68.83451203841624]
本稿では,超高分解能ネットワークのためのポストトレーニング量子化手法であるDFSQを提案する。 DFSQは活性化のチャネルワイド正規化を行い、分布フレキシブルなサブセット量子化(SQ)を適用する 6ビットの量子化と8ビットの量子化では完全精度に匹敵する性能を達成し、4ビットの量子化では0.1dBのPSNR低下しか生じない。
論文参考訳（メタデータ） (2023-05-10T04:19:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。