Fugu-MT 論文翻訳(概要): ZeroQuant(4+2): Redefining LLMs Quantization with a New FP6-Centric Strategy for Diverse Generative Tasks

論文の概要: ZeroQuant(4+2): Redefining LLMs Quantization with a New FP6-Centric Strategy for Diverse Generative Tasks

arxiv url: http://arxiv.org/abs/2312.08583v1
Date: Thu, 14 Dec 2023 01:06:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-16 00:19:50.772074
Title: ZeroQuant(4+2): Redefining LLMs Quantization with a New FP6-Centric Strategy for Diverse Generative Tasks
Title（参考訳）: ZeroQuant(4+2): FP6-Centric Strategy for Diverse Generative Tasks による LLM 量子化の再定義
Authors: Xiaoxia Wu, Haojun Xia, Stephen Youn, Zhen Zheng, Shiyang Chen, Arash Bakhtiari, Michael Wyatt, Yuxiong He, Olatunji Ruwase, Leon Song, Zhewei Yao
Abstract要約: 本研究では,大規模言語モデル(LLM)におけるGPTQのような4ビット量子化手法について検討する。タスクスコープは、コード生成や抽象的な要約といった、より生成的なカテゴリに拡張します。最新のINT4微細粒量子化に類似したレイテンシを実現するために,FP6のための新しい4+2設計を提案する。
参考スコア（独自算出の注目度）: 30.516827997218556
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This study examines 4-bit quantization methods like GPTQ in large language models (LLMs), highlighting GPTQ's overfitting and limited enhancement in Zero-Shot tasks. While prior works merely focusing on zero-shot measurement, we extend task scope to more generative categories such as code generation and abstractive summarization, in which we found that INT4 quantization can significantly underperform. However, simply shifting to higher precision formats like FP6 has been particularly challenging, thus overlooked, due to poor performance caused by the lack of sophisticated integration and system acceleration strategies on current AI hardware. Our results show that FP6, even with a coarse-grain quantization scheme, performs robustly across various algorithms and tasks, demonstrating its superiority in accuracy and versatility. Notably, with the FP6 quantization, \codestar-15B model performs comparably to its FP16 counterpart in code generation, and for smaller models like the 406M it closely matches their baselines in summarization. Neither can be achieved by INT4. To better accommodate various AI hardware and achieve the best system performance, we propose a novel 4+2 design for FP6 to achieve similar latency to the state-of-the-art INT4 fine-grain quantization. With our design, FP6 can become a promising solution to the current 4-bit quantization methods used in LLMs.
Abstract（参考訳）: 本研究では,大規模言語モデル(LLM)におけるGPTQのような4ビット量子化手法について検討し,ゼロショットタスクにおけるGPTQの過度な適合と制限された拡張を強調した。事前の作業はゼロショット計測のみに留まらず、コード生成や抽象的要約といったよりジェネレーティブなカテゴリにまでタスク範囲を拡大し、int4量子化は著しく過小評価できることがわかった。しかし、FP6のようなより高精度なフォーマットに移行することは特に困難であり、現在のAIハードウェアに高度な統合とシステムアクセラレーション戦略が欠如していることによるパフォーマンスの低下によって見落とされた。その結果、FP6は粗粒量子化方式でも様々なアルゴリズムやタスクに対して頑健に動作し、精度と汎用性に優れることを示した。特に、FP6量子化では、コード生成におけるFP16と同等に動作し、406Mのような小さなモデルでは、要約においてベースラインと密に一致している。 INT4では達成できない。各種AIハードウェアの適合性を向上し,最高のシステム性能を実現するため,FP6の新たな4+2設計を提案し,最先端のINT4微粒量子化に類似したレイテンシを実現する。我々の設計により、FP6はLLMで使われる現在の4ビット量子化法の有望な解となる。

関連論文リスト

INT v.s. FP: A Comprehensive Study of Fine-Grained Low-bit Quantization Formats [51.72056104795248]
NvidiaのBlackwellアーキテクチャのような現代のAIハードウェアは、低精度浮動小数点(FP)フォーマットをますます受け入れている。本稿では,FPフォーマットと整数(INT)フォーマットのトレードオフを系統的に検討する。 FPは粗粒度量子化に優れるが、きめ細かい(ブロックワイド)レベルでの比較はよりニュアンスが高い。
論文参考訳（メタデータ） (2025-10-29T15:11:53Z)
Pretraining Large Language Models with NVFP4 [53.235038214986865]
我々は,NVFP4フォーマットを用いた大規模言語モデル(LLM)の安定かつ高精度な学習手法を提案する。本手法は,前方と後方の両方で一貫した表現のための2次元量子化方式を統合する。以上の結果から,NVFP4をベースとしたプレトレーニング技術を用いてトレーニングしたモデルは,FP8ベースラインに匹敵するトレーニング損失とダウンストリームタスクアキュラシーを達成できることが示唆された。
論文参考訳（メタデータ） (2025-09-29T17:53:17Z)
Bridging the Gap Between Promise and Performance for Microscaling FP4 Quantization [77.67818998672516]
本研究は,MXFP4とNVFP4の学習後量子化に関する総合的研究である。本稿では,従来のGPTQ量子化アルゴリズムの変種であるMicro-Rotated-GPTQ(MR-GPTQ)を紹介する。 MR-GPTQは最先端の精度で一致または性能が向上することを示す。
論文参考訳（メタデータ） (2025-09-27T09:22:21Z)
Towards Efficient Pre-training: Exploring FP4 Precision in Large Language Models [25.700481606604647]
実験により,我々のFP4トレーニング手法は,理論計算コストを小さくして,BF16とFP8に匹敵する精度を達成できた。 FP4をサポートする次世代ハードウェアの登場に伴い,本手法は効率的な超低精度トレーニングの基礎となる。
論文参考訳（メタデータ） (2025-02-17T05:33:11Z)
Optimizing Large Language Model Training Using FP4 Quantization [73.55459961002371]
量子化トレーニングは、低ビット演算によるコスト削減を可能にすることで、有望なソリューションを提供する。この研究は、大規模言語モデル(LLM)のための最初のFP4トレーニングフレームワークを紹介します。
論文参考訳（メタデータ） (2025-01-28T18:04:50Z)
"Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization [67.3213104337679]
我々は,学術ベンチマークや実世界のタスクにまたがる一般的な量子化形式を評価する。 W4A16は同期デプロイメントと中間層アーキテクチャの非同期デプロイメントに最適なコスト効率を提供する。
論文参考訳（メタデータ） (2024-11-04T18:21:59Z)
FP6-LLM: Efficiently Serving Large Language Models Through FP6-Centric Algorithm-System Co-Design [30.594788583458893]
6ビット量子化(FP6)は、大きな言語モデル(LLM)のサイズを効果的に削減できる。既存のシステムは、FP6量子化のCoreサポートを提供していない。各種量子化ビット幅に対するフロートポイント重みのコアサポートを統一した最初のフルスタックGPUカーネル設計スキームであるTCFPxを提案する。
論文参考訳（メタデータ） (2024-01-25T11:46:38Z)
Enhancing Computation Efficiency in Large Language Models through Weight and Activation Quantization [12.655230451207956]
本稿では,Large Language Models(LLMs)における後学習量子化(PTQ)に焦点を当てる。本稿では,アクティベーション量子化対応スケーリング(AQAS)とシーケンス長対応キャリブレーション(SLAC)の2つの革新的な手法を提案する。我々の技術はタスクの精度を大幅に向上させ、完全精度モデルに匹敵するレベルまで向上することを示した。
論文参考訳（メタデータ） (2023-11-09T06:19:51Z)
LLM-FP4: 4-Bit Floating-Point Quantized Transformers [38.23587031169402]
大規模言語モデル(LLM)における重みとアクティベーションを4ビット浮動小数点値まで定量化するLLM-FP4を提案する。整数量子化と比較すると、浮動小数点(FP)量子化はより柔軟であり、長い尾や鐘のような分布を扱うことができる。 LLaMA-13Bの重みとアクティベーションの両方を4ビットに定量化し,平均スコア63.1を得る。
論文参考訳（メタデータ） (2023-10-25T17:59:32Z)
QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文参考訳（メタデータ） (2023-10-13T17:15:05Z)
OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models [57.27101446992148]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効である。多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文参考訳（メタデータ） (2023-08-25T02:28:35Z)
ZeroQuant-FP: A Leap Forward in LLMs Post-Training W4A8 Quantization Using Floating-Point Formats [25.543571445739936]
本研究では,大規模言語モデル(LLM)における浮動小数点量子化(FP)の実現可能性について検討する。 LLMでは、FP8のアクティベーションは整数(INT8)を一貫して上回り、性能エッジは10億を超えるパラメータを持つモデルではより顕著になる。重量量子化では、FP4はINT4に匹敵する性能を示し、H100のようなFP対応ハードウェアへの展開を単純化している。
論文参考訳（メタデータ） (2023-07-19T06:58:03Z)
Integer or Floating Point? New Outlooks for Low-Bit Quantization on Large Language Models [17.055400141733124]
低ビット整数形式(例えばINT8/INT4)は、大規模言語モデル(LLM)の従来の選択肢である。低ビット浮動小数点フォーマット(例えばFP8/FP4)は魅力的な代替手段であり、NVIDIAのH100 GPUのような最先端ハードウェアからサポートを受けている。本稿では,階層的に最適なフォーマットを選択するMoFQ(Mixture of Formats Quantization)を提案する。
論文参考訳（メタデータ） (2023-05-21T05:28:37Z)
VAQF: Fully Automatic Software-hardware Co-design Framework for Low-bit Vision Transformer [121.85581713299918]
量子化ビジョントランス(ViT)のためのFPGAプラットフォーム上で推論アクセラレータを構築するフレームワークVAQFを提案する。モデル構造と所望のフレームレートから、VAQFはアクティベーションに必要な量子化精度を自動的に出力する。 FPGA上でのViTアクセラレーションに量子化が組み込まれたのはこれが初めてである。
論文参考訳（メタデータ） (2022-01-17T20:27:52Z)
HAWQV3: Dyadic Neural Network Quantization [73.11579145354801]
現在の低精度量子化アルゴリズムは、浮動小数点から量子化された整数値への変換の隠れコストを持つことが多い。 HAWQV3は、新しい混合精度整数のみの量子化フレームワークである。
論文参考訳（メタデータ） (2020-11-20T23:51:43Z)
Once Quantization-Aware Training: High Performance Extremely Low-bit Architecture Search [112.05977301976613]
本稿では,ネットワークアーキテクチャ検索手法と量子化手法を組み合わせることで,両者のメリットを享受することを提案する。まず、多数の量子化モデルを取得するために、共有ステップサイズでアーキテクチャと量子化の合同トレーニングを提案する。次に、量子化されたモデルを低ビットに転送するためにビット継承方式を導入し、さらに時間コストを削減し、量子化精度を向上させる。
論文参考訳（メタデータ） (2020-10-09T03:52:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。