Fugu-MT 論文翻訳(概要): Understanding INT4 Quantization for Transformer Models: Latency Speedup, Composability, and Failure Cases

論文の概要: Understanding INT4 Quantization for Transformer Models: Latency Speedup, Composability, and Failure Cases

arxiv url: http://arxiv.org/abs/2301.12017v2
Date: Tue, 30 May 2023 21:32:11 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-01 23:15:17.128515
Title: Understanding INT4 Quantization for Transformer Models: Latency Speedup, Composability, and Failure Cases
Title（参考訳）: int4量子化のトランスフォーマモデルへの応用 : レイテンシ高速化,コンポーザビリティ,障害ケース
Authors: Xiaoxia Wu, Cheng Li, Reza Yazdani Aminabadi, Zhewei Yao, Yuxiong He
Abstract要約: W4A4量子化は、エンコーダのみのモデルとエンコーダデコーダのみのモデルに対して、無視可能な精度劣化を起こさないが、デコーダのみのモデルでは相当な精度低下を引き起こすことを示す。我々は、異なる量子化戦略をサポートする高度に最適化されたエンドツーエンドのW4A4エンコーダ推論パイプラインを開発した。
参考スコア（独自算出の注目度）: 24.34969722921442
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Improving the deployment efficiency of transformer-based language models has been challenging given their high computation and memory cost. While INT8 quantization has recently been shown to be effective in reducing both the memory cost and latency while preserving model accuracy, it remains unclear whether we can leverage INT4 (which doubles peak hardware throughput) to achieve further latency improvement. In this study, we explore the feasibility of employing INT4 weight and activation (W4A4) quantization for language models. Our findings indicate that W4A4 quantization introduces no to negligible accuracy degradation for encoder-only and encoder-decoder models, but causes a significant accuracy drop for decoder-only models. To materialize the performance gain using W4A4, we develop a highly optimized end-to-end W4A4 encoder inference pipeline supporting different quantization strategies. Our INT4 pipeline is $8.5\times$ faster for latency-oriented scenarios and up to $3\times$ for throughput-oriented scenarios compared to the inference of FP16, and improves the SOTA BERT INT8 performance from FasterTransformer by up to $1.7\times$. We provide insights into the failure cases when applying W4A4 to decoder-only models, and further explore the compatibility of INT4 quantization with other compression methods, like pruning and layer reduction.
Abstract（参考訳）: 高い計算コストとメモリコストを考えると、トランスフォーマーベースの言語モデルのデプロイ効率の向上は困難である。 INT8量子化は、モデル精度を維持しながらメモリコストとレイテンシの両方を削減するのに有効であることが最近示されているが、INT4(ハードウェアスループットのピークを2倍にする)を活用してさらなるレイテンシ改善を実現することができるかどうかは不明だ。本研究では、言語モデルにおけるINT4重みとアクティベーション(W4A4)量子化の実現可能性について検討する。以上の結果から,w4a4量子化ではエンコーダのみおよびエンコーダデコーダモデルでは精度低下が認められず,デコーダのみモデルでは大きな精度低下がみられた。 w4a4を用いた性能向上を実現するため、異なる量子化戦略をサポートする高度に最適化されたエンドツーエンドw4a4エンコーダ推論パイプラインを開発した。私たちのINT4パイプラインは、レイテンシ指向のシナリオでは8.5\times$、スループット指向のシナリオでは最大$3\times$でFP16の推論よりも高速です。我々は、デコーダのみのモデルにw4a4を適用する場合の障害事例に関する洞察を提供し、さらにpruningやlayer reductionといった他の圧縮手法とのint4量子化の互換性について検討する。

関連論文リスト

When Less is More: 8-bit Quantization Improves Continual Learning in Large Language Models [3.395259076232696]
量子化精度 (FP16, INT8, INT4) と大言語モデルにおけるリプレイバッファ戦略の相互作用について検討する。量子化モデルはFP16を8～15%上回り、最終タスクの前方精度が向上する。量子化によるノイズは暗黙の正則化として作用し、高精度モデルに悩まされる新しいタスク勾配への過度な適合を防止していると仮定する。
論文参考訳（メタデータ） (2025-12-22T00:51:39Z)
Four Over Six: More Accurate NVFP4 Quantization with Adaptive Block Scaling [13.357423392911036]
NVFP4量子化アルゴリズムを改良したFour Over Six (4/6)を導入する。いくつかのブロックに対して、より小さなFP4値へのスケーリングは、表現可能な値の分布をより均一にする。また,4/6は,多くの学習後量子化手法に容易に組み込むことができ,一般に下流の精度が向上することがわかった。
論文参考訳（メタデータ） (2025-12-01T18:59:45Z)
INT v.s. FP: A Comprehensive Study of Fine-Grained Low-bit Quantization Formats [51.72056104795248]
NvidiaのBlackwellアーキテクチャのような現代のAIハードウェアは、低精度浮動小数点(FP)フォーマットをますます受け入れている。本稿では,FPフォーマットと整数(INT)フォーマットのトレードオフを系統的に検討する。 FPは粗粒度量子化に優れるが、きめ細かい(ブロックワイド)レベルでの比較はよりニュアンスが高い。
論文参考訳（メタデータ） (2025-10-29T15:11:53Z)
Post-Training Quantization via Residual Truncation and Zero Suppression for Diffusion Models [10.000323762676633]
拡散モデルは、高品質な画像生成を実現するが、高い計算要求のため、デプロイメントの課題に直面している。拡散モデルのための4ビットPTQスキームであるResidual Truncation and Zero Suppression (QuaRTZ) による量子化を提案する。提案手法は,外乱保存とLSB精度のバランスをとることにより,丸め誤差を低減し,量子化効率を向上させる。
論文参考訳（メタデータ） (2025-09-30T15:55:42Z)
Bridging the Gap Between Promise and Performance for Microscaling FP4 Quantization [77.67818998672516]
本研究は,MXFP4とNVFP4の学習後量子化に関する総合的研究である。本稿では,従来のGPTQ量子化アルゴリズムの変種であるMicro-Rotated-GPTQ(MR-GPTQ)を紹介する。 MR-GPTQは最先端の精度で一致または性能が向上することを示す。
論文参考訳（メタデータ） (2025-09-27T09:22:21Z)
Dual Precision Quantization for Efficient and Accurate Deep Neural Networks Inference [3.7687375904925484]
本稿では,ハードウェアの利点を最小限の精度で生かした,ハードウェア効率の量子化と推論手法を提案する。本研究では,新たな推定オーバーヘッドを伴わずに,新たな量子化アルゴリズムであるDual Precision Quantization (DPQ) を開発した。
論文参考訳（メタデータ） (2025-05-20T17:26:12Z)
Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics [65.37942405146232]
超低精度量子化により達成された,超軽量な状態要素を持つ新しいタイプのオーバーロードを提案する。提案したSOLOは,精度の低下を最小限に抑え,メモリの大幅な節約(7Bモデルのトレーニング時に約45GB)を実現する。
論文参考訳（メタデータ） (2025-05-01T06:47:45Z)
Qrazor: Reliable and Effortless 4-bit LLM Quantization by Significant Data Razoring [2.983583925806601]
QRazorは、ウェイト、アクティベーション、KVキャッシュの4ビット量子化をトランスフォーマーベース言語モデルで実現可能な、シンプルで効果的な量子化方式である。まず、8ビットまたは16ビットの整数を用いてデータを量子化し、絶対的な最大スケーリングで完全精度のモデルに近い精度で保存し、次に、重要なデータレイソーシング(SDR)技術を用いて4ビットに圧縮する。
論文参考訳（メタデータ） (2025-01-23T02:20:08Z)
SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models [58.5019443418822]
拡散モデルは高品質な画像を生成するのに非常に効果的であることが証明されている。これらのモデルが大きくなるにつれて、メモリが大幅に増加し、レイテンシの低下に悩まされる。本研究では,その重みとアクティベーションを4ビットに定量化し,拡散モデルの高速化を目指す。
論文参考訳（メタデータ） (2024-11-07T18:59:58Z)
"Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization [67.3213104337679]
我々は,学術ベンチマークや実世界のタスクにまたがる一般的な量子化形式を評価する。 W4A16は同期デプロイメントと中間層アーキテクチャの非同期デプロイメントに最適なコスト効率を提供する。
論文参考訳（メタデータ） (2024-11-04T18:21:59Z)
COMET: Towards Partical W4A4KV4 LLMs Serving [37.30529940231099]
量子化は、端末デバイスやクラウドデータセンターで大規模言語モデル(LLM)を提供するオーバーヘッドを低減するための圧縮技術である。本稿では,ほとんどのアクティベーションを4ビットに圧縮し,精度損失を無視できる新しい混合精度量子化アルゴリズム(FMPQ)を提案する。我々は、最適化されたW4Axカーネルを推論フレームワークCOMETに統合し、人気のあるLLMをサポートするための効率的な管理を提供する。
論文参考訳（メタデータ） (2024-10-16T02:16:53Z)
HQ-DiT: Efficient Diffusion Transformer with FP4 Hybrid Quantization [10.307268005739202]
拡散変換器(DiT)は、最近、優れた視覚生成能力に対して大きな注目を集めている。 DiTは高いパラメータカウントと実装コストを持ち、携帯電話などのリソース制限されたデバイスでの使用を著しく制限している。 4ビット浮動小数点(FP)の精度をDiT推論の重みとアクティベーションの両面に利用した,効率的なポストトレーニング量子化法であるDiT(HQ-DiT)のハイブリッド浮動小点量子化を提案する。
論文参考訳（メタデータ） (2024-05-30T06:56:11Z)
QServe: W4A8KV4 Quantization and System Co-design for Efficient LLM Serving [52.31791050376249]
量子化は大規模言語モデル(LLM)の推論を加速させる。既存のINT4量子化メソッドは、重みや部分和を復号化する場合、実行時の大きなオーバーヘッドに悩まされる。 4ビット重み、8ビットアクティベーション、4ビットKVキャッシュを備えたW4A8KV4量子化アルゴリズムQoQを導入する。 QServeは、Llama-3-8BをA100で1.2倍、L40Sで1.4倍、Qwen-721.5BをA100で2.4倍、L40Sで3.5倍、達成可能な最大機能を改善する。
論文参考訳（メタデータ） (2024-05-07T17:59:30Z)
ZeroQuant(4+2): Redefining LLMs Quantization with a New FP6-Centric Strategy for Diverse Generative Tasks [31.431016659268206]
本研究では,大規模言語モデル(LLM)におけるGPTQのような4ビット量子化手法について検討する。タスクスコープは、コード生成や抽象的な要約といった、より生成的なカテゴリに拡張します。最新のINT4微細粒量子化に類似したレイテンシを実現するために,FP6のための新しい4+2設計を提案する。
論文参考訳（メタデータ） (2023-12-14T01:06:37Z)
QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文参考訳（メタデータ） (2023-10-13T17:15:05Z)
Accelerating Inference and Language Model Fusion of Recurrent Neural Network Transducers via End-to-End 4-bit Quantization [35.198615417316056]
我々は、リカレントニューラルネットワークトランスデューサ(RNN-T)の推論を大幅に高速化するアグレッシブ量子化戦略について報告する。重みとアクティベーションの両方に4ビット整数表現を使用し、完全なモデルをトレーニングするために量子化アウェアトレーニング(QAT)を適用します。ネットワークのローカルな特性に合わせてカスタマイズされた量子化方式は、優れた性能を実現するために不可欠であることを示す。
論文参考訳（メタデータ） (2022-06-16T02:17:49Z)
ZeroQuant: Efficient and Affordable Post-Training Quantization for Large-Scale Transformers [29.566132632781848]
我々は、ZeroQuantと呼ばれる大きなTransformerベースのモデルを圧縮するための、効率的で安価なポストトレーニング量子化手法を提案する。 ZeroQuantは3つの主要コンポーネントを備えたエンドツーエンドの量子化と推論パイプラインである。
論文参考訳（メタデータ） (2022-06-04T00:28:21Z)
Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。全精度ベースラインモデルと比較すると,wrの変化は無視できる。 Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文参考訳（メタデータ） (2021-03-31T06:05:40Z)
HAWQV3: Dyadic Neural Network Quantization [73.11579145354801]
現在の低精度量子化アルゴリズムは、浮動小数点から量子化された整数値への変換の隠れコストを持つことが多い。 HAWQV3は、新しい混合精度整数のみの量子化フレームワークである。
論文参考訳（メタデータ） (2020-11-20T23:51:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。