Fugu-MT 論文翻訳(概要): Dual Grained Quantization: Efficient Fine-Grained Quantization for LLM

論文の概要: Dual Grained Quantization: Efficient Fine-Grained Quantization for LLM

arxiv url: http://arxiv.org/abs/2310.04836v1
Date: Sat, 7 Oct 2023 14:50:28 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-12 15:06:00.767135
Title: Dual Grained Quantization: Efficient Fine-Grained Quantization for LLM
Title（参考訳）: デュアルグラインド量子化:LLMのための高効率ファイングラインド量子化
Authors: Luoming Zhang, Wen Fei, Weijia Wu, Yefei He, Zhenyu Lou, Hong Zhou
Abstract要約: LLM(Large Language Models)は、メモリ要件と計算能力に関する重要なハードウェア上の課題を提起する。 LLMには2つの主要な量子化スキームがある: 粗粒(textite.g.$ channel-wise)量子化と細粒(textite.g.$ group-wise)量子化である。我々は、高速な推論速度を確保しつつ優れた性能を維持するLLMのための新しいA8W4量子化であるDual Grained Quantization (DGQ)を紹介する。
参考スコア（独自算出の注目度）: 6.85331857224501
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) pose significant hardware challenges related to memory requirements and computational ability. There are two mainstream quantization schemes for LLMs: coarse-grained ($\textit{e.g.,}$ channel-wise) quantization and fine-grained ($\textit{e.g.,}$ group-wise) quantization. Fine-grained quantization has smaller quantization loss, consequently achieving superior performance. However, when applied to weight-activation quantization, it disrupts continuous integer matrix multiplication, leading to inefficient inference. In this paper, we introduce Dual Grained Quantization (DGQ), a novel A8W4 quantization for LLM that maintains superior performance while ensuring fast inference speed. DSQ dequantizes the fine-grained INT4 weight into coarse-grained INT8 representation and preform matrix multiplication using INT8 kernels. Besides, we develop a two-phase grid search algorithm to simplify the determination of fine-grained and coarse-grained quantization scales. We also devise a percentile clipping schema for smoothing the activation outliers without the need for complex optimization techniques. Experimental results demonstrate that DGQ consistently outperforms prior methods across various LLM architectures and a wide range of tasks. Remarkably, by our implemented efficient CUTLASS kernel, we achieve $\textbf{1.12}$ $\times$ memory reduction and $\textbf{3.24}$ $\times$ speed gains comparing A16W4 implementation. These advancements enable efficient deployment of A8W4 LLMs for real-world applications.
Abstract（参考訳）: 大規模言語モデル(llm)は、メモリ要求と計算能力に関する重要なハードウェア課題を提起する。 llms には、粗粒度 (\textit{e,}$ channel-wise) 量子化と細粒度 (\textit{e,}$ group-wise) 量子化の2つの主要な量子化スキームがある。微粒化量子化は量子化損失が小さく、結果として優れた性能が得られる。しかし、ウェイトアクティベーション量子化に適用すると、連続整数行列の乗法を妨害し、非効率な推論をもたらす。本稿では、高速な推論速度を確保しつつ優れた性能を維持するLLMのための新しいA8W4量子化であるDual Grained Quantization (DGQ)を紹介する。 DSQ は INT4 重みを粗い INT8 表現と INT8 カーネルを用いたプリフォーム行列乗算に分解する。さらに,細粒度および粗粒度量子化スケールの決定を簡略化する二相グリッド探索アルゴリズムを開発した。また,複雑な最適化手法を必要とせずに,アクティベーションアウトレーヤをスムーズにするためのパーセンタイルクリッピングスキーマも考案した。実験の結果、DGQ は様々な LLM アーキテクチャや幅広いタスクにおいて、先行手法よりも一貫して優れていた。驚くべきことに、効率的なcutlassカーネルによって、a16w4実装と比較して$\textbf{1.12}$$$\times$メモリ削減と$\textbf{3.24}$$$$\times$速度向上を実現しています。これらの進歩により、現実世界のアプリケーションにA8W4 LLMを効率的に展開できる。

関連論文リスト

Quantizing Large Language Models for Code Generation: A Differentiated Replication [51.85505914274633]
大規模言語モデル(LLM)は、コード生成において印象的な能力を示しており、特に自然言語で記述された要求を自動的に実装する。 LLMはメモリ(そして結果として炭素)のフットプリントに重大な課題をもたらす。 LLM量子化の新しいフロンティアは4ビット精度であり、平均メモリフットプリントが70%減少する。
論文参考訳（メタデータ） (2025-03-10T09:26:08Z)
KurTail : Kurtosis-based LLM Quantization [51.24081396305435]
KurTailは、大規模言語モデルのアクティベートにおいて、アウトレーヤを緩和する、新しいトレーニング後の量子化スキームである。 MMLUの精度は13.3%向上し、Wikiの難易度はQuaRotに比べて15.5%低下している。また、SpinQuantを2.6%のMMLUゲインで上回り、パープレキシティを2.9%削減し、トレーニングコストを削減した。
論文参考訳（メタデータ） (2025-03-03T12:43:06Z)
Towards Accurate and Efficient Sub-8-Bit Integer Training [24.853958178296587]
量子化は、ニューラルネットワークトレーニングにおける低ビット幅フォーマットを可能にする。最近の手法では、量子化器上での新しいデータフォーマットと追加の事前処理操作が開発されている。高い精度と効率を同時に達成することは、依然として非常に難しい。
論文参考訳（メタデータ） (2024-11-17T03:32:36Z)
COMET: Towards Partical W4A4KV4 LLMs Serving [37.30529940231099]
量子化は、端末デバイスやクラウドデータセンターで大規模言語モデル(LLM)を提供するオーバーヘッドを低減するための圧縮技術である。本稿では,ほとんどのアクティベーションを4ビットに圧縮し,精度損失を無視できる新しい混合精度量子化アルゴリズム(FMPQ)を提案する。我々は、最適化されたW4Axカーネルを推論フレームワークCOMETに統合し、人気のあるLLMをサポートするための効率的な管理を提供する。
論文参考訳（メタデータ） (2024-10-16T02:16:53Z)
MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。 MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文参考訳（メタデータ） (2024-08-21T16:10:41Z)
ABQ-LLM: Arbitrary-Bit Quantized Inference Acceleration for Large Language Models [9.444063879246242]
本稿では,新しい任意のビット量子化アルゴリズムと推論フレームワークであるABQ-LLMを紹介する。様々な量子化設定において優れた性能を実現し、GPU上で効率的な任意の精度の量子化推論を可能にする。
論文参考訳（メタデータ） (2024-08-16T06:39:08Z)
SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-05-23T16:21:48Z)
QServe: W4A8KV4 Quantization and System Co-design for Efficient LLM Serving [52.31791050376249]
量子化は大規模言語モデル(LLM)の推論を加速させる。既存のINT4量子化メソッドは、重みや部分和を復号化する場合、実行時の大きなオーバーヘッドに悩まされる。 4ビット重み、8ビットアクティベーション、4ビットKVキャッシュを備えたW4A8KV4量子化アルゴリズムQoQを導入する。 QServeは、Llama-3-8BをA100で1.2倍、L40Sで1.4倍、Qwen-721.5BをA100で2.4倍、L40Sで3.5倍、達成可能な最大機能を改善する。
論文参考訳（メタデータ） (2024-05-07T17:59:30Z)
FlattenQuant: Breaking Through the Inference Compute-bound for Large Language Models with Per-tensor Quantization [6.931020818874328]
テンソル内の大きなチャネルを平らにすることでテンソルの最大値を大幅に低減し、最小の精度でテンソル当たりの量子化を実現するFlattenQuantという手法を提案する。我々の研究は2$times$ speedupと2.3$times$ memory reduction for LLMs with negligible loss in accuracyを達成している。
論文参考訳（メタデータ） (2024-02-28T02:00:34Z)
BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。 LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文参考訳（メタデータ） (2024-02-06T09:26:34Z)
Agile-Quant: Activation-Guided Quantization for Faster Inference of LLMs on the Edge [45.690907522226794]
大きな言語モデル(LLM)は、複雑な言語モデリングタスクにおける印象的なパフォーマンスで際立っている。近年の研究では、エンド・ツー・エンドのタスク性能に最小限の影響を伴って、8ビット以下のウェイト量子化が可能であることが示されている。我々は、人気のある大規模言語モデルのためのアクティベーション誘導量子化フレームワークであるAgile-Quantを提案する。
論文参考訳（メタデータ） (2023-12-09T22:12:52Z)
A Speed Odyssey for Deployable Quantization of LLMs [19.12232212257625]
量子化アルゴリズムの構築において,ハードウェア中心のアプローチを導入する。我々の方法であるOdysseyLLMは、FastGEMMと呼ばれる新しいW4A8カーネル実装と、量子化戦略のレシピを組み合わせたものである。実験では、Hugging Face FP16や textbf2.23$times$と、最先端の推論エンジンと比較して、実際の速度が textbf4$times$に向上するW4A8メソッドの優位性を示しています。
論文参考訳（メタデータ） (2023-11-16T04:11:19Z)
QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文参考訳（メタデータ） (2023-10-13T17:15:05Z)
FPTQ: Fine-grained Post-Training Quantization for Large Language Models [28.11564378745513]
利用可能なオープンソースLLMのための新しいW4A8ポストトレーニング量子化法を提案する。我々は,BLOOM,LLaMA,LLaMA-2における最先端のW4A8量子化性能を標準ベンチマークで取得する。
論文参考訳（メタデータ） (2023-08-30T12:18:18Z)
OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models [57.27101446992148]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効である。多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文参考訳（メタデータ） (2023-08-25T02:28:35Z)
SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文参考訳（メタデータ） (2023-06-13T08:57:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。