論文の概要: MixLLM: LLM Quantization with Global Mixed-precision between Output-features and Highly-efficient System Design
- arxiv url: http://arxiv.org/abs/2412.14590v1
- Date: Thu, 19 Dec 2024 07:15:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:30:33.225001
- Title: MixLLM: LLM Quantization with Global Mixed-precision between Output-features and Highly-efficient System Design
- Title(参考訳): MixLLM: 出力特性と高効率システム設計のグローバル混合精度によるLLM量子化
- Authors: Zhen Zheng, Xiaonan Song, Chuanjie Liu,
- Abstract要約: 我々は,その精度,メモリ消費,システム効率の三角形に対する効果に関する一般量子化原理を包括的に分析する。
出力特徴間の混合精度量子化の新しい最適化空間を探索するMixLLMを提案する。
本稿では,アルゴリズム-システム共設計の量子化構成のスイートスポットについて述べる。
- 参考スコア(独自算出の注目度): 1.3589914205911104
- License:
- Abstract: Quantization has become one of the most effective methodologies to compress LLMs into smaller size. However, the existing quantization solutions still show limitations of either non-negligible accuracy drop or system inefficiency. In this paper, we make a comprehensive analysis of the general quantization principles on their effect to the triangle of accuracy, memory consumption and system efficiency. We propose MixLLM that explores the new optimization space of mixed-precision quantization between output features based on the insight that different output features matter differently in the model. MixLLM identifies the output features with high salience in the global view rather than within each single layer, effectively assigning the larger bit-width to output features that need it most to achieve good accuracy with low memory consumption. We present the sweet spot of quantization configuration of algorithm-system co-design that leads to high accuracy and system efficiency. To address the system challenge, we design the two-step dequantization to make use of the int8 Tensor Core easily and fast data type conversion to reduce dequantization overhead significantly, and present the software pipeline to overlap the memory access, dequantization and the MatMul to the best. Extensive experiments show that with only 10% more bits, the PPL increasement can be reduced from about 0.5 in SOTA to within 0.2 for Llama 3.1 70B, while on average MMLU-Pro improves by 0.93 over the SOTA of three popular models. In addition to its superior accuracy, MixLLM also achieves state-of-the-art system efficiency.
- Abstract(参考訳): 量子化はLLMをより小さなサイズに圧縮する最も効果的な手法の1つである。
しかし、既存の量子化ソリューションは、非無視的精度低下またはシステム非効率性の制限をまだ示している。
本稿では,精度,メモリ消費,システム効率の三角形に対する一般量子化原理を包括的に分析する。
そこで本研究では,モデルで異なる出力特徴が重要であるという知見に基づいて,出力特徴間の混合精度量子化の新しい最適化空間を探索するMixLLMを提案する。
MixLLMは、単一のレイヤ内でではなく、グローバルビューで高い精度で出力機能を特定し、メモリ消費の少ない精度で最も高い精度を達成するために必要な出力機能にビット幅を効果的に割り当てる。
本稿では,アルゴリズム-システム共設計の量子化構成のスイートスポットについて述べる。
システム課題に対処するため,Int8 Tensor Coreを用いた2段階のデクエント化を設計し,メモリアクセス,デクエント化,およびMatMulを最良とするソフトウェアパイプラインを提示する。
大規模な実験では、PPLの増加はわずか10%のビットでSOTAの0.5からLlama 3.1 70Bの0.2に減少し、平均的なMMLU-Proは3つの人気モデルのSOTAよりも0.93向上した。
精度の向上に加えて、MixLLMは最先端のシステム効率も達成している。
関連論文リスト
- MixPE: Quantization and Hardware Co-design for Efficient LLM Inference [16.42907854119748]
MixPEは、大規模言語モデルにおける効率的な低ビット量子化のために設計された、特殊な混合精度処理素子である。
我々は、MixPEが最先端の量子化アクセラレータを2.6倍のスピードアップと1.4倍のエネルギー削減で超えることを示した。
論文 参考訳(メタデータ) (2024-11-25T07:34:53Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [67.67135738642547]
後学習量子化(PTQ)は、大規模言語モデル(LLM)において研究される強力な圧縮手法である。
既存のPTQ法は、特に4ビット幅以下では、精度と効率の点で理想的ではない。
本稿では,LSM,すなわちSliM-LLMに対するSalience-Driven Mixed-Precision Quantizationスキームを提案する。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only
Quantization for LLMs [9.072821427818557]
大規模言語モデル(LLM)は、様々な言語タスクで最先端のパフォーマンスを達成しているが、実用的なデプロイメントには課題がある。
メモリ消費を削減し,LLMの推論を高速化する,効率的な重みのみの量子化法を提案する。
我々は,OPT-175Bや内部MoEモデルのような大規模オープンソースモデルに対するアプローチを評価し,スループットを最大3.65倍に向上しながら,最小限の精度の損失を示す。
論文 参考訳(メタデータ) (2023-08-16T23:57:41Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - AMED: Automatic Mixed-Precision Quantization for Edge Devices [3.5223695602582614]
量子ニューラルネットワークは、レイテンシ、消費電力、モデルサイズをパフォーマンスに大きな影響を与えずに減少させることでよく知られている。
混合精度量子化は、異なるビット幅での算術演算をサポートするカスタマイズされたハードウェアのより良い利用を提供する。
論文 参考訳(メタデータ) (2022-05-30T21:23:22Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z) - Fully Quantized Image Super-Resolution Networks [81.75002888152159]
効率と精度を両立させるためのフル量子化画像超解像フレームワーク(FQSR)を提案する。
我々は、SRResNet、SRGAN、EDSRを含む複数の主流超解像アーキテクチャに量子化スキームを適用した。
低ビット量子化を用いたFQSRは、5つのベンチマークデータセットの完全精度と比較すると、パー性能で実現できる。
論文 参考訳(メタデータ) (2020-11-29T03:53:49Z) - Layer-specific Optimization for Mixed Data Flow with Mixed Precision in
FPGA Design for CNN-based Object Detectors [16.56630393243829]
畳み込みニューラルネットワーク(CNN)は、集中的な計算と頻繁なメモリアクセスの両方を必要とする。
本稿では、異なる層に最適化された異なる組織を利用する層固有の設計を提案する。
提案手法は, 層固有の混合データフローと層固有の混合精度の2つの最適化手法を用いる。
論文 参考訳(メタデータ) (2020-09-03T11:27:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。