論文の概要: GQSA: Group Quantization and Sparsity for Accelerating Large Language Model Inference
- arxiv url: http://arxiv.org/abs/2412.17560v1
- Date: Mon, 23 Dec 2024 13:28:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:57:03.809539
- Title: GQSA: Group Quantization and Sparsity for Accelerating Large Language Model Inference
- Title(参考訳): GQSA:大規模言語モデル推論の高速化のためのグループ量子化とスパシティ
- Authors: Chao Zeng, Songwei Liu, Shu Yang, Fangmin Chen, Xing Mei, Lean Fu,
- Abstract要約: Group Quantization and Sparse Acceleration (textbfGQSA)は、大規模言語モデル(LLM)に適した新しい圧縮技術である。
GQSAは量子化とスパーシフィケーションを緊密に結合した方法で統合し、GPUフレンドリな構造化グループ空間と量子化を利用して効率的な加速を行う。
LLaMAモデルファミリーの実験結果から,GQSAはモデル速度と精度のバランスが良好であることが確認された。
- 参考スコア(独自算出の注目度): 5.358880304650258
- License:
- Abstract: With the rapid growth in the scale and complexity of large language models (LLMs), the costs of training and inference have risen substantially. Model compression has emerged as a mainstream solution to reduce memory usage and computational overhead. This paper presents Group Quantization and Sparse Acceleration (\textbf{GQSA}), a novel compression technique tailored for LLMs. Traditional methods typically focus exclusively on either quantization or sparsification, but relying on a single strategy often results in significant performance loss at high compression rates. In contrast, GQSA integrates quantization and sparsification in a tightly coupled manner, leveraging GPU-friendly structured group sparsity and quantization for efficient acceleration. The proposed method consists of three key steps. First, GQSA applies group structured pruning to adhere to GPU-friendly sparse pattern constraints. Second, a two-stage sparsity-aware training process is employed to maximize performance retention after compression. Finally, the framework adopts the Block Sparse Row (BSR) format to enable practical deployment and efficient execution. Experimental results on the LLaMA model family show that GQSA achieves an excellent balance between model speed and accuracy. Furthermore, on the latest LLaMA-3 and LLaMA-3.1 models, GQSA outperforms existing LLM compression techniques significantly.
- Abstract(参考訳): 大規模言語モデル(LLM)のスケールと複雑性の急激な増加に伴い、トレーニングと推論のコストは大幅に上昇した。
モデル圧縮は、メモリ使用量と計算オーバーヘッドを減らす主要なソリューションとして登場した。
本稿では,LLMに適した新しい圧縮技術である群量子化とスパース加速(\textbf{GQSA})を提案する。
従来の手法は量子化とスパシフィケーションにのみ焦点をあてるが、単一の戦略に依存すると高い圧縮率で大きな性能損失が生じる。
対照的に、GQSAは量子化とスパーシフィケーションを緊密に結合した方法で統合し、GPUフレンドリーな構造化グループ空間と量子化を利用して効率的な加速を行う。
提案手法は3つのステップから構成される。
まず、GQSAはGPUフレンドリーなスパースパターン制約に従うためにグループ構造化プルーニングを適用している。
第2に、圧縮後の性能保持を最大化するために、2段階のスパーシティ対応トレーニングプロセスを用いる。
最後に、フレームワークはBlock Sparse Row (BSR)フォーマットを採用して、実用的なデプロイと効率的な実行を可能にしている。
LLaMAモデルファミリーの実験結果から,GQSAはモデル速度と精度のバランスが良好であることが確認された。
さらに、最新のLLaMA-3およびLLaMA-3.1モデルでは、GQSAは既存のLLM圧縮技術よりも大幅に優れている。
関連論文リスト
- GANQ: GPU-Adaptive Non-Uniform Quantization for Large Language Models [2.1388885579612804]
GANQは、ハードウェア効率の良いルックアップテーブルベースのmpGEMMに最適化されたレイヤーワイズ後の非一様量子化フレームワークである。
広汎な実験は、3ビットおよび4ビット量子化の最先端手法と比較して、GANQのFP16ベースラインからのパープレキシティギャップを低減する能力を示している。
論文 参考訳(メタデータ) (2025-01-22T15:29:09Z) - CRVQ: Channel-Relaxed Vector Quantization for Extreme Compression of LLMs [43.769229349666396]
ポストトレーニング量子化(PTQ)は、この野心を達成するためのスターアプローチとして登場した。
本稿では,PTQベースラインの性能を大幅に向上させる新しい手法であるChannel-Relaxed Vector Quantization (CRVQ)を提案する。
論文 参考訳(メタデータ) (2024-12-12T13:45:11Z) - Pushing the Limits of Large Language Model Quantization via the Linearity Theorem [71.3332971315821]
本稿では,階層的$ell$再構成誤差と量子化によるモデルパープレキシティ増加との直接的な関係を確立する「線形定理」を提案する。
この知見は,(1)アダマール回転とHIGGSと呼ばれるMSE最適格子を用いた単純なデータフリーLCM量子化法,(2)非一様層ごとの量子化レベルを求める問題に対する最適解の2つの新しい応用を可能にする。
論文 参考訳(メタデータ) (2024-11-26T15:35:44Z) - Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。
トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文 参考訳(メタデータ) (2024-01-11T18:54:44Z) - QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language
Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。
これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。
我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文 参考訳(メタデータ) (2023-10-13T17:15:05Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Compact representations of convolutional neural networks via weight
pruning and quantization [63.417651529192014]
本稿では、音源符号化に基づく畳み込みニューラルネットワーク(CNN)の新しいストレージフォーマットを提案し、重み付けと量子化の両方を活用する。
我々は、全接続層で0.6%、ネットワーク全体で5.44%のスペース占有率を削減し、最低でもベースラインと同じくらいの競争力を発揮する。
論文 参考訳(メタデータ) (2021-08-28T20:39:54Z) - FantastIC4: A Hardware-Software Co-Design Approach for Efficiently
Running 4bit-Compact Multilayer Perceptrons [19.411734658680967]
深層ニューラルネットワーク(DNN)の高効率な実行エンジンを得るためのソフトウェアハードウェア最適化パラダイムを提案する。
私たちのアプローチは、予測性能の高い多層パーセプトロン(MLP)の面積と電力要件を低減するための手段として、圧縮を中心にしています。
仮想超大規模FPGA XCVU440デバイス実装では総消費電力3.6Wで2.45 TOPSのスループットを達成し、22nmプロセスASICバージョンでは20.17 TOPS/Wの総電力効率を達成できることを示した。
論文 参考訳(メタデータ) (2020-12-17T19:10:04Z) - Automated Model Compression by Jointly Applied Pruning and Quantization [14.824593320721407]
従来のディープ圧縮フレームワークでは、反復的にネットワークプルーニングと量子化を行うことで、モデルのサイズと計算コストを削減できる。
ネットワークプルーニングと量子化を統一的な共同圧縮問題として統合し,AutoMLを用いて自動的に解き出すことで,この問題に対処する。
共同適用プルーニングと量子化(AJPQ)による自動モデル圧縮を提案する。
論文 参考訳(メタデータ) (2020-11-12T07:06:29Z) - GAN Slimming: All-in-One GAN Compression by A Unified Optimization
Framework [94.26938614206689]
本稿では,GANスライミング(GAN Slimming)と呼ばれる,GAN圧縮のための複数の圧縮手段を組み合わせた最初の統一最適化フレームワークを提案する。
我々はGSを用いて、最先端のトランスファーネットワークであるCartoonGANを最大47倍圧縮し、視覚的品質を最小限に抑える。
論文 参考訳(メタデータ) (2020-08-25T14:39:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。