Fugu-MT 論文翻訳(概要): GQSA: Group Quantization and Sparsity for Accelerating Large Language Model Inference

論文の概要: GQSA: Group Quantization and Sparsity for Accelerating Large Language Model Inference

arxiv url: http://arxiv.org/abs/2412.17560v1
Date: Mon, 23 Dec 2024 13:28:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-24 19:42:48.453347
Title: GQSA: Group Quantization and Sparsity for Accelerating Large Language Model Inference
Title（参考訳）: GQSA:大規模言語モデル推論の高速化のためのグループ量子化とスパシティ
Authors: Chao Zeng, Songwei Liu, Shu Yang, Fangmin Chen, Xing Mei, Lean Fu,
Abstract要約: Group Quantization and Sparse Acceleration (textbfGQSA)は、大規模言語モデル(LLM)に適した新しい圧縮技術である。 GQSAは量子化とスパーシフィケーションを緊密に結合した方法で統合し、GPUフレンドリな構造化グループ空間と量子化を利用して効率的な加速を行う。 LLaMAモデルファミリーの実験結果から,GQSAはモデル速度と精度のバランスが良好であることが確認された。
参考スコア（独自算出の注目度）: 5.358880304650258
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the rapid growth in the scale and complexity of large language models (LLMs), the costs of training and inference have risen substantially. Model compression has emerged as a mainstream solution to reduce memory usage and computational overhead. This paper presents Group Quantization and Sparse Acceleration (\textbf{GQSA}), a novel compression technique tailored for LLMs. Traditional methods typically focus exclusively on either quantization or sparsification, but relying on a single strategy often results in significant performance loss at high compression rates. In contrast, GQSA integrates quantization and sparsification in a tightly coupled manner, leveraging GPU-friendly structured group sparsity and quantization for efficient acceleration. The proposed method consists of three key steps. First, GQSA applies group structured pruning to adhere to GPU-friendly sparse pattern constraints. Second, a two-stage sparsity-aware training process is employed to maximize performance retention after compression. Finally, the framework adopts the Block Sparse Row (BSR) format to enable practical deployment and efficient execution. Experimental results on the LLaMA model family show that GQSA achieves an excellent balance between model speed and accuracy. Furthermore, on the latest LLaMA-3 and LLaMA-3.1 models, GQSA outperforms existing LLM compression techniques significantly.
Abstract（参考訳）: 大規模言語モデル(LLM)のスケールと複雑性の急激な増加に伴い、トレーニングと推論のコストは大幅に上昇した。モデル圧縮は、メモリ使用量と計算オーバーヘッドを減らす主要なソリューションとして登場した。本稿では,LLMに適した新しい圧縮技術である群量子化とスパース加速(\textbf{GQSA})を提案する。従来の手法は量子化とスパシフィケーションにのみ焦点をあてるが、単一の戦略に依存すると高い圧縮率で大きな性能損失が生じる。対照的に、GQSAは量子化とスパーシフィケーションを緊密に結合した方法で統合し、GPUフレンドリーな構造化グループ空間と量子化を利用して効率的な加速を行う。提案手法は3つのステップから構成される。まず、GQSAはGPUフレンドリーなスパースパターン制約に従うためにグループ構造化プルーニングを適用している。第2に、圧縮後の性能保持を最大化するために、2段階のスパーシティ対応トレーニングプロセスを用いる。最後に、フレームワークはBlock Sparse Row (BSR)フォーマットを採用して、実用的なデプロイと効率的な実行を可能にしている。 LLaMAモデルファミリーの実験結果から,GQSAはモデル速度と精度のバランスが良好であることが確認された。さらに、最新のLLaMA-3およびLLaMA-3.1モデルでは、GQSAは既存のLLM圧縮技術よりも大幅に優れている。

関連論文リスト

Semantic Retention and Extreme Compression in LLMs: Can We Have Both? [0.0]
LLM(Large Language Model)デプロイメントでは,効率的なモデル圧縮技術の必要性が高まっている。我々は, プルーニングと量子化を戦略的に組み合わせることで, 高い性能・圧縮比が得られることを示す。本稿では,モデル圧縮と意味保存のトレードオフを定量化する新しい指標であるセマンティック保持圧縮率(SrCr)を紹介する。
論文参考訳（メタデータ） (2025-05-12T07:23:19Z)
CRVQ: Channel-Relaxed Vector Quantization for Extreme Compression of LLMs [43.769229349666396]
ポストトレーニング量子化(PTQ)は、この野心を達成するためのスターアプローチとして登場した。本稿では,PTQベースラインの性能を大幅に向上させる新しい手法であるChannel-Relaxed Vector Quantization (CRVQ)を提案する。
論文参考訳（メタデータ） (2024-12-12T13:45:11Z)
Efficient Distributed Training through Gradient Compression with Sparsification and Quantization Techniques [3.6481248057068174]
50倍の圧縮でトップkとDGCを使用するとパフォーマンスが向上し、ベースラインに比べてパープレキシティが最大0.06削減される。通信時間は全ての圧縮法で減少し、トップkとDGCは高い圧縮比で無視できるレベルまで通信を減少させる。
論文参考訳（メタデータ） (2024-12-07T22:55:55Z)
Pushing the Limits of Large Language Model Quantization via the Linearity Theorem [71.3332971315821]
本稿では,階層的$ell$再構成誤差と量子化によるモデルパープレキシティ増加との直接的な関係を確立する「線形定理」を提案する。この知見は,(1)アダマール回転とHIGGSと呼ばれるMSE最適格子を用いた単純なデータフリーLCM量子化法,(2)非一様層ごとの量子化レベルを求める問題に対する最適解の2つの新しい応用を可能にする。
論文参考訳（メタデータ） (2024-11-26T15:35:44Z)
Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文参考訳（メタデータ） (2024-09-25T21:32:12Z)
SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-05-23T16:21:48Z)
Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文参考訳（メタデータ） (2024-01-11T18:54:44Z)
QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文参考訳（メタデータ） (2023-10-13T17:15:05Z)
SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文参考訳（メタデータ） (2023-06-13T08:57:54Z)
Quantize Once, Train Fast: Allreduce-Compatible Compression with Provable Guarantees [53.950234267704]
我々は、全リデュース勾配互換量子化法であるGlobal-QSGDを紹介する。ベースライン量子化法で最大3.51%の分散トレーニングを高速化することを示す。
論文参考訳（メタデータ） (2023-05-29T21:32:15Z)
Just CHOP: Embarrassingly Simple LLM Compression [27.64461490974072]
LLM(Large Language Model)は、非並列の少数およびゼロショット推論機能を実現するが、高い計算フットプリントを実現する。拡張言語モデル事前学習と組み合わせた単純なレイヤプルーニングは、7Bスケールでモデルの構造的および半構造化された圧縮に対して最先端の結果をもたらすことを示す。また,より小さなBERT型モデルのタスク非依存圧縮において非常に効果的であった蒸留が,我々の単純な刈り取り技術に対して非効率になることを示す。
論文参考訳（メタデータ） (2023-05-24T08:18:35Z)
Compact representations of convolutional neural networks via weight pruning and quantization [63.417651529192014]
本稿では、音源符号化に基づく畳み込みニューラルネットワーク(CNN)の新しいストレージフォーマットを提案し、重み付けと量子化の両方を活用する。我々は、全接続層で0.6%、ネットワーク全体で5.44%のスペース占有率を削減し、最低でもベースラインと同じくらいの競争力を発揮する。
論文参考訳（メタデータ） (2021-08-28T20:39:54Z)
FantastIC4: A Hardware-Software Co-Design Approach for Efficiently Running 4bit-Compact Multilayer Perceptrons [19.411734658680967]
深層ニューラルネットワーク(DNN)の高効率な実行エンジンを得るためのソフトウェアハードウェア最適化パラダイムを提案する。私たちのアプローチは、予測性能の高い多層パーセプトロン(MLP)の面積と電力要件を低減するための手段として、圧縮を中心にしています。仮想超大規模FPGA XCVU440デバイス実装では総消費電力3.6Wで2.45 TOPSのスループットを達成し、22nmプロセスASICバージョンでは20.17 TOPS/Wの総電力効率を達成できることを示した。
論文参考訳（メタデータ） (2020-12-17T19:10:04Z)
Automated Model Compression by Jointly Applied Pruning and Quantization [14.824593320721407]
従来のディープ圧縮フレームワークでは、反復的にネットワークプルーニングと量子化を行うことで、モデルのサイズと計算コストを削減できる。ネットワークプルーニングと量子化を統一的な共同圧縮問題として統合し,AutoMLを用いて自動的に解き出すことで,この問題に対処する。共同適用プルーニングと量子化(AJPQ)による自動モデル圧縮を提案する。
論文参考訳（メタデータ） (2020-11-12T07:06:29Z)
GAN Slimming: All-in-One GAN Compression by A Unified Optimization Framework [94.26938614206689]
本稿では,GANスライミング(GAN Slimming)と呼ばれる,GAN圧縮のための複数の圧縮手段を組み合わせた最初の統一最適化フレームワークを提案する。我々はGSを用いて、最先端のトランスファーネットワークであるCartoonGANを最大47倍圧縮し、視覚的品質を最小限に抑える。
論文参考訳（メタデータ） (2020-08-25T14:39:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。