Fugu-MT 論文翻訳(概要): SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight Compression

論文の概要: SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight Compression

arxiv url: http://arxiv.org/abs/2306.03078v1
Date: Mon, 5 Jun 2023 17:53:28 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-06 13:36:40.692176
Title: SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight Compression
Title（参考訳）: SpQR: LLM重み圧縮のためのスパース量子表現
Authors: Tim Dettmers, Ruslan Svirschevski, Vage Egiazarian, Denis Kuznedelev, Elias Frantar, Saleh Ashkboos, Alexander Borzunov, Torsten Hoefler, Dan Alistarh
Abstract要約: Sparse-Quantized Representation (SpQR) は,新しい圧縮フォーマットと量子化技術である。 SpQRは、高精度なLLaMAとFalcon LLMのパープレキシティにおいて、1%未満の相対的精度の損失を達成している。これにより、1台の24GBのコンシューマGPU上で33BパラメータのLSMを実行でき、15%のスピードアップでパフォーマンスの劣化は発生しない。
参考スコア（独自算出の注目度）: 76.73007709690306
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in large language model (LLM) pretraining have led to high-quality LLMs with impressive abilities. By compressing such LLMs via quantization to 3-4 bits per parameter, they can fit into memory-limited devices such as laptops and mobile phones, enabling personalized use. However, quantization down to 3-4 bits per parameter usually leads to moderate-to-high accuracy losses, especially for smaller models in the 1-10B parameter range, which are well-suited for edge deployments. To address this accuracy issue, we introduce the Sparse-Quantized Representation (SpQR), a new compressed format and quantization technique which enables for the first time near-lossless compression of LLMs across model scales, while reaching similar compression levels to previous methods. SpQR works by identifying and isolating outlier weights, which cause particularly-large quantization errors, and storing them in higher precision, while compressing all other weights to 3-4 bits, and achieves relative accuracy losses of less than 1% in perplexity for highly-accurate LLaMA and Falcon LLMs. This makes it possible to run 33B parameter LLM on a single 24 GB consumer GPU without any performance degradation at 15% speedup thus making powerful LLMs available to consumer without any downsides. SpQR comes with efficient algorithms for both encoding weights into its format, as well as decoding them efficiently at runtime. Specifically, we provide an efficient GPU inference algorithm for SpQR which yields faster inference than 16-bit baselines at similar accuracy, while enabling memory compression gains of more than 4x.
Abstract（参考訳）: 大規模言語モデル(LLM)の事前学習の進歩は、優れた能力を持つ高品質のLLMを生み出している。パラメータごとに3〜4ビットに量子化することで、ラップトップや携帯電話などのメモリ制限されたデバイスに適合し、パーソナライズされた使用を可能にする。しかし、パラメータごとに3〜4ビットまで量子化すると、特にエッジ展開に適した1-10Bパラメータ範囲の小さなモデルでは、中程度から高い精度の損失が生じる。 sparse-quantized representation (spqr) という新しい圧縮フォーマットと量子化手法を導入することで,モデルスケール間でllmのロスレス圧縮を初めて可能とし,従来手法と同様の圧縮レベルに達する。 SpQRは、特に大きな量子化エラーを引き起こし、それらを高い精度で保存すると共に、他の全ての重みを3-4ビットに圧縮し、高い精度のLLaMAとファルコンLLMに対して1%未満のパープレキシティの相対的精度損失を達成する。これにより、1つの24GBのコンシューマGPU上で33BパラメータのLSMを15%のスピードアップでパフォーマンスの低下なく実行することが可能になり、強力なLSMをマイナス面のないコンシューマで利用できるようになる。 SpQRは、そのフォーマットに重みをエンコードするだけでなく、実行時にそれらを効率的にデコードする効率的なアルゴリズムを備えている。具体的には、spqrの効率的なgpu推論アルゴリズムを提供し、同様の精度で16ビットベースラインよりも高速な推論を実現し、メモリ圧縮を4倍以上向上させる。

関連論文リスト

EntroLLM: Entropy Encoded Weight Compression for Efficient Large Language Model Inference on Edge Devices [3.5240021321113204]
大きな言語モデル(LLM)は、様々なタスクにまたがる例外的なパフォーマンスを示すが、その大きなストレージと計算要求は、エッジデバイスへのデプロイメントを制限している。本稿では,エントロピー符号化と混合量子化を統合した新しい圧縮フレームワークEntroLLMを提案する。
論文参考訳（メタデータ） (2025-05-05T05:42:14Z)
70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float [71.43026659686679]
大規模言語モデル(LLM)は急速に規模を拡大し、リソース制約のあるハードウェアに効率的なデプロイを行う上での課題を生み出している。圧縮フレームワークであるDynamic-Length Float (DFloat11)を導入し、LLMのサイズを30%削減し、元のモデルと同じビット対ビットの出力を保存する。
論文参考訳（メタデータ） (2025-04-15T22:38:38Z)
Pushing the Envelope of Low-Bit LLM via Dynamic Error Compensation [4.451442297864655]
大規模言語モデル(LLM)の量子化は、特にハードウェアリソースが限られているデバイス上の設定において、最近人気を集めている。量子化の重要な利点を保ちつつ、低ビットLLMの品質を向上させる推論スキームであるQDECを提案する。本稿では,最先端の量子化手法を改良し,QDECの有効性を示す。
論文参考訳（メタデータ） (2024-12-28T15:51:02Z)
EoRA: Fine-tuning-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation [84.70637613266835]
EoRAは、圧縮されたLarge Language Modelを低ランク行列で拡張する微調整不要な手法である。 EoRAは、圧縮LDMの精度を回復するために、トレーニングなしの低ランク法よりも一貫して優れている。
論文参考訳（メタデータ） (2024-10-28T17:59:03Z)
COMET: Towards Partical W4A4KV4 LLMs Serving [37.30529940231099]
量子化は、端末デバイスやクラウドデータセンターで大規模言語モデル(LLM)を提供するオーバーヘッドを低減するための圧縮技術である。本稿では,ほとんどのアクティベーションを4ビットに圧縮し,精度損失を無視できる新しい混合精度量子化アルゴリズム(FMPQ)を提案する。我々は、最適化されたW4Axカーネルを推論フレームワークCOMETに統合し、人気のあるLLMをサポートするための効率的な管理を提供する。
論文参考訳（メタデータ） (2024-10-16T02:16:53Z)
SeedLM: Compressing LLM Weights into Seeds of Pseudo-Random Generators [25.229269944770678]
大規模言語モデル(LLM)は自然言語処理を変革しているが、ランタイムコストが高いため、広範なデプロイメントにおいて課題に直面している。本稿では,擬似ランダム発生器の種をモデル重みのエンコードおよび圧縮に用いる,新しい訓練後圧縮法であるSeedLMを紹介する。
論文参考訳（メタデータ） (2024-10-14T16:57:23Z)
SLiM: One-shot Quantized Sparse Plus Low-rank Approximation of LLMs [2.7624021966289605]
大規模言語モデル(LLM)は、自然言語の理解と生成タスクに革命をもたらした。 LLMは、大きなパラメータサイズのため、メモリ消費が高く、推論時間が遅い。本稿では,1ショットの量子スパースプラス低ランク近似を用いたLEMの圧縮手法であるSLiMを紹介する。
論文参考訳（メタデータ） (2024-10-12T18:36:07Z)
MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。 MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文参考訳（メタデータ） (2024-08-21T16:10:41Z)
SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [67.67135738642547]
後学習量子化(PTQ)は、大規模言語モデル(LLM)において研究される強力な圧縮手法である。既存のPTQ法は、特に4ビット幅以下では、精度と効率の点で理想的ではない。本稿では,LSM,すなわちSliM-LLMに対するSalience-Driven Mixed-Precision Quantizationスキームを提案する。
論文参考訳（メタデータ） (2024-05-23T16:21:48Z)
BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。 LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文参考訳（メタデータ） (2024-02-06T09:26:34Z)
Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文参考訳（メタデータ） (2024-01-11T18:54:44Z)
SmoothQuant+: Accurate and Efficient 4-bit Post-Training WeightQuantization for LLM [13.035063417593534]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示している。現在、4ビット後の量子化(PTQ)はLLMである程度の成功を収めている。 SmoothQuant+は4ビットの重みのみのPTQである。
論文参考訳（メタデータ） (2023-12-06T11:10:55Z)
SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文参考訳（メタデータ） (2023-06-13T08:57:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。