論文の概要: SPQ: An Ensemble Technique for Large Language Model Compression
- arxiv url: http://arxiv.org/abs/2602.18420v1
- Date: Fri, 20 Feb 2026 18:44:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 18:01:41.414076
- Title: SPQ: An Ensemble Technique for Large Language Model Compression
- Title(参考訳): SPQ: 大規模言語モデル圧縮のためのアンサンブル手法
- Authors: Jiamin Yao, Eren Gultepe,
- Abstract要約: SPQ(SVD-Pruning-Quantization)は,大規模言語モデルLLM圧縮のためのアンサンブル手法である。
最大75%のメモリ削減を実現し、パープレキシティを維持または改善する。
GPTQよりも推論を改善し、最大1.9倍のスピードアップを達成する。
- 参考スコア(独自算出の注目度): 1.2891210250935148
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study presents an ensemble technique, SPQ (SVD-Pruning-Quantization), for large language model (LLM) compression that combines variance-retained singular value decomposition (SVD), activation-based pruning, and post-training linear quantization. Each component targets a different source of inefficiency: i) pruning removes redundant neurons in MLP layers, ii) SVD reduces attention projections into compact low-rank factors, iii) and 8-bit quantization uniformly compresses all linear layers. At matched compression ratios, SPQ outperforms individual methods (SVD-only, pruning-only, or quantization-only) in perplexity, demonstrating the benefit of combining complementary techniques. Applied to LLaMA-2-7B, SPQ achieves up to 75% memory reduction while maintaining or improving perplexity (e.g., WikiText-2 5.47 to 4.91) and preserving accuracy on downstream benchmarks such as C4, TruthfulQA, and GSM8K. Compared to strong baselines like GPTQ and SparseGPT, SPQ offers competitive perplexity and accuracy while using less memory (6.86 GB vs. 7.16 GB for GPTQ). Moreover, SPQ improves inference throughput over GPTQ, achieving up to a 1.9x speedup, which further enhances its practicality for real-world deployment. The effectiveness of SPQ's robust compression through layer-aware and complementary compression techniques may provide practical deployment of LLMs in memory-constrained environments. Code is available at: https://github.com/JiaminYao/SPQ_LLM_Compression/
- Abstract(参考訳): 本研究では、分散保持特異値分解(SVD)、アクティベーションベースプルーニング、および後学習線形量子化を組み合わせた大言語モデル(LLM)圧縮のためのアンサンブル手法であるSPQ(SVD-Pruning-Quantization)を提案する。
各コンポーネントは、異なる非効率のソースをターゲットにしている。
i)プルーニングは、MLP層の冗長ニューロンを除去する。
二 SVDは、注意投影を小型の低ランク要因に還元する。
三) 8ビット量子化は、すべての線形層を均一に圧縮する。
一致した圧縮比において、SPQは個々の手法(SVDのみ、プルーニングのみ、量子化のみ)をパープレキシティで上回り、相補的な技法を組み合わせる利点を示す。
LLaMA-2-7Bに適用すると、SPQは最大75%のメモリ削減を実現し(例えば、WikiText-2 5.47から4.91)、C4、TruthfulQA、GSM8Kなどの下流ベンチマークで精度を保つ。
GPTQやSparseGPTのような強力なベースラインと比較して、SPQはより少ないメモリ(GPTQは6.86GB対7.16GB)を使用しながら、競合するパープレキシティと精度を提供する。
さらに、SPQはGPTQよりも推論スループットを改善し、最大1.9倍のスピードアップを実現し、現実のデプロイメントにおける実用性をさらに向上する。
レイヤ認識および補完圧縮技術によるSPQのロバスト圧縮の有効性は、メモリ制約環境におけるLLMの実践的展開をもたらす可能性がある。
https://github.com/JiaminYao/SPQ_LLM_Compression/
関連論文リスト
- BPDQ: Bit-Plane Decomposition Quantization on a Variable Grid for Large Language Models [56.504879072674015]
本稿では,ビットプレーンとスカラー係数による可変量子化グリッドを構成するビットプレーン分解量子化(BPDQ)を提案する。
BPDQは、1つのGTX 3090上でQwen2.5-72Bを83.85%のGSM8Kの精度で提供できる(ただし16ビットでは90.83%)。
論文 参考訳(メタデータ) (2026-02-04T02:54:37Z) - HAS-VQ: Hessian-Adaptive Sparse Vector Quantization for High-Fidelity LLM Compression [0.0]
HAS-VQ (Hessian-Adaptive Sparse Vec-tor Quantization) は,高感度のアウトレーヤをバルク重量分布から厳密に分離する圧縮フレームワークである。
我々は, SmolLM2-1.7B上のHAS-VQを評価し, 2つの異なる優越性を証明した。
論文 参考訳(メタデータ) (2026-01-11T15:35:10Z) - Compressing Many-Shots in In-Context Learning [61.231471139896506]
マルチショットプロンプトを圧縮することにより,ICL推論のメモリと計算効率を向上させる手法を提案する。
まず,既存のプロンプト圧縮手法がマルチショット圧縮には有効でないことを示す。
本稿では,レイヤワイド圧縮手法であるMemComを提案する。
論文 参考訳(メタデータ) (2025-10-17T16:57:42Z) - GQSA: Group Quantization and Sparsity for Accelerating Large Language Model Inference [5.358880304650258]
Group Quantization and Sparse Acceleration (GQSA)は、LLMに適した新しい圧縮技術である。
圧縮モデルの性能優位性を保証するための2段階スパース最適化手法を提案する。
実験の結果、GQSA W4S50%圧縮設定の下では、モデルの精度は2:4プルーニングとW2量子化の両方を上回ることがわかった。
論文 参考訳(メタデータ) (2024-12-23T13:28:15Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である
本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。
実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - Memory-Efficient Fine-Tuning of Compressed Large Language Models via
sub-4-bit Integer Quantization [27.79783067245817]
大規模言語モデル(LLM)は、高いメモリ要求と計算コストのため、微調整とデプロイメントの課題に直面している。
本稿では,PEFT と量子化 LLM の利点を組み合わせた簡易かつ効果的な手法である PEQA (Efficient Adaptation and Quantization-aware) を提案する。
論文 参考訳(メタデータ) (2023-05-23T15:20:01Z) - CSMPQ:Class Separability Based Mixed-Precision Quantization [9.005098065862411]
CSMPQと呼ばれる新しい混合精度量子化法を提案する。
具体的には,階層的特徴写像のクラス分離性を測定するために,自然言語処理(NLP)で広く用いられているTF-IDFメトリックを導入する。
CSMPQは、反復的なプロセスがなければ、最先端の量子化法よりも優れた圧縮トレードオフを実現する。
論文 参考訳(メタデータ) (2022-12-20T12:52:19Z) - Towards Compact CNNs via Collaborative Compression [166.86915086497433]
チャネルプルーニングとテンソル分解を結合してCNNモデルを圧縮する協調圧縮方式を提案する。
52.9%のFLOPを削減し、ResNet-50で48.4%のパラメータを削除しました。
論文 参考訳(メタデータ) (2021-05-24T12:07:38Z) - Kernel Quantization for Efficient Network Compression [59.55192551370948]
Kernel Quantization(KQ)は、事前訓練された全精度畳み込みニューラルネットワーク(CNN)モデルを、大幅なパフォーマンス損失のない低精度バージョンに効率的に変換することを目的としている。
重み付けからフィルタプルーニングへの進化に触発され,カーネルレベルと重み付けレベルの両方で定量化することを提案する。
ImageNet分類タスクの実験では、KQはVGGとResNet18でそれぞれ平均1.05ビットと1.62ビットを必要とし、畳み込み層の各パラメータを表す。
論文 参考訳(メタデータ) (2020-03-11T08:00:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。