論文の概要: 1+1>2: A Synergistic Sparse and Low-Rank Compression Method for Large Language Models
- arxiv url: http://arxiv.org/abs/2510.26446v1
- Date: Thu, 30 Oct 2025 12:50:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.811576
- Title: 1+1>2: A Synergistic Sparse and Low-Rank Compression Method for Large Language Models
- Title(参考訳): 1+1>2:大言語モデルに対する相乗的スパースと低ランク圧縮法
- Authors: Zeliang Zong, Kai Zhang, Zheyang Li, Wenming Tan, Ye Ren, Yiyan Zhai, Jilin Hu,
- Abstract要約: 大規模言語モデル(LLM)のためのアンダーラインSynergistic UnderlineSparseとアンダーライン圧縮(SSLC)メソッドを導入する。
低ランク近似は、その必須構造を最小限の情報損失で保持することでモデルを圧縮するが、スパース最適化は非決定的な重みを排除し、一般化に不可欠なものを保存する。
LLaMAとQwen2.5モデル(7B-70B)の実験では、SSLCは追加のトレーニングステップなしで、スタンドアロンメソッドを一貫して上回り、最先端の結果が得られている。
- 参考スコア(独自算出の注目度): 15.798945727818753
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable proficiency in language comprehension and generation; however, their widespread adoption is constrained by substantial bandwidth and computational demands. While pruning and low-rank approximation have each demonstrated promising performance individually, their synergy for LLMs remains underexplored. We introduce \underline{S}ynergistic \underline{S}parse and \underline{L}ow-Rank \underline{C}ompression (SSLC) methods for LLMs, which leverages the strengths of both techniques: low-rank approximation compresses the model by retaining its essential structure with minimal information loss, whereas sparse optimization eliminates non-essential weights, preserving those crucial for generalization. Based on theoretical analysis, we first formulate the low-rank approximation and sparse optimization as a unified problem and solve it by iterative optimization algorithm. Experiments on LLaMA and Qwen2.5 models (7B-70B) show that SSLC, without any additional training steps, consistently surpasses standalone methods, achieving state-of-the-arts results. Notably, SSLC compresses Qwen2.5 by 50\% with no performance drop and achieves at least 1.63$\times$ speedup, offering a practical solution for efficient LLM deployment.
- Abstract(参考訳): 大規模言語モデル(LLM)は、言語理解と生成において顕著な習熟性を示しているが、その普及は、かなりの帯域幅と計算要求によって制限されている。
プルーニングと低ランク近似はそれぞれ、それぞれ有望な性能を示したが、LLMの相乗効果は未定のままである。
低ランク近似は、その必須構造を最小限の情報損失で保持することでモデルを圧縮するが、スパース最適化は非必要重みを排除し、一般化に不可欠なものを保存する。
理論的解析に基づき、まず低ランク近似とスパース最適化を統一的な問題として定式化し、反復最適化アルゴリズムを用いて解く。
LLaMAとQwen2.5モデル(7B-70B)の実験では、SSLCは追加のトレーニングステップなしで、スタンドアロンメソッドを一貫して上回り、最先端の結果が得られている。
特にSSLCはQwen2.5を50\%圧縮してパフォーマンス低下をなくし、少なくとも1.63$\times$スピードアップを実現し、効率的なLCMデプロイメントのための実用的なソリューションを提供する。
関連論文リスト
- Large Language Model Compression with Global Rank and Sparsity Optimization [12.078838412963083]
低ランクかつスパースな合成近似は、大規模言語モデルを圧縮する自然なアイデアである。
本稿では,大域的ランク付けと空間性最適化機能を備えた新しい2段階圧縮手法を提案する。
本手法はスペーシフィケーションと複合近似のための最先端技術を大幅に超える。
論文 参考訳(メタデータ) (2025-05-02T08:00:48Z) - Progressive Binarization with Semi-Structured Pruning for LLMs [36.91249209658632]
半構造化プルーニング(PBS$2$P)によるプログレッシブバイナリ化を提案し,バイナライゼーションと半構造化プルーニングをシームレスに統合する新しいポストトレーニングフレームワークを提案する。
PBS$2$P は,2進法(SOTA) の2進法を複雑度と下流精度の両方で一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-02-03T13:30:29Z) - Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [63.10833446782114]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZO) 最適化手法はメモリ効率の良い代替手段を提供する。
本稿では,高次元摂動によって生じる課題に対処するために,部分空間ゼロ次最適化を提案する。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
本研究では,プルーンドモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する最適化に基づく構造的プルーニングを提案する。
我々は、基底となるベルヌーイ分布をサンプルのバイナリ・プルーニングマスクに学習することでこれを実現する。
LLaMA, LLaMA-2, LLaMA-3, Vicuna, Mistral モデルによる実験により, 本手法の有効性と有効性を示すことができた。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である
本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。
実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - Adaptive Feature-based Low-Rank Compression of Large Language Models via Bayesian Optimization [42.53133823994923]
低ランク圧縮は、大規模言語モデルにおける非必須パラメータを減らすための有望な手法である。
大型モデルの低ランク特性に関する実証的研究を行う。
大規模言語モデルに適した低ランク圧縮手法を提案する。
論文 参考訳(メタデータ) (2024-05-17T08:27:12Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。