論文の概要: SoLA: Leveraging Soft Activation Sparsity and Low-Rank Decomposition for Large Language Model Compression
- arxiv url: http://arxiv.org/abs/2604.03258v1
- Date: Thu, 12 Mar 2026 04:01:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-12 18:41:08.561239
- Title: SoLA: Leveraging Soft Activation Sparsity and Low-Rank Decomposition for Large Language Model Compression
- Title(参考訳): SoLA:大規模言語モデル圧縮のためのソフトアクティベーション空間の活用と低ランク分解
- Authors: Xinhao Huang, You-Liang Huang, Zeyi Wen,
- Abstract要約: 大規模言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、数十億のパラメータは、デプロイメントの課題を引き起こす。
我々は「SoLA」という,LLMのための新しい学習自由圧縮手法を提案する。
SoLAは、後トレーニングなしで、言語モデリングと下流タスクの精度の両方において顕著に改善されている。
- 参考スコア(独自算出の注目度): 14.317197422277923
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated impressive capabilities across various tasks, but the billion-scale parameters pose deployment challenges. Although existing methods attempt to reduce the scale of LLMs, they require either special hardware support or expensive post-training to maintain model quality. To facilitate efficient and affordable model slimming, we propose a novel training-free compression method for LLMs, named "SoLA", which leverages \textbf{So}ft activation sparsity and \textbf{L}ow-r\textbf{A}nk decomposition. SoLA can identify and retain a minority of components significantly contributing to inference, while compressing the majority through low-rank decomposition, based on our analysis of the activation pattern in the feed-forward network (FFN) of modern LLMs. To alleviate the decomposition loss, SoLA is equipped with an adaptive component-wise low-rank allocation strategy to assign appropriate truncation positions for different weight matrices. We conduct extensive experiments on LLaMA-2-7B/13B/70B and Mistral-7B models across a variety of benchmarks. SoLA exhibits remarkable improvement in both language modeling and downstream task accuracy without post-training. For example, with a 30\% compression rate on the LLaMA-2-70B model, SoLA surpasses the state-of-the-art method by reducing perplexity from 6.95 to 4.44 and enhancing downstream task accuracy by 10\%.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、数十億のパラメータは、デプロイメントの課題を引き起こす。
既存の手法はLLMの規模を縮小しようとするが、モデルの品質を維持するには特別なハードウェアサポートか高価な後処理が必要である。
高速で安価なモデルスリム化を容易にするため, 従来の「SoLA」と呼ばれる新しいLCMのトレーニング不要圧縮手法を提案し, アクティベーション空間の疎結合性と「textbf{L}ow-r\textbf{A}nk分解」を利用した。
SoLAは、現代のLLMのフィードフォワードネットワーク(FFN)における活性化パターンの分析に基づいて、低ランク分解により多数を圧縮しながら、推論に大きく寄与する少数の成分を同定し、保持することができる。
分解損失を軽減するため、SOLAは、異なる重み行列に対して適切な乱れ位置を割り当てる適応的なコンポーネント単位の低ランク割当戦略を備えている。
我々は,LLaMA-2-7B/13B/70BモデルとMistral-7Bモデルについて,様々なベンチマークで広範な実験を行った。
SoLAは、後トレーニングなしで、言語モデリングと下流タスクの精度の両方において顕著に改善されている。
例えば、LLaMA-2-70Bモデルで30倍の圧縮率で、SoLAは6.95から4.44にパープレキシティを減らし、下流タスクの精度を10倍にすることで最先端の手法を上回っている。
関連論文リスト
- Dynamic Low-Rank Sparse Adaptation for Large Language Models [54.1231638555233]
Low-rank Sparse Adaptation (LoSA)は、低ランク適応をsparse LLM sparsityにシームレスに統合する新しい手法である。
LoSAは、微調整中に対応するスパース重みに基づいてLoRA結果を動的に分散する。
LoSAは、追加の推論負荷を伴わずに、スパースLSMの有効性を数時間で効果的に向上させることができる。
論文 参考訳(メタデータ) (2025-02-20T18:37:32Z) - Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。
近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。
本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文 参考訳(メタデータ) (2024-06-13T07:57:27Z) - Adaptive Feature-based Low-Rank Compression of Large Language Models via Bayesian Optimization [42.53133823994923]
低ランク圧縮は、大規模言語モデルにおける非必須パラメータを減らすための有望な手法である。
大型モデルの低ランク特性に関する実証的研究を行う。
大規模言語モデルに適した低ランク圧縮手法を提案する。
論文 参考訳(メタデータ) (2024-05-17T08:27:12Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。