論文の概要: SLaB: Sparse-Lowrank-Binary Decomposition for Efficient Large Language Models
- arxiv url: http://arxiv.org/abs/2604.04493v1
- Date: Mon, 06 Apr 2026 07:36:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.135116
- Title: SLaB: Sparse-Lowrank-Binary Decomposition for Efficient Large Language Models
- Title(参考訳): SLaB: Sparse-Lowrank-Binary Decomposition for Efficient Large Language Models
- Authors: Ziwei Li, Yuang Ma, Yi Kang,
- Abstract要約: 線形層重みを3つの相補成分に分解する新しいフレームワークであるSLaBを提案する。
SLaBは最先端のパフォーマンスを実現し、既存の手法と比較してパープレキシティを最大36%削減する。
- 参考スコア(独自算出の注目度): 6.9575993729793595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid growth of large language models (LLMs) presents significant deployment challenges due to their massive computational and memory demands. While model compression, such as network pruning, offers potential solutions, most existing methods often fail to maintain good performance at high compression ratios. To address this, we propose SLaB, a novel framework that decomposes each linear layer weight into three complementary components: a sparse matrix, a low-rank matrix, and a binary matrix. SLaB eliminates the need for retraining and leverages activation-aware pruning scores to guide the decomposition process. Experiments on Llama-family models demonstrate that SLaB achieves state-of-the-art performance, reducing perplexity by up to 36% compared to existing methods at 50% compression and improving accuracy by up to 8.98% over the baseline on zero-shot tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な成長は、その膨大な計算とメモリ要求のために、大きなデプロイメント上の課題を生じさせる。
ネットワークプルーニングのようなモデル圧縮は潜在的な解決策を提供するが、既存のほとんどの手法は高い圧縮比で優れた性能を維持するのに失敗する。
そこで我々は,各線形層重みを,スパース行列,ローランク行列,バイナリ行列の3つの相補成分に分解する新しいフレームワークであるSLaBを提案する。
SLaBは再トレーニングの必要性を排除し、アクティベーション対応プルーニングスコアを活用して分解プロセスのガイドを行う。
Llama- familyモデルの実験では、SLaBが最先端の性能を達成し、圧縮50%の既存の手法と比較してパープレキシティを最大36%削減し、ゼロショットタスクのベースラインよりも最大8.98%精度を向上することを示した。
関連論文リスト
- CALR: Corrective Adaptive Low-Rank Decomposition for Efficient Large Language Model Layer Compression [0.0]
大規模言語モデル(LLM)は、その膨大なサイズと計算要求のために、重大なデプロイメント上の課題を提示する。
本稿では,2成分圧縮手法である補正適応低ランク分解(CALR)を導入する。
CALR はパラメータ数を 26.93% から 51.77% に削減でき、元のモデルの性能の59.45% から 90.42% に維持できることを示した。
論文 参考訳(メタデータ) (2025-08-21T13:16:02Z) - HASSLE-free: A unified Framework for Sparse plus Low-Rank Matrix Decomposition for LLMs [15.575498324678373]
有望な圧縮スキームは、基礎モデルの密度重みをスパースと低ランク行列の和に分解することである。
本稿では,半構造化)スパースと低ランク行列分解のためのHASSLEフリーの統一フレームワークを設計する。
論文 参考訳(メタデータ) (2025-02-02T20:23:32Z) - MoDeGPT: Modular Decomposition for Large Language Model Compression [59.361006801465344]
本稿では,新しい構造化圧縮フレームワークである textbfModular bfDecomposition (MoDeGPT) を紹介する。
MoDeGPTはTransformerブロックを行列対からなるモジュールに分割し、隠れた次元を減らす。
本実験では, 後方伝播を伴わないMoDeGPTが, 従来の圧縮手法と一致するか, あるいは超えていることを示す。
論文 参考訳(メタデータ) (2024-08-19T01:30:14Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。