論文の概要: COSPADI: Compressing LLMs via Calibration-Guided Sparse Dictionary Learning
- arxiv url: http://arxiv.org/abs/2509.22075v2
- Date: Mon, 06 Oct 2025 12:56:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 19:16:49.452281
- Title: COSPADI: Compressing LLMs via Calibration-Guided Sparse Dictionary Learning
- Title(参考訳): COSPADI: Calibration-Guided Sparse Dictionary LearningによるLLM圧縮
- Authors: Dmitriy Shopkhoev, Denis Makhov, Magauiya Zhussip, Ammar Ali, Stamatios Lefkimmiatis,
- Abstract要約: CoSpaDiは、低ランクの分解をより柔軟な構造化されたスパース分解に置き換える、トレーニング不要の圧縮フレームワークである。
複数のLlamaモデルとQwenモデルにまたがるCoSpaDiを,20~50%の圧縮比で層間および群間設定で評価した。
- 参考スコア(独自算出の注目度): 5.595343998068235
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Post-training compression of large language models (LLMs) largely relies on low-rank weight approximation, which represents each column of a weight matrix in a shared low-dimensional subspace. While this is a computationally efficient strategy, the imposed structural constraint is rigid and can lead to a noticeable model accuracy drop. In this work, we propose CoSpaDi (Compression via Sparse Dictionary Learning), a novel training-free compression framework that replaces low-rank decomposition with a more flexible structured sparse factorization in which each weight matrix is represented with a dense dictionary and a column-sparse coefficient matrix. This formulation enables a union-of-subspaces representation: different columns of the original weight matrix are approximated in distinct subspaces spanned by adaptively selected dictionary atoms, offering greater expressiveness than a single invariant basis. Crucially, CoSpaDi leverages a small calibration dataset to optimize the factorization such that the output activations of compressed projection layers closely match those of the original ones, thereby minimizing functional reconstruction error rather than mere weight approximation. This data-aware strategy preserves better model fidelity without any fine-tuning under reasonable compression ratios. Moreover, the resulting structured sparsity allows efficient sparse-dense matrix multiplication and is compatible with post-training quantization for further memory and latency gains. We evaluate CoSpaDi across multiple Llama and Qwen models under per-layer and per-group settings at 20-50\% compression ratios, demonstrating consistent superiority over state-of-the-art data-aware low-rank methods both in accuracy and perplexity. Our results establish structured sparse dictionary learning as a powerful alternative to conventional low-rank approaches for efficient LLM deployment.
- Abstract(参考訳): 大規模言語モデル(LLM)の学習後圧縮は、共有低次元部分空間における重み行列の各列を表す低ランクな重み近似に大きく依存している。
これは計算的に効率的な戦略であるが、課された構造制約は厳格であり、顕著なモデルの精度低下につながる可能性がある。
本研究では,低ランク分解を,各重み行列を高密度辞書とカラムスパース係数行列で表現したより柔軟な構造的スパース分解に置き換える,新しい学習自由圧縮フレームワークであるCoSpaDiを提案する。
元の重み行列の異なる列は、適応的に選択された辞書原子によって分散された異なる部分空間で近似され、単一の不変基底よりも表現性が高い。
重要なことに、CoSpaDiは小さなキャリブレーションデータセットを利用して、圧縮されたプロジェクション層の出力アクティベーションが元のものと密接に一致するように分解を最適化する。
このデータ認識戦略は、適切な圧縮比で微調整することなく、モデル忠実度を向上する。
さらに、構造化されたスパース性により、効率的なスパース・デンス行列の乗算が可能となり、学習後の量子化と互換性があり、さらなるメモリと遅延ゲインが得られる。
我々は,複数のLlamaモデルとQwenモデルに対するCoSpaDiを20~50%圧縮比で評価し,精度とパープレキシティの両面において,最先端データ認識低ランク法よりも一貫した優位性を示す。
本研究は,LLMの効率的な展開のための従来の低ランク手法の代替として,構造化されたスパース辞書学習を確立した。
関連論文リスト
- Optimizing Singular Spectrum for Large Language Model Compression [95.7621116637755]
SVDの分解したコンポーネントをデータ駆動で再スケールする新しい圧縮フレームワークであるSoCoを紹介する。
学習可能な特異スペクトルのおかげで、SoCoは重要度スコアに応じて成分を適応的にプーンする。
複数のLLMおよびベンチマークでの実験的な評価は、SoCoがモデル圧縮における最先端の手法を超越していることを示している。
論文 参考訳(メタデータ) (2025-02-20T23:18:39Z) - CURing Large Models: Compression via CUR Decomposition [1.1510009152620668]
本稿では,CUR行列分解に基づく新しいモデル圧縮手法であるCURingを紹介する。
情報的行と列を識別および保持することにより、CURingはパフォーマンス損失を最小限に抑えてモデルサイズを大幅に削減する。
例えば、Llama3.1-8Bのパラメータをわずか129秒で7.32B (-9%)に削減する。
論文 参考訳(メタデータ) (2025-01-08T01:11:17Z) - Expanding Sparse Tuning for Low Memory Usage [103.43560327427647]
メモリ使用量が少ないスパースチューニングのためのSNELL(Sparse tuning with kerNelized LoRA)法を提案する。
低メモリ使用量を達成するため、SNELLはスカラー化のための調整可能な行列を2つの学習可能な低ランク行列に分解する。
コンペティションに基づくスペーシフィケーション機構は、チューナブルウェイトインデックスの保存を避けるためにさらに提案される。
論文 参考訳(メタデータ) (2024-11-04T04:58:20Z) - Data-free Weight Compress and Denoise for Large Language Models [96.68582094536032]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。
キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文 参考訳(メタデータ) (2024-02-26T05:51:47Z) - Optimal Variable Clustering for High-Dimensional Matrix Valued Data [3.1138411427556445]
本稿では,行列形式で配置された特徴に対して,新しい潜在変数モデルを提案する。
軽度条件下では,高次元設定でクラスタリングの整合性が得られる。
この重みを使用すれば、アルゴリズムが最小値の速度最適化であることが保証されるという意味で、最適な重みを識別する。
論文 参考訳(メタデータ) (2021-12-24T02:13:04Z) - Dictionary-based Low-Rank Approximations and the Mixed Sparse Coding
problem [7.132368785057316]
本稿では、LASSOに基づく効率的なMSC解法を用いて、辞書に基づく行列分解と正準多進分解を計算する方法を示す。
超スペクトル画像処理と化学計測の文脈における辞書に基づく行列分解と正準多進分解の計算に、LASSOに基づく効率的なMSC解法を適用する方法を示す。
論文 参考訳(メタデータ) (2021-11-24T10:32:48Z) - Unfolding Projection-free SDP Relaxation of Binary Graph Classifier via
GDPA Linearization [59.87663954467815]
アルゴリズムの展開は、モデルベースのアルゴリズムの各イテレーションをニューラルネットワーク層として実装することにより、解釈可能で類似のニューラルネットワークアーキテクチャを生成する。
本稿では、Gershgorin disc perfect alignment (GDPA)と呼ばれる最近の線形代数定理を利用して、二進グラフの半定値プログラミング緩和(SDR)のためのプロジェクションフリーアルゴリズムをアンロールする。
実験結果から,我々の未学習ネットワークは純粋モデルベースグラフ分類器よりも優れ,純粋データ駆動ネットワークに匹敵する性能を示したが,パラメータははるかに少なかった。
論文 参考訳(メタデータ) (2021-09-10T07:01:15Z) - Dynamic Probabilistic Pruning: A general framework for
hardware-constrained pruning at different granularities [80.06422693778141]
異なる粒度(重み、カーネル、フィルタ/フィーチャーマップ)での刈り取りを容易にするフレキシブルな新しい刈り取り機構を提案する。
このアルゴリズムをDPP(Dynamic Probabilistic Pruning)と呼ぶ。
DPPは、画像分類のための異なるベンチマークデータセットで訓練された一般的なディープラーニングモデルを刈り取る際に、競合圧縮率と分類精度を達成する。
論文 参考訳(メタデータ) (2021-05-26T17:01:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。