論文の概要: Hierarchical Sparse Plus Low Rank Compression of LLM
- arxiv url: http://arxiv.org/abs/2601.07839v1
- Date: Fri, 19 Dec 2025 04:28:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.644122
- Title: Hierarchical Sparse Plus Low Rank Compression of LLM
- Title(参考訳): LLMの階層的スパースプラス低ランク圧縮
- Authors: Pawan Kumar, Aditi Gupta,
- Abstract要約: HSS圧縮(Hierarchical Sparse Plus Low-Rank compression, HSS)は, 最大磁度重みをスパース行列Sに除去する2段階のスキームである。
HSSはハードウェアフレンドリーであり、行列ベクトル乗算は1つのスパースと細い行列乗算に還元される。
LLaMA-7Bの実験では、自己アテンションプロジェクションのみを対象としていると、大きなメモリ節約が得られる。
- 参考スコア(独自算出の注目度): 2.4311207322523023
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern large language models (LLMs) place extraordinary pressure on memory and compute budgets, making principled compression indispensable for both deployment and continued training. We present Hierarchical Sparse Plus Low-Rank (HSS) compression, a two-stage scheme that (i) removes the largest-magnitude weights into a sparse matrix S and (ii) applies a recursive Hierarchically Sparse Separable (HSS) low-rank factorisation to the dense residual matrix. A recursive rank-reducing strategy and a reverse Cuthill-Mckee (RCM) permutation are introduced to align high weights towards the diagonal with the block-diagonal hierarchy, maximising off-diagonal compressibility (because they are touched only once). HSS is hardware-friendly: its matrix-vector multiply reduces to one sparse and a sequence of thin-matrix multiplications and can be trained end-to-end with standard optimisers. Experiments on LLaMA-7B show that targeting only the self-attention projections (1.6 B parameters of Q, K, and V matrices out of a total 7B parameters) suffices to yield large memory savings while retaining comparable state-of-the-art perplexity scores on test samples of the WikiText dataset. For example, with a 30\% sparsity budget and an outer rank of 512, sHSS-RCM achieves a perplexity of 1.64, outperforming dense baselines and classical sparse-plus-SVD variants, while also achieving significant memory savings.
- Abstract(参考訳): 現代の大規模言語モデル(LLM)は、メモリと計算予算に異常なプレッシャーを課し、デプロイメントと継続的なトレーニングの両方に、原則化された圧縮が不可欠である。
階層スパースプラス低ランク圧縮(HSS)について述べる。
(i)最大のマグニチュード重みをスパース行列Sに除去し、
(ii) 再帰的階層的スパース分離性 (HSS) 低ランク分解を高密度残留行列に適用する。
再帰的なランク低減戦略と逆のカットヒル・マッケ(RCM)置換を導入し、高い重みを対角線と対角線階層に整列させ、対角線外圧縮性を最大化する。
HSSはハードウェアフレンドリーであり、行列ベクトル乗算は1つのスパースと1つの細い行列乗算に還元され、標準オプティマイザでエンドツーエンドにトレーニングすることができる。
LLaMA-7Bの実験では、WikiTextデータセットのテストサンプルでは、自己注意投影(Q、K、V行列の1.6Bパラメータのうち、合計7Bパラメータ)のみを対象として、同等の最先端のパープレキシティスコアを保持しながら、大きなメモリ節約を達成できた。
例えば、30\%のスパシティ予算と512の外部ランクを持つsHSS-RCMは、1.64のパープレキシティを実現し、密度の高いベースラインと古典的なスパース+SVDのバリエーションを上回り、メモリの大幅な節約を実現している。
関連論文リスト
- Zero Sum SVD: Balancing Loss Sensitivity for Low Rank LLM Compression [11.908793753919745]
白色座標における特異成分選択を行うポストトレーニング法であるtextbfZero Sum SVD (textbfZS-SVD) を提案する。
textbfZS-SVDは、累積的な損失変化を0付近に保持する textbfzero sum ルールで、モデル全体のコンポーネントをプルーする。
実験では、様々なベンチマークと圧縮比で一貫した利得を示している。
論文 参考訳(メタデータ) (2026-02-02T21:51:01Z) - Concatenated Matrix SVD: Compression Bounds, Incremental Approximation, and Error-Constrained Clustering [0.0]
予測された共同SVD圧縮誤差がユーザ指定しきい値以下である場合にのみ、行列をマージする3つのクラスタリングアルゴリズムを提案する。
アルゴリズムは、スピード、証明可能な精度、スケーラビリティのトレードオフにまたがっており、明示的なエラー制御を備えた圧縮対応クラスタリングを可能にしている。
論文 参考訳(メタデータ) (2026-01-12T18:15:53Z) - COSPADI: Compressing LLMs via Calibration-Guided Sparse Dictionary Learning [5.595343998068235]
CoSpaDiは、低ランクの分解をより柔軟な構造化されたスパース分解に置き換える、トレーニング不要の圧縮フレームワークである。
複数のLlamaモデルとQwenモデルにまたがるCoSpaDiを,20~50%の圧縮比で層間および群間設定で評価した。
論文 参考訳(メタデータ) (2025-09-26T08:55:09Z) - FFT-based Dynamic Subspace Selection for Low-Rank Adaptive Optimization of Large Language Models [49.397861654088636]
低次元空間へのSVD/QRベースの勾配射影を近似する2段階の手順を提案する。
当社の戦略はランタイムの高速化とメモリ使用量の削減を,さまざまなモデルサイズで最大25%削減できることが示されています。
論文 参考訳(メタデータ) (2025-05-23T14:37:00Z) - BOLT: Block-Orthonormal Lanczos for Trace estimation of matrix functions [2.4578723416255754]
多くの大規模アプリケーションでは、関連する行列が大きすぎて完全に保存またはアクセスできないため、単一のマットベック製品が実現不可能である。
本稿では,小さな主行列のみで動作するBOLTの変種であるSubblock SLQを紹介する。
理論的な保証を提供し、高次元設定の範囲で強い経験的性能を示す。
論文 参考訳(メタデータ) (2025-05-18T08:04:05Z) - Expanding Sparse Tuning for Low Memory Usage [103.43560327427647]
メモリ使用量が少ないスパースチューニングのためのSNELL(Sparse tuning with kerNelized LoRA)法を提案する。
低メモリ使用量を達成するため、SNELLはスカラー化のための調整可能な行列を2つの学習可能な低ランク行列に分解する。
コンペティションに基づくスペーシフィケーション機構は、チューナブルウェイトインデックスの保存を避けるためにさらに提案される。
論文 参考訳(メタデータ) (2024-11-04T04:58:20Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - From Low Rank Gradient Subspace Stabilization to Low-Rank Weights: Observations, Theories, and Applications [85.17672240603011]
大規模言語モデルにおける重み行列の非一様低ランク特性について検討する。
WeLore(Weight Low-Rank Projection)は、重み圧縮とメモリ効率の微調整を一体化したものである。
論文 参考訳(メタデータ) (2024-07-15T21:05:20Z) - LQ-LoRA: Low-rank Plus Quantized Matrix Decomposition for Efficient Language Model Finetuning [66.85589263870702]
提案手法では,事前学習した行列を高精度の低ランク成分とメモリ効率の量子化成分に分解するために反復アルゴリズムを用いる。
微調整されたRoBERTaとLLaMA-2の実験は、我々の低ランク+量子化行列分解法(LQ-LoRA)が強いQLoRAおよびGPTQ-LoRAベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2023-11-20T18:57:41Z) - Low-Rank Prune-And-Factorize for Language Model Compression [18.088550230146247]
マトリックスの分解は、中程度から高い圧縮速度で良好な性能を維持することができない。
スパシティ対応SVDとミックスランクファインチューニングの2つの手法を提案する。
論文 参考訳(メタデータ) (2023-06-25T07:38:43Z) - Unfolding Projection-free SDP Relaxation of Binary Graph Classifier via
GDPA Linearization [59.87663954467815]
アルゴリズムの展開は、モデルベースのアルゴリズムの各イテレーションをニューラルネットワーク層として実装することにより、解釈可能で類似のニューラルネットワークアーキテクチャを生成する。
本稿では、Gershgorin disc perfect alignment (GDPA)と呼ばれる最近の線形代数定理を利用して、二進グラフの半定値プログラミング緩和(SDR)のためのプロジェクションフリーアルゴリズムをアンロールする。
実験結果から,我々の未学習ネットワークは純粋モデルベースグラフ分類器よりも優れ,純粋データ駆動ネットワークに匹敵する性能を示したが,パラメータははるかに少なかった。
論文 参考訳(メタデータ) (2021-09-10T07:01:15Z) - A Generic Network Compression Framework for Sequential Recommender
Systems [71.81962915192022]
シークエンシャルレコメンデーションシステム(SRS)は,ユーザの動的関心を捉え,高品質なレコメンデーションを生成する上で重要な技術となっている。
CpRecと呼ばれる圧縮されたシーケンシャルレコメンデーションフレームワークを提案する。
大規模なアブレーション研究により、提案したCpRecは実世界のSRSデータセットにおいて最大4$sim$8倍の圧縮速度を達成できることを示した。
論文 参考訳(メタデータ) (2020-04-21T08:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。