論文の概要: SparseSSM: Efficient Selective Structured State Space Models Can Be Pruned in One-Shot
- arxiv url: http://arxiv.org/abs/2506.09613v1
- Date: Wed, 11 Jun 2025 11:14:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.879123
- Title: SparseSSM: Efficient Selective Structured State Space Models Can Be Pruned in One-Shot
- Title(参考訳): SparseSSM: 効率的な選択型構造化状態空間モデル
- Authors: Kaiwen Tuo, Huan Wang,
- Abstract要約: Mambaのような状態空間言語モデルは、線形複雑性推論を許容しながらTransformerの品質にマッチする。
既存のワンショットプルーニング手法はアテンションブロックに適合し、時間共有および離散化された状態遷移行列を考慮できない。
SparseSSMは、古典的最適な脳外科医(OBS)フレームワークをステートスペースアーキテクチャに拡張した最初のトレーニングフリープルーニングフレームワークである。
- 参考スコア(独自算出の注目度): 8.080568103779893
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-space language models such as Mamba match Transformer quality while permitting linear complexity inference, yet still comprise billions of parameters that hinder deployment. Existing one-shot pruning methods are tailored to attention blocks and fail to account for the time-shared and discretized state-transition matrix at the heart of the selective state-space module (SSM). In this paper, we introduce SparseSSM, the first training-free pruning framework that extends the classic optimal brain surgeon (OBS) framework to state space architectures. Our layer-wise algorithm (i) derives an approximate second-order saliency score that aggregates Hessian-trace information across time steps, (ii) incorporates a component sensitivity analysis to guide feed-forward network (FFN) pruning, which also sheds light on where redundancy resides in mamba architecture, (iii) can be easily extended to semi-structured and structured sparsity. Empirically, we prune 50% of SSM weights without fine-tuning and observe no zero-shot accuracy loss, achieving the current state-of-the-art pruning algorithm for Mamba-based LLMs.
- Abstract(参考訳): Mambaのような状態空間言語モデルは、線形複雑性推論を許容しながらTransformerの品質にマッチするが、それでもデプロイを妨げる何十億ものパラメータで構成されている。
既存のワンショットプルーニング法はアテンションブロックに適合し、選択状態空間モジュール(SSM)の心における時間共有および離散状態遷移行列を考慮できない。
本稿では,SparseSSMについて紹介する。SparseSSMは,古典的最適な脳外科医(OBS)フレームワークを拡張し,空間アーキテクチャを記述した最初のトレーニングフリープルーニングフレームワークである。
レイヤーワイドアルゴリズム
i)時間ステップにまたがってヘッセントラス情報を集計する近似2次サリエンシスコアを導出する。
(II) コンポーネント感度分析を組み込んでフィードフォワードネットワーク(FFN)のプルーニングを誘導する。
(iii)は、半構造化・構造化された空間に容易に拡張できる。
実験では,SSM重量の50%を微調整せずに測定し,ゼロショット精度の損失を観測し,ガンバ型LCMの最先端プルーニングアルゴリズムを実現する。
関連論文リスト
- Layer-Adaptive State Pruning for Deep State Space Models [1.5749416770494706]
SSMのための構造化プルーニング法、Layer-Adaptive STate pruning (LAST) を提供する。
最後のスコアはサブシステムの$mathcalH_infty$ノルムと層次エネルギー正規化を用いて評価される。
平均的な33%の州は、再学習せずに、0.52%の精度で性能を保ち、マルチインプットのマルチアウトプットSSMでは精度が低下することを示した。
論文 参考訳(メタデータ) (2024-11-05T05:50:51Z) - SIGMA: Selective Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。
SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。
以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-08-21T09:12:59Z) - Cross-Scan Mamba with Masked Training for Robust Spectral Imaging [51.557804095896174]
本研究では,空間スペクトルSSMを用いたクロススキャンマンバ(CS-Mamba)を提案する。
実験の結果, CS-Mambaは最先端の性能を達成し, マスク付きトレーニング手法によりスムーズな特徴を再構築し, 視覚的品質を向上させることができた。
論文 参考訳(メタデータ) (2024-08-01T15:14:10Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。