論文の概要: PerfMamba: Performance Analysis and Pruning of Selective State Space Models
- arxiv url: http://arxiv.org/abs/2511.22849v1
- Date: Fri, 28 Nov 2025 03:09:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.747662
- Title: PerfMamba: Performance Analysis and Pruning of Selective State Space Models
- Title(参考訳): PerfMamba: 選択状態空間モデルの性能解析と解析
- Authors: Abdullah Al Asif, Mobina Kashaniyan, Sixing Yu, Juan Pablo Muñoz, Ali Jannesari,
- Abstract要約: 我々はMamba-1とMamba-2について検討し、状態空間モデリングにおけるその効率性に寄与する設計原理を評価する。
本研究では,SSMコンポーネント内の低活性状態を除去し,計測可能なスループットとメモリゲインを実現するプルーニング手法を提案する。
このアプローチにより、様々なシーケンスの長さでパフォーマンスが向上し、1.14倍のスピードアップを実現し、メモリ使用量を11.50%削減できる。
- 参考スコア(独自算出の注目度): 10.047668792033033
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in sequence modeling have introduced selective SSMs as promising alternatives to Transformer architectures, offering theoretical computational efficiency and sequence processing advantages. A comprehensive understanding of selective SSMs in runtime behavior, resource utilization patterns, and scaling characteristics still remains unexplored, thus obstructing their optimal deployment and further architectural improvements. This paper presents a thorough empirical study of Mamba-1 and Mamba-2, systematically profiled for performance to assess the design principles that contribute to their efficiency in state-space modeling. A detailed analysis of computation patterns, memory access, I/O characteristics, and scaling properties was performed for sequence lengths ranging from 64 to 16384 tokens. Our findings show that the SSM component, a central part of the selective SSM architecture, demands a significant portion of computational resources compared to other components in the Mamba block. Based on these insights, we propose a pruning technique that selectively removes low-activity states within the SSM component, achieving measurable throughput and memory gains while maintaining accuracy within a moderate pruning regime. This approach results in performance improvements across varying sequence lengths, achieving a 1.14x speedup and reducing memory usage by 11.50\%. These results offer valuable guidance for designing more efficient SSM architectures that can be applied to a wide range of real-world applications.
- Abstract(参考訳): シーケンシャルモデリングの最近の進歩は、理論計算効率とシーケンス処理の利点を提供するトランスフォーマーアーキテクチャの代替として、選択的SSMを導入している。
実行時の動作、リソース利用パターン、スケーリング特性における選択的なSSMの包括的な理解は、まだ探索されていないままであり、最適なデプロイメントとアーキテクチャの改善を妨げている。
本稿では,状態空間モデリングにおける効率性に寄与する設計原理を評価するために,性能評価のために体系的にプロファイルされたMamba-1とMamba-2について,徹底的な実証的研究を行った。
64から16384トークンの列長に対して,計算パターン,メモリアクセス,I/O特性,スケーリング特性の詳細な解析を行った。
その結果,選択的なSSMアーキテクチャの中心となるSSMコンポーネントは,Mambaブロックの他のコンポーネントに比べて計算資源のかなりの部分を必要とすることがわかった。
これらの知見に基づいて,SSMコンポーネント内の低活性状態を選択的に除去し,適度なプルーニング体制内で精度を維持しつつ,測定可能なスループットとメモリゲインを実現するプルーニング手法を提案する。
このアプローチは、様々なシーケンスの長さでパフォーマンスを改善し、1.14倍のスピードアップを実現し、メモリ使用量を11.50\%削減する。
これらの結果は、より効率的なSSMアーキテクチャを設計するための貴重なガイダンスを提供する。
関連論文リスト
- QS4D: Quantization-aware training for efficient hardware deployment of structured state-space sequential models [0.8474310104568011]
構造化状態空間モデル(Structured State Space Model, SSM)は、ディープラーニングモデルの新しいクラスとして登場した。
QATは、様々なパフォーマンス指標において、SSMの複雑さを最大2桁まで減少させることができる。
その結果,QATはアナログノイズに対する堅牢性を高め,構造的プルーニングを可能にすることがわかった。
論文 参考訳(メタデータ) (2025-07-08T15:19:14Z) - SparseSSM: Efficient Selective Structured State Space Models Can Be Pruned in One-Shot [8.080568103779893]
Mambaのような状態空間言語モデルは、線形複雑性推論を許容しながらTransformerの品質にマッチする。
既存のワンショットプルーニング手法はアテンションブロックに適合し、時間共有および離散化された状態遷移行列を考慮できない。
SparseSSMは、古典的最適な脳外科医(OBS)フレームワークをステートスペースアーキテクチャに拡張した最初のトレーニングフリープルーニングフレームワークである。
論文 参考訳(メタデータ) (2025-06-11T11:14:57Z) - DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [86.76714527437383]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - Rethinking Token Reduction for State Space Models [47.00760373683448]
状態空間モデル(SSM)のための調整・統一されたポストトレーニングトークン削減手法を提案する。
我々のアプローチはトークンの重要性と類似性を統合し、プルーニングとマージの両方を活用する。
本手法は,Mamba-2を用いた6つのベンチマークにおいて,従来の手法と比較して平均精度を5.7%から13.1%向上させる。
論文 参考訳(メタデータ) (2024-10-16T00:06:13Z) - SIGMA: Selective Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。
SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。
以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-08-21T09:12:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。