論文の概要: Sparse Mamba: Reinforcing Controllability In Structural State Space Models
- arxiv url: http://arxiv.org/abs/2409.00563v2
- Date: Sun, 20 Oct 2024 00:39:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 17:02:04.817990
- Title: Sparse Mamba: Reinforcing Controllability In Structural State Space Models
- Title(参考訳): Sparse Mamba: 構造状態空間モデルにおける制御性の強化
- Authors: Emadeldeen Hamdan, Hongyi Pan, Ahmet Enis Cetin,
- Abstract要約: 我々は,自然言語処理(NLP)アプリケーションのためのSparse-Mamba(S-Mamba)において,制御可能性と可観測性の概念をMamba SSMのアーキテクチャに導入する。
- 参考スコア(独自算出の注目度): 2.6353853440763118
- License:
- Abstract: In this work, we introduce the concept of controllability and observability to the Mamba SSM's architecture in our Sparse-Mamba (S-Mamba) for natural language processing (NLP) applications. The structured state space model (SSM) development in recent studies, such as Mamba and Mamba2, outperformed and solved the computational inefficiency of transformers and large language models at small to medium scale. The Mamba SSMs architecture drops the need for attention layers or multilayer perception blocks in transformers. However, current Mamba models lack reinforcement of controllability in state-space equations for computing the $A$, $B$, $C$, and $D$ matrices at each time step, leading to increased complexity and computational costs. In this paper, we demonstrate a reduction of parameters in comparison to the first published Mamba and Mamba2. We showcase an improvement in perplexity by 5\% and a decrease in training time by 3\% after reinforcing controllability and observability on the original Mamba architecture in our proposed S-Mamba. The controllable $n \times n$ state matrix $A$ is sparse and it has only $n$ free parameters. Our novel approach will ensure a controllable system which will be the gate key for Mamba3.
- Abstract(参考訳): 本研究では,自然言語処理(NLP)アプリケーションのためのSparse-Mamba(S-Mamba)において,制御可能性と可観測性の概念を,Mamba SSMのアーキテクチャに適用する。
Mamba や Mamba2 のような最近の研究における構造化状態空間モデル(SSM)の開発は、トランスフォーマーや大規模言語モデルの小型・中規模での計算非効率性より優れ、解決された。
Mamba SSMsアーキテクチャは、トランスフォーマーの注意層や多層認識ブロックの必要性を減らしている。
しかしながら、現在のMambaモデルは、A$、B$、C$およびD$の行列を計算するための状態空間方程式における制御可能性の強化を欠いているため、複雑さと計算コストが増大する。
本稿では,最初に公開されたMambaとMamba2と比較してパラメータの減少を示す。
提案したS-マンバにおけるマンバアーキテクチャの可制御性と可観測性を強化した上で, パープレキシティを5 %改善し, トレーニング時間を3 %短縮した。
制御可能な$n \times n$ state matrix $A$はスパースであり、$n$freeパラメータしか持たない。
我々の新しいアプローチは、Mamba3のゲートキーとなる制御可能なシステムを保証するでしょう。
関連論文リスト
- KalMamba: Towards Efficient Probabilistic State Space Models for RL under Uncertainty [18.611360495409087]
確率的状態空間モデル(SSM)は、制御のための簡潔な表現を提供するため、高次元部分的な情報から強化学習(RL)に不可欠である。
本稿では,確率的SSMの強度と決定論的SSMのスケーラビリティを組み合わせたRLの表現を効率よく学習するKalMambaを提案する。
論文 参考訳(メタデータ) (2024-06-21T13:27:36Z) - DeciMamba: Exploring the Length Extrapolation Potential of Mamba [89.07242846058023]
本研究では,マンバに特化して設計された文脈拡張手法であるDeciMambaを紹介する。
DeciMambaは、トレーニング中に見たものよりも25倍長く、余分な計算資源を使わずに、コンテキスト長を外挿できることを示す。
論文 参考訳(メタデータ) (2024-06-20T17:40:18Z) - Mamba State-Space Models Can Be Strong Downstream Learners [1.6385815610837167]
マンバ状態空間モデル(SSM)は、最近様々なタスクにおいて最先端(SLLM)を上回っている。
混合精度(MPFT)と微細チューニング(PEFT)は低評価である。
我々は,MPFTとPEFTを組み合わせることで,最大で毎秒215倍,メモリあたり65.5%のトークンを削減できることを示した。
論文 参考訳(メタデータ) (2024-05-31T21:46:23Z) - MiM-ISTD: Mamba-in-Mamba for Efficient Infrared Small Target Detection [72.46396769642787]
ネスト構造であるMamba-in-Mamba(MiM-ISTD)を開発した。
MiM-ISTDはSOTA法より8倍高速で、2048×2048$のイメージでテストすると、GPUメモリ使用率を62.2$%削減する。
論文 参考訳(メタデータ) (2024-03-04T15:57:29Z) - The Hidden Attention of Mamba Models [54.50526986788175]
Mamba層は、複数のドメインをモデリングするのに非常に効果的である効率的な選択状態空間モデル(SSM)を提供する。
このようなモデルを注意駆動モデルとみなすことができる。
この新たな視点は、トランスの自己保持層のメカニズムを経験的かつ理論的に比較することを可能にする。
論文 参考訳(メタデータ) (2024-03-03T18:58:21Z) - PointMamba: A Simple State Space Model for Point Cloud Analysis [65.59944745840866]
我々は、最近の代表的状態空間モデル(SSM)であるMambaの成功を、NLPからポイントクラウド分析タスクへ転送するPointMambaを提案する。
従来のトランスフォーマーとは異なり、PointMambaは線形複雑性アルゴリズムを採用し、グローバルなモデリング能力を示しながら計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-02-16T14:56:13Z) - Is Mamba Capable of In-Context Learning? [63.682741783013306]
GPT-4のような技術基盤モデルの現状は、文脈内学習(ICL)において驚くほどよく機能する
この研究は、新たに提案された状態空間モデルであるMambaが同様のICL能力を持つという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-02-05T16:39:12Z) - MambaByte: Token-free Selective State Space Model [71.90159903595514]
マンババイト(英: MambaByte)は、マンバSSMがバイト配列で自己回帰的に訓練したトークンレス適応である。
MambaByteは、言語モデリングタスクにおいて、最先端のサブワードトランスフォーマーよりも優れています。
論文 参考訳(メタデータ) (2024-01-24T18:53:53Z) - Mamba: Linear-Time Sequence Modeling with Selective State Spaces [31.985243136674146]
ファンデーションモデルは、ほぼ普遍的にTransformerアーキテクチャとコアアテンションモジュールに基づいている。
このようなモデルの重大な弱点は、コンテンツベースの推論を実行できないことである。
我々はこれらの選択的なSSMを、注意やブロック(Mamba)を使わずに、単純化されたエンドツーエンドニューラルネットワークアーキテクチャに統合する(Mamba)。
一般的なシーケンスモデルバックボーンとして、Mambaは言語、オーディオ、ゲノミクスといったいくつかのモードで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-01T18:01:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。