論文の概要: Understanding Input Selectivity in Mamba: Impact on Approximation Power, Memorization, and Associative Recall Capacity
- arxiv url: http://arxiv.org/abs/2506.11891v1
- Date: Fri, 13 Jun 2025 15:38:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.858305
- Title: Understanding Input Selectivity in Mamba: Impact on Approximation Power, Memorization, and Associative Recall Capacity
- Title(参考訳): マンバにおける入力選択性を理解する:近似パワー、記憶、連想リコール能力への影響
- Authors: Ningyuan Huang, Miguel Sarabia, Abhinav Moudgil, Pau Rodriguez, Luca Zappella, Federico Danieli,
- Abstract要約: State-Space Models (SSM) は Transformer に代わる有望な代替手段として最近登場した。
MambaはSSM層に入力選択性を導入し(S6)、畳み込みとゲーティングをブロック定義に組み込む。
我々は,マンバにおける入力選択性の役割を軽視し,機能近似能力,長期記憶,連想記憶能力に与える影響を考察した。
- 参考スコア(独自算出の注目度): 5.116777508056307
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: State-Space Models (SSMs), and particularly Mamba, have recently emerged as a promising alternative to Transformers. Mamba introduces input selectivity to its SSM layer (S6) and incorporates convolution and gating into its block definition. While these modifications do improve Mamba's performance over its SSM predecessors, it remains largely unclear how Mamba leverages the additional functionalities provided by input selectivity, and how these interact with the other operations in the Mamba architecture. In this work, we demystify the role of input selectivity in Mamba, investigating its impact on function approximation power, long-term memorization, and associative recall capabilities. In particular: (i) we prove that the S6 layer of Mamba can represent projections onto Haar wavelets, providing an edge over its Diagonal SSM (S4D) predecessor in approximating discontinuous functions commonly arising in practice; (ii) we show how the S6 layer can dynamically counteract memory decay; (iii) we provide analytical solutions to the MQAR associative recall task using the Mamba architecture with different mixers -- Mamba, Mamba-2, and S4D. We demonstrate the tightness of our theoretical constructions with empirical results on concrete tasks. Our findings offer a mechanistic understanding of Mamba and reveal opportunities for improvement.
- Abstract(参考訳): State-Space Models (SSM)、特にMambaは、最近Transformersに代わる有望な代替品として登場した。
MambaはSSM層に入力選択性を導入し(S6)、畳み込みとゲーティングをブロック定義に組み込む。
これらの修正は、SSM以前のものよりもMambaの性能を改善するが、Mambaが入力選択性によって提供される追加機能をどのように活用するか、また、Mambaアーキテクチャにおける他の操作とどのように相互作用するかは、明らかになっていない。
本研究では,マンバにおける入力選択性の役割を解明し,機能近似能力,長期記憶,連想記憶能力への影響について検討する。
特に
i) マンバのS6層がハールウェーブレットへの射影を表現できることを証明し, 実際に発生する不連続関数を近似するために, 対角SSM (S4D) の先駆体にエッジを与える。
(II)S6層が動的にメモリ崩壊に対処できることを示す。
3)Mamba,Mamba-2,S4Dを混合したMambaアーキテクチャを用いてMQAR連想リコールタスクの解析解を提供する。
具体的タスクにおける実験結果を用いた理論的構成の厳密さを実証する。
この結果から,マンバの機械的理解が得られ,改善の機会が明らかとなった。
関連論文リスト
- Routing Mamba: Scaling State Space Models with Mixture-of-Experts Projection [88.47928738482719]
線形状態空間モデル(SSM)は、シーケンスモデリングにおいて顕著なパフォーマンス向上を提供する。
Mambaのような最近の進歩は、入力依存のゲーティングとハードウェア対応の実装により、SSMをさらに強化している。
本稿では,線形射影の専門家による疎混合を用いてSSMパラメータをスケールする新しい手法であるRoM(Roing Mamba)を紹介する。
論文 参考訳(メタデータ) (2025-06-22T19:26:55Z) - Block-Biased Mamba for Long-Range Sequence Processing [8.988769052522807]
Mambaは入力依存力学を導入することで、初期の状態空間モデル(SSM)を拡張している。
長距離依存関係用に設計されたアーキテクチャ上に構築されているにもかかわらず、Mambaは長距離シーケンシャルなタスクでは不十分である。
本稿では,ブロックワイズ選択力学とチャネル固有バイアスを組み合わせた,MambaのS6ユニットの簡単な拡張を提案する。
論文 参考訳(メタデータ) (2025-05-13T23:34:09Z) - LaTIM: Measuring Latent Token-to-Token Interactions in Mamba Models [1.249658136570244]
状態空間モデル(SSM)は、長文シーケンスモデリングのための変換器の効率的な代替品として登場した。
SSMには、注意に基づくアーキテクチャの理解と改善に不可欠であった解釈可能性ツールが欠けている。
我々は, 精密な解釈を可能にする, Mamba-1 と Mamba-2 のトークンレベル分解法である LaTIM を紹介する。
論文 参考訳(メタデータ) (2025-02-21T17:33:59Z) - From Markov to Laplace: How Mamba In-Context Learns Markov Chains [36.22373318908893]
我々はマルコフ連鎖の文脈内学習について研究し、驚くべき現象を明らかにする。
トランスとは異なり、単層マンバでさえ、文脈内ラプラシアスムージング推定器を効率的に学習する。
これらの理論的な洞察は経験的な結果と強く一致し、マンバと最適統計推定器の間の最初の公式な関係を表す。
論文 参考訳(メタデータ) (2025-02-14T14:13:55Z) - Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement [54.427965535613886]
Mambaは、新しいステートスペースモデル(SSM)として、自然言語処理やコンピュータビジョンに広く応用されている。
本稿では,MambaとU-Net for SEタスクを統合する革新的なアーキテクチャであるMamba-SEUNetを紹介する。
論文 参考訳(メタデータ) (2024-12-21T13:43:51Z) - Mamba-CL: Optimizing Selective State Space Model in Null Space for Continual Learning [54.19222454702032]
継続的学習は、AIモデルに時間とともに一連のタスクを学習する能力を持たせることを目的としている。
ステートスペースモデル(SSM)はコンピュータビジョンにおいて顕著な成功を収めた。
大規模マンバ基礎モデルのコアSSMを連続的に微調整するフレームワークであるMamba-CLを紹介する。
論文 参考訳(メタデータ) (2024-11-23T06:36:16Z) - MambaVision: A Hybrid Mamba-Transformer Vision Backbone [54.965143338206644]
視覚応用に適した新しいハイブリッド型Mamba-TransformerバックボーンMambaVisionを提案する。
最終層に自己アテンションブロックを付加したMambaアーキテクチャは,長距離空間依存性を捕捉する能力を大幅に向上することを示す。
ImageNet-1Kデータセットの分類において、MambaVisionの変種は、Top-1の精度とスループットの両方の観点から、最先端(SOTA)のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-07-10T23:02:45Z) - Venturing into Uncharted Waters: The Navigation Compass from Transformer to Mamba [77.21394300708172]
ディープニューラルネットワークアーキテクチャであるTransformerは、長年、自然言語処理などの分野を支配してきた。
マンバの最近の導入は、その優位性に挑戦し、研究者の間でかなりの関心を喚起し、マンバをベースとした一連のモデルが顕著な可能性を示している。
本研究は,総合的な議論をまとめ,本質的な研究の側面に潜り込み,(1)構造的状態空間モデルの原理に基づくマンバ機構の機能とその基盤,(2)提案されたマンバの様々なネットワークへの統合,(3)トランスフォーマーの代替としての可能性を探る。
論文 参考訳(メタデータ) (2024-06-24T15:27:21Z) - Demystify Mamba in Vision: A Linear Attention Perspective [72.93213667713493]
Mambaは線形計算複雑性を持つ効率的な状態空間モデルである。
我々は,Mambaが線形アテンショントランスフォーマーと驚くほど類似していることを示す。
本稿では,これら2つの鍵設計の利点を線形注意に取り入れた,マンバインスパイアされた線形注意(MILA)モデルを提案する。
論文 参考訳(メタデータ) (2024-05-26T15:31:09Z) - An Investigation of Incorporating Mamba for Speech Enhancement [45.610243349192096]
我々は,マンバをベースとした回帰モデルを用いて音声信号の特徴付けと,SEMambaと呼ばれるマンバに基づくSEシステムの構築を行う。
SEMambaは有望な結果を示し、VoiceBank-DEMANDデータセットでPSSQスコアが3.55に達した。
論文 参考訳(メタデータ) (2024-05-10T16:18:49Z) - Is Mamba Capable of In-Context Learning? [63.682741783013306]
GPT-4のような技術基盤モデルの現状は、文脈内学習(ICL)において驚くほどよく機能する
この研究は、新たに提案された状態空間モデルであるMambaが同様のICL能力を持つという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-02-05T16:39:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。