論文の概要: Understanding Input Selectivity in Mamba: Impact on Approximation Power, Memorization, and Associative Recall Capacity
- arxiv url: http://arxiv.org/abs/2506.11891v1
- Date: Fri, 13 Jun 2025 15:38:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.858305
- Title: Understanding Input Selectivity in Mamba: Impact on Approximation Power, Memorization, and Associative Recall Capacity
- Title(参考訳): マンバにおける入力選択性を理解する:近似パワー、記憶、連想リコール能力への影響
- Authors: Ningyuan Huang, Miguel Sarabia, Abhinav Moudgil, Pau Rodriguez, Luca Zappella, Federico Danieli,
- Abstract要約: State-Space Models (SSM) は Transformer に代わる有望な代替手段として最近登場した。
MambaはSSM層に入力選択性を導入し(S6)、畳み込みとゲーティングをブロック定義に組み込む。
我々は,マンバにおける入力選択性の役割を軽視し,機能近似能力,長期記憶,連想記憶能力に与える影響を考察した。
- 参考スコア(独自算出の注目度): 5.116777508056307
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: State-Space Models (SSMs), and particularly Mamba, have recently emerged as a promising alternative to Transformers. Mamba introduces input selectivity to its SSM layer (S6) and incorporates convolution and gating into its block definition. While these modifications do improve Mamba's performance over its SSM predecessors, it remains largely unclear how Mamba leverages the additional functionalities provided by input selectivity, and how these interact with the other operations in the Mamba architecture. In this work, we demystify the role of input selectivity in Mamba, investigating its impact on function approximation power, long-term memorization, and associative recall capabilities. In particular: (i) we prove that the S6 layer of Mamba can represent projections onto Haar wavelets, providing an edge over its Diagonal SSM (S4D) predecessor in approximating discontinuous functions commonly arising in practice; (ii) we show how the S6 layer can dynamically counteract memory decay; (iii) we provide analytical solutions to the MQAR associative recall task using the Mamba architecture with different mixers -- Mamba, Mamba-2, and S4D. We demonstrate the tightness of our theoretical constructions with empirical results on concrete tasks. Our findings offer a mechanistic understanding of Mamba and reveal opportunities for improvement.
- Abstract(参考訳): State-Space Models (SSM)、特にMambaは、最近Transformersに代わる有望な代替品として登場した。
MambaはSSM層に入力選択性を導入し(S6)、畳み込みとゲーティングをブロック定義に組み込む。
これらの修正は、SSM以前のものよりもMambaの性能を改善するが、Mambaが入力選択性によって提供される追加機能をどのように活用するか、また、Mambaアーキテクチャにおける他の操作とどのように相互作用するかは、明らかになっていない。
本研究では,マンバにおける入力選択性の役割を解明し,機能近似能力,長期記憶,連想記憶能力への影響について検討する。
特に
i) マンバのS6層がハールウェーブレットへの射影を表現できることを証明し, 実際に発生する不連続関数を近似するために, 対角SSM (S4D) の先駆体にエッジを与える。
(II)S6層が動的にメモリ崩壊に対処できることを示す。
3)Mamba,Mamba-2,S4Dを混合したMambaアーキテクチャを用いてMQAR連想リコールタスクの解析解を提供する。
具体的タスクにおける実験結果を用いた理論的構成の厳密さを実証する。
この結果から,マンバの機械的理解が得られ,改善の機会が明らかとなった。
関連論文リスト
- Block-Biased Mamba for Long-Range Sequence Processing [8.988769052522807]
Mambaは入力依存力学を導入することで、初期の状態空間モデル(SSM)を拡張している。
長距離依存関係用に設計されたアーキテクチャ上に構築されているにもかかわらず、Mambaは長距離シーケンシャルなタスクでは不十分である。
本稿では,ブロックワイズ選択力学とチャネル固有バイアスを組み合わせた,MambaのS6ユニットの簡単な拡張を提案する。
論文 参考訳(メタデータ) (2025-05-13T23:34:09Z) - LaTIM: Measuring Latent Token-to-Token Interactions in Mamba Models [1.249658136570244]
状態空間モデル(SSM)は、長文シーケンスモデリングのための変換器の効率的な代替品として登場した。
SSMには、注意に基づくアーキテクチャの理解と改善に不可欠であった解釈可能性ツールが欠けている。
我々は, 精密な解釈を可能にする, Mamba-1 と Mamba-2 のトークンレベル分解法である LaTIM を紹介する。
論文 参考訳(メタデータ) (2025-02-21T17:33:59Z) - From Markov to Laplace: How Mamba In-Context Learns Markov Chains [36.22373318908893]
我々はマルコフ連鎖の文脈内学習について研究し、驚くべき現象を明らかにする。
トランスとは異なり、単層マンバでさえ、文脈内ラプラシアスムージング推定器を効率的に学習する。
これらの理論的な洞察は経験的な結果と強く一致し、マンバと最適統計推定器の間の最初の公式な関係を表す。
論文 参考訳(メタデータ) (2025-02-14T14:13:55Z) - Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement [54.427965535613886]
Mambaは、新しいステートスペースモデル(SSM)として、自然言語処理やコンピュータビジョンに広く応用されている。
本稿では,MambaとU-Net for SEタスクを統合する革新的なアーキテクチャであるMamba-SEUNetを紹介する。
論文 参考訳(メタデータ) (2024-12-21T13:43:51Z) - Mamba-CL: Optimizing Selective State Space Model in Null Space for Continual Learning [54.19222454702032]
継続的学習は、AIモデルに時間とともに一連のタスクを学習する能力を持たせることを目的としている。
ステートスペースモデル(SSM)はコンピュータビジョンにおいて顕著な成功を収めた。
大規模マンバ基礎モデルのコアSSMを連続的に微調整するフレームワークであるMamba-CLを紹介する。
論文 参考訳(メタデータ) (2024-11-23T06:36:16Z) - Demystify Mamba in Vision: A Linear Attention Perspective [72.93213667713493]
Mambaは線形計算複雑性を持つ効率的な状態空間モデルである。
我々は,Mambaが線形アテンショントランスフォーマーと驚くほど類似していることを示す。
本稿では,これら2つの鍵設計の利点を線形注意に取り入れた,マンバインスパイアされた線形注意(MILA)モデルを提案する。
論文 参考訳(メタデータ) (2024-05-26T15:31:09Z) - Is Mamba Capable of In-Context Learning? [63.682741783013306]
GPT-4のような技術基盤モデルの現状は、文脈内学習(ICL)において驚くほどよく機能する
この研究は、新たに提案された状態空間モデルであるMambaが同様のICL能力を持つという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-02-05T16:39:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。