論文の概要: Block-Biased Mamba for Long-Range Sequence Processing
- arxiv url: http://arxiv.org/abs/2505.09022v1
- Date: Tue, 13 May 2025 23:34:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 21:44:09.323227
- Title: Block-Biased Mamba for Long-Range Sequence Processing
- Title(参考訳): 長期配列処理のためのブロックバイアスマンバ
- Authors: Annan Yu, N. Benjamin Erichson,
- Abstract要約: Mambaは入力依存力学を導入することで、初期の状態空間モデル(SSM)を拡張している。
長距離依存関係用に設計されたアーキテクチャ上に構築されているにもかかわらず、Mambaは長距離シーケンシャルなタスクでは不十分である。
本稿では,ブロックワイズ選択力学とチャネル固有バイアスを組み合わせた,MambaのS6ユニットの簡単な拡張を提案する。
- 参考スコア(独自算出の注目度): 8.988769052522807
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mamba extends earlier state space models (SSMs) by introducing input-dependent dynamics, and has demonstrated strong empirical performance across a range of domains, including language modeling, computer vision, and foundation models. However, a surprising weakness remains: despite being built on architectures designed for long-range dependencies, Mamba performs poorly on long-range sequential tasks. Understanding and addressing this gap is important for improving Mamba's universality and versatility. In this work, we analyze Mamba's limitations through three perspectives: expressiveness, inductive bias, and training stability. Our theoretical results show how Mamba falls short in each of these aspects compared to earlier SSMs such as S4D. To address these issues, we propose $\text{B}_2\text{S}_6$, a simple extension of Mamba's S6 unit that combines block-wise selective dynamics with a channel-specific bias. We prove that these changes equip the model with a better-suited inductive bias and improve its expressiveness and stability. Empirically, $\text{B}_2\text{S}_6$ outperforms S4 and S4D on Long-Range Arena (LRA) tasks while maintaining Mamba's performance on language modeling benchmarks.
- Abstract(参考訳): Mambaは入力依存のダイナミックスを導入して、初期の状態空間モデル(SSM)を拡張し、言語モデリング、コンピュータビジョン、基礎モデルなど、様々な領域で強力な経験的性能を示してきた。
しかし、意外な弱点は残る: 長距離依存用に設計されたアーキテクチャ上に構築されているにもかかわらず、Mambaは長距離シーケンシャルなタスクでは不十分である。
このギャップを理解し、対処することは、マンバの普遍性と汎用性を改善するために重要である。
本研究では,表現性,帰納的バイアス,トレーニング安定性という3つの観点から,マンバの限界を分析する。
S4D などの従来の SSM と比較して,Mamba が各面において不足していることを示す。
これらの問題に対処するために、ブロックワイズ選択力学とチャネル固有バイアスを組み合わせたMambaのS6ユニットの単純な拡張である$\text{B}_2\text{S}_6$を提案する。
これらの変化がより適合した帰納バイアスを持つモデルと一致し、表現性と安定性が向上することを示す。
経験的に、$\text{B}_2\text{S}_6$は、言語モデリングベンチマークにおけるMambaのパフォーマンスを維持しながら、Long-Range Arena (LRA)タスクでS4とS4Dを上回ります。
関連論文リスト
- Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement [54.427965535613886]
Mambaは、新しいステートスペースモデル(SSM)として、自然言語処理やコンピュータビジョンに広く応用されている。
本稿では,MambaとU-Net for SEタスクを統合する革新的なアーキテクチャであるMamba-SEUNetを紹介する。
論文 参考訳(メタデータ) (2024-12-21T13:43:51Z) - Mamba-CL: Optimizing Selective State Space Model in Null Space for Continual Learning [54.19222454702032]
継続的学習は、AIモデルに時間とともに一連のタスクを学習する能力を持たせることを目的としている。
ステートスペースモデル(SSM)はコンピュータビジョンにおいて顕著な成功を収めた。
大規模マンバ基礎モデルのコアSSMを連続的に微調整するフレームワークであるMamba-CLを紹介する。
論文 参考訳(メタデータ) (2024-11-23T06:36:16Z) - MambaOut: Do We Really Need Mamba for Vision? [70.60495392198686]
状態空間モデル(SSM)のRNNライクなトークンミキサーを備えたアーキテクチャであるMambaが最近導入され、注意機構の2次複雑さに対処した。
本論文は,マンバが長周期および自己回帰特性を有するタスクに理想的に適していることを概念的に結論づける。
我々は,コアトークンミキサーであるSSMを除去しながら,Mambaブロックを積み重ねることで,MambaOutという名前の一連のモデルを構築する。
論文 参考訳(メタデータ) (2024-05-13T17:59:56Z) - SiMBA: Simplified Mamba-Based Architecture for Vision and Multivariate Time series [2.4379295576598436]
我々は,特定の固有値計算によるチャネルモデリングのためのEinstein FFT(EinFFT)を導入し,シーケンスモデリングにMambaブロックを用いる新しいアーキテクチャであるSiMBAを提案する。
SiMBAは既存のSSMよりも優れており、最先端の変換器と性能のギャップを埋めている。
論文 参考訳(メタデータ) (2024-03-22T17:22:56Z) - BlackMamba: Mixture of Experts for State-Space Models [10.209192169793772]
状態空間モデル(SSM)は、最近、大規模な言語モデリングベンチマークでトランスフォーマーと競合する性能を示した。
MoEモデルは、計算コストと遅延コストを大幅に削減しながら、顕著なパフォーマンスを示している。
我々は,Mamba SSMとMoEを組み合わせた新しいアーキテクチャであるBlackMambaを紹介した。
論文 参考訳(メタデータ) (2024-02-01T07:15:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。