論文の概要: Mamba Modulation: On the Length Generalization of Mamba
- arxiv url: http://arxiv.org/abs/2509.19633v2
- Date: Fri, 24 Oct 2025 10:19:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.152673
- Title: Mamba Modulation: On the Length Generalization of Mamba
- Title(参考訳): マンバ変調 : マンバの長大化について
- Authors: Peng Lu, Jerry Huang, Qiuhao Zeng, Xinyu Wang, Boxing Chen, Philippe Langlais, Yufei Cui,
- Abstract要約: Mambaはステートスペース言語モデルの主要なアーキテクチャである。
プレトレーニング中に見られたものよりも長時間のコンテキストに適用した場合,マンバの性能は著しく低下することがわかった。
本稿では,スペクトルスケーリングを事前学習したMambaモデルに適用して,堅牢な長期コンテキスト一般化を実現する手法を提案する。
- 参考スコア(独自算出の注目度): 34.91142589654215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The quadratic complexity of the attention mechanism in Transformer models has motivated the development of alternative architectures with sub-quadratic scaling, such as state-space models. Among these, Mamba has emerged as a leading architecture, achieving state-of-the-art results across a range of language modeling tasks. However, Mamba's performance significantly deteriorates when applied to contexts longer than those seen during pre-training, revealing a sharp sensitivity to context length extension. Through detailed analysis, we attribute this limitation to the out-of-distribution behaviour of its state-space dynamics, particularly within the parameterization of the state transition matrix $\mathbf{A}$. Unlike recent works which attribute this sensitivity to the vanished accumulation of discretization time steps, $\exp(-\sum_{t=1}^N\Delta_t)$, we establish a connection between state convergence behavior as the input length approaches infinity and the spectrum of the transition matrix $\mathbf{A}$, offering a well-founded explanation of its role in length extension. Next, to overcome this challenge, we propose an approach that applies spectrum scaling to pre-trained Mamba models to enable robust long-context generalization by selectively modulating the spectrum of $\mathbf{A}$ matrices in each layer. We show that this can significantly improve performance in settings where simply modulating $\Delta_t$ fails, validating our insights and providing avenues for better length generalization of state-space models with structured transition matrices.
- Abstract(参考訳): トランスフォーマーモデルにおけるアテンション機構の二次的複雑さは、状態空間モデルのような準二次スケーリングを持つ代替アーキテクチャの開発を動機付けている。
このうち、Mambaは先進的なアーキテクチャとして登場し、様々な言語モデリングタスクで最先端の成果を上げている。
しかし,プレトレーニング中に見られたものよりも長時間のコンテキストに適用した場合,Mambaの性能は著しく低下し,コンテキスト長拡張に対する感度が著しく向上した。
詳細な解析を通して、この制限は状態遷移行列 $\mathbf{A}$ のパラメータ化において、状態空間力学の分布外挙動に起因する。
この感度が離散化時間ステップの蓄積に寄与する最近の研究とは異なり、$\exp(-\sum_{t=1}^N\Delta_t)$ は入力長が無限大に近づくときの状態収束挙動と遷移行列 $\mathbf{A}$ のスペクトルとの接続を確立し、長さ延長におけるその役割をよく理解した説明を提供する。
次に,事前学習したマンバモデルにスペクトルスケーリングを適用し,各層における$\mathbf{A}$行列のスペクトルを選択的に変調することにより,堅牢な長コンテキスト一般化を実現する手法を提案する。
これにより、単に$\Delta_t$を変調するだけで、洞察を検証し、構造化遷移行列を持つ状態空間モデルのより長い一般化のための道を提供するような設定のパフォーマンスが大幅に向上することを示す。
関連論文リスト
- Gather-Scatter Mamba: Accelerating Propagation with Efficient State Space Model [15.551773379039675]
ステート・スペース・モデル(SSM)は歴史的にシーケンシャル・モデリングにおいて中心的な役割を果たしてきた。
Mambaのような選択型SSMの最近の進歩は、魅力的な代替手段を提供する。
本研究では,空間的コンテキストアグリゲーションのためのシフトウィンドウ自己アテンションと,効率的な時間的伝搬のためのマンバ型選択走査を組み合わせたハイブリッドアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-10-01T13:11:13Z) - Trained Mamba Emulates Online Gradient Descent in In-Context Linear Regression [90.93281146423378]
Mambaは、Long-Sequence Modelingのための線形複雑性を持つ効率的なTransformer代替品である。
最近の実証研究は、Mambaのテキスト内学習(ICL)がTransformersと競合していることを示している。
本稿では,線形回帰 ICL タスクにおける Mamba のトレーニングダイナミクスについて検討する。
論文 参考訳(メタデータ) (2025-09-28T09:48:49Z) - Structured Sparse Transition Matrices to Enable State Tracking in State-Space Models [68.31088463716269]
状態空間モデル(SSM)における遷移行列の構造的スパースパラメトリゼーションを提案する。
我々の方法PD-SSMは、遷移行列をカラム1ホット行列(P$)と複素数値対角行列(D$)の積としてパラメータ化する。
このモデルは、様々なFSA状態追跡タスクにおいて、現代のSSMの多種多様なバリエーションを著しく上回っている。
論文 参考訳(メタデータ) (2025-09-26T12:46:30Z) - Achilles' Heel of Mamba: Essential difficulties of the Mamba architecture demonstrated by synthetic data [52.07689534063587]
ステートスペースモデル(SSM)は、アテンションメカニズムに代わる有望な代替手段として登場した。
本研究では,マンバ固有の制約を明らかにするために,慎重に設計された合成タスクを用いる。
論文 参考訳(メタデータ) (2025-09-22T08:38:55Z) - Sequential-Parallel Duality in Prefix Scannable Models [68.39855814099997]
近年では Gated Linear Attention (GLA) や Mamba など様々なモデルが開発されている。
ニアコンスタント時間並列評価と線形時間、定数空間シーケンシャル推論をサポートするニューラルネットワークモデルの全クラスを特徴付けることができるだろうか?
論文 参考訳(メタデータ) (2025-06-12T17:32:02Z) - Scaling Up Liquid-Resistance Liquid-Capacitance Networks for Efficient Sequence Modeling [50.994194925685434]
LrcSSMは$textitnon-linear$リカレントモデルで、現在の線形状態空間層と同じくらい高速に長いシーケンスを処理する。
ヤコビ行列を対角線に強制することにより、全列を並列に解くことができる。
LrcSSMは、Liquid-S4のような他の入力変化系が提供しないことを保証する形式的な勾配安定性を提供する。
論文 参考訳(メタデータ) (2025-05-27T20:02:59Z) - UmambaTSF: A U-shaped Multi-Scale Long-Term Time Series Forecasting Method Using Mamba [7.594115034632109]
本稿では,新しい時系列予測フレームワークであるUmambaTSFを提案する。
U字型エンコーダ・デコーダ多層パーセプトロン(MLP)のマルチスケール特徴抽出機能とMambaのロングシーケンス表現を統合する。
UmambaTSFは、広く使用されているベンチマークデータセットで最先端のパフォーマンスと優れた汎用性を達成する。
論文 参考訳(メタデータ) (2024-10-15T04:56:43Z) - SIGMA: Selective Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。
SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。
以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-08-21T09:12:59Z) - SHMamba: Structured Hyperbolic State Space Model for Audio-Visual Question Answering [5.016335384639901]
AVQA(Audio-Visual Question Answering)のマルチモーダル入力により,特徴抽出と融合処理がより困難になる。
我々は、双曲幾何学と状態空間モデルの利点を統合するために、構造化双曲状態空間モデル(SHMamba: Structured Hyperbolic State Space Model)を提案する。
提案手法は,現行のすべての主要な手法の優越性を実証し,実用的なアプリケーションシナリオに適した方法である。
論文 参考訳(メタデータ) (2024-06-14T08:43:31Z) - Mamba: Linear-Time Sequence Modeling with Selective State Spaces [31.985243136674146]
ファンデーションモデルは、ほぼ普遍的にTransformerアーキテクチャとコアアテンションモジュールに基づいている。
このようなモデルの重大な弱点は、コンテンツベースの推論を実行できないことである。
我々はこれらの選択的なSSMを、注意やブロック(Mamba)を使わずに、単純化されたエンドツーエンドニューラルネットワークアーキテクチャに統合する(Mamba)。
一般的なシーケンスモデルバックボーンとして、Mambaは言語、オーディオ、ゲノミクスといったいくつかのモードで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-01T18:01:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。