論文の概要: A Theoretical Analysis of Mamba's Training Dynamics: Filtering Relevant Features for Generalization in State Space Models
- arxiv url: http://arxiv.org/abs/2602.12499v1
- Date: Fri, 13 Feb 2026 00:44:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.799336
- Title: A Theoretical Analysis of Mamba's Training Dynamics: Filtering Relevant Features for Generalization in State Space Models
- Title(参考訳): マンバのトレーニングダイナミクスに関する理論的分析:状態空間モデルにおける一般化のためのフィルタリング関連特徴
- Authors: Mugunthan Shandirasegaran, Hongkang Li, Songyang Zhang, Meng Wang, Shuai Zhang,
- Abstract要約: 単純だが代表的なマンバブロックに対する一般化と学習ダイナミクスの第一段階解析について述べる。
本研究は,トークンレベルのノイズの下で,クラス関連パターンとクラス関連パターンの両方を含むトークンを持つ構造化データモデルを採用する。
非漸近的なサンプル複雑性と収束率境界を確立することにより、モデルが保証された一般化を実現することを証明した。
- 参考スコア(独自算出の注目度): 36.99162631444728
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent empirical success of Mamba and other selective state space models (SSMs) has renewed interest in non-attention architectures for sequence modeling, yet their theoretical foundations remain underexplored. We present a first-step analysis of generalization and learning dynamics for a simplified but representative Mamba block: a single-layer, single-head selective SSM with input-dependent gating, followed by a two-layer MLP trained via gradient descent (GD). Our study adopts a structured data model with tokens that include both class-relevant and class-irrelevant patterns under token-level noise and examines two canonical regimes: majority-voting and locality-structured data sequences. We prove that the model achieves guaranteed generalization by establishing non-asymptotic sample complexity and convergence rate bounds, which improve as the effective signal increases and the noise decreases. Furthermore, we show that the gating vector aligns with class-relevant features while ignoring irrelevant ones, thereby formalizing a feature-selection role similar to attention but realized through selective recurrence. Numerical experiments on synthetic data justify our theoretical results. Overall, our results provide principled insight into when and why Mamba-style selective SSMs learn efficiently, offering a theoretical counterpoint to Transformer-centric explanations.
- Abstract(参考訳): マンバとその他の選択的状態空間モデル(SSM)の最近の経験的成功は、シーケンスモデリングのための非注意アーキテクチャに新たな関心を寄せている。
入力依存型ゲーティングを持つ単層単頭選択型SSMと、勾配降下法(GD)を用いて訓練された2層MLPを用いて、簡易だが代表的なマンバブロックの一般化と学習のダイナミクスを第1ステップで解析する。
本研究は,トークンレベルの雑音下でのクラス関連パターンとクラス関連パターンの両方を含むトークンを持つ構造化データモデルを採用し,多数決投票と局所性構造化データシーケンスの2つの標準状態について検討する。
非漸近的なサンプルの複雑さと収束率境界を確立することにより、モデルが保証された一般化を実現することを証明し、有効信号の増加とノイズの減少により改善する。
さらに, ゲーティングベクトルは無関係な特徴を無視しながらクラス関連の特徴と整合し, 注意に類似した特徴選択の役割を定式化するが, 選択的反復により実現した。
合成データの数値実験は理論的な結果を正当化する。
以上の結果から, マンバ型選択的SSMが効率よく学習する時期と理由を考察し, トランスフォーマー中心の説明に理論的に矛盾点を与えることができた。
関連論文リスト
- Symmetry and Generalisation in Neural Approximations of Renormalisation Transformations [11.337632710839166]
ニューラルネットワークの一般化行動における対称性とネットワーク表現性の役割を評価する。
単純な多層パーセプトロン(MLP)とグラフニューラルネットワーク(GNN)について考察する。
以上の結果から, 対称性の制約と表現率の競合が明らかとなり, 過度に複雑なモデルが一般化されていないことが判明した。
論文 参考訳(メタデータ) (2025-10-18T17:29:23Z) - Algorithm- and Data-Dependent Generalization Bounds for Score-Based Generative Models [27.78637798976204]
スコアベース生成モデル(SGM)は、生成モデルの最も一般的なクラスの一つである。
本稿では,SGMのためのアルゴリズムおよびデータ依存分析法を提案する。
特に、学習アルゴリズムのダイナミクスを説明し、SGMの振る舞いに関する新たな洞察を提供する。
論文 参考訳(メタデータ) (2025-06-04T11:33:04Z) - Investigating the Impact of Model Complexity in Large Language Models [3.7919508292745676]
事前訓練された微調整パラダイムに基づく大規模言語モデル(LLM)は、自然言語処理タスクの解決において重要な役割を担っている。
本稿では,自己回帰 LLM に着目し,HMM (Hidden Markov Models) を用いたモデリングを提案する。
論文 参考訳(メタデータ) (2024-10-01T13:53:44Z) - A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。
オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文 参考訳(メタデータ) (2023-11-13T01:48:08Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - On the Influence of Enforcing Model Identifiability on Learning dynamics
of Gaussian Mixture Models [14.759688428864159]
特異モデルからサブモデルを抽出する手法を提案する。
本手法はトレーニング中のモデルの識別性を強制する。
この手法がディープニューラルネットワークのようなより複雑なモデルにどのように適用できるかを示す。
論文 参考訳(メタデータ) (2022-06-17T07:50:22Z) - On the Generalization and Adaption Performance of Causal Models [99.64022680811281]
異なる因果発見は、データ生成プロセスを一連のモジュールに分解するために提案されている。
このようなモジュラニューラル因果モデルの一般化と適応性能について検討する。
我々の分析では、モジュラーニューラル因果モデルが、低データレギュレーションにおけるゼロおよび少数ショットの適応において、他のモデルよりも優れていることを示している。
論文 参考訳(メタデータ) (2022-06-09T17:12:32Z) - Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。
我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。
その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2020-10-12T03:27:07Z) - The Role of Isomorphism Classes in Multi-Relational Datasets [6.419762264544509]
アイソモーフィックリークは,マルチリレーショナル推論の性能を過大評価することを示す。
モデル評価のためのアイソモーフィック・アウェア・シンセサイティング・ベンチマークを提案する。
また、同型類は単純な優先順位付けスキームによって利用することができることを示した。
論文 参考訳(メタデータ) (2020-09-30T12:15:24Z) - Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文 参考訳(メタデータ) (2020-06-11T09:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。