論文の概要: Swimba: Switch Mamba Model Scales State Space Models
- arxiv url: http://arxiv.org/abs/2603.06938v1
- Date: Fri, 06 Mar 2026 23:15:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:13.415057
- Title: Swimba: Switch Mamba Model Scales State Space Models
- Title(参考訳): Swimba: Switch Mamba Modelはステートスペースモデルをスケールする
- Authors: Zhixu Du, Krishna Teja Chitty-Venkata, Murali Emani, Venkatram Vishwanath, Hai Helen Li, Yiran Chen,
- Abstract要約: Mixture-of-experts (MoE) はパラメータの容量を増やすための一般的な手法である。
MoEをステートスペースモデル(SSM)トークンミキサーに適用することで、リカレントステート更新のコストを乗算することができる。
計算効率を保ちながら、選択的なSSMに専門家専門化を導入する方法について述べる。
- 参考スコア(独自算出の注目度): 10.385416238048503
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-experts (MoE) is a common approach for increasing parameter capacity, but applying MoE to state space model (SSM) token mixers can multiply the cost of the recurrent state update. We study how to introduce expert specialization into selective SSMs while preserving computational efficiency. We show that MoE--SSM can refer to two designs: (1) MoE over separated SSMs, which maintains multiple state trajectories and thus scales compute with the number of experts; and (2) MoE-parameterized SSM, which mixes experts in parameter space, maintains a single state trajectory, and evaluates the recurrence once. Our method, Switch Mamba (Swimba), follows the second design by routing over expert-produced SSM streams. Theoretically, we establish well-definedness and stability for MoE-parameterized SSMs and characterize the relationship between the two designs. Empirically, we evaluate Swimba on standard benchmark tasks and measure real-time throughput and latency. Under matched FLOPs, Swimba achieves slightly better average performance than the baseline, with a small slowdown in real-time latency and throughput. Overall, these results suggest that parameter-space MoE can increase SSM capacity while keeping the dominant recurrence cost fixed.
- Abstract(参考訳): Mixture-of-experts (MoE)はパラメータ容量を増やすための一般的なアプローチであるが、状態空間モデル(SSM)トークンミキサーにMoEを適用することで、繰り返し状態更新のコストを乗算することができる。
計算効率を保ちながら、選択的なSSMに専門家専門化を導入する方法について検討する。
我々は,(1)複数の状態軌跡を維持・スケールする分離SSM上のMoEと,(2)パラメータ空間のエキスパートを混合したMoEパラメータ化SSMと,1つの状態軌跡を維持するMoEパラメータ化SSMの2つの設計について述べる。
我々の方法であるSwitch Mamba (Swimba) は、専門家が生成したSSMストリームをルーティングすることで第2の設計に従う。
理論的には、MoEパラメタライズされたSSMの良好な定義性と安定性を確立し、2つの設計間の関係を特徴づける。
実験により,Swimbaを標準ベンチマークタスクで評価し,リアルタイムスループットとレイテンシを測定した。
一致するFLOPでは、Swimbaはベースラインよりも平均的なパフォーマンスがわずかに向上し、リアルタイムのレイテンシとスループットが低下する。
これらの結果から,パラメータ空間 MoE はSSM 容量を増大させ,再帰コストを一定に保ち得ることが示唆された。
関連論文リスト
- MS-SSM: A Multi-Scale State Space Model for Efficient Sequence Modeling [60.648359990090846]
状態空間モデル(SSM)は、最近、計算コストのかかるシーケンスモデルに対する効率的な代替手段として注目されている。
本稿では,複数の解像度にまたがるシーケンスダイナミクスを表現するマルチスケールSSMフレームワークを提案し,各解像度を特殊な状態空間ダイナミクスで処理する。
論文 参考訳(メタデータ) (2025-12-29T19:36:28Z) - First-order State Space Model for Lightweight Image Super-resolution [31.445028679758106]
状態空間モデル(SSM)は、NLPタスクにおいて有望であり、視覚タスクにますます適用されている。
本稿では,最初のMambaモジュールを改善するために,FSSM(First-order State Space Model)を提案する。
FSSMは5つのベンチマークデータセット上でのMambaIRの性能を改善した。
論文 参考訳(メタデータ) (2025-09-10T10:00:43Z) - Routing Mamba: Scaling State Space Models with Mixture-of-Experts Projection [88.47928738482719]
線形状態空間モデル(SSM)は、シーケンスモデリングにおいて顕著なパフォーマンス向上を提供する。
Mambaのような最近の進歩は、入力依存のゲーティングとハードウェア対応の実装により、SSMをさらに強化している。
本稿では,線形射影の専門家による疎混合を用いてSSMパラメータをスケールする新しい手法であるRoM(Roing Mamba)を紹介する。
論文 参考訳(メタデータ) (2025-06-22T19:26:55Z) - Mamba-CL: Optimizing Selective State Space Model in Null Space for Continual Learning [54.19222454702032]
継続的学習は、AIモデルに時間とともに一連のタスクを学習する能力を持たせることを目的としている。
ステートスペースモデル(SSM)はコンピュータビジョンにおいて顕著な成功を収めた。
大規模マンバ基礎モデルのコアSSMを連続的に微調整するフレームワークであるMamba-CLを紹介する。
論文 参考訳(メタデータ) (2024-11-23T06:36:16Z) - Provable Benefits of Complex Parameterizations for Structured State Space Models [51.90574950170374]
構造化状態空間モデル (Structured State Space Model, SSM) は、指定された構造に固執する線形力学系である。
パラメータ化が現実の典型的なニューラルネットワークモジュールとは対照的に、SSMは複雑なパラメータ化を使用することが多い。
本稿では,実対角 SSM と複素対角 SSM の形式的ギャップを確立することにより,SSM の複雑なパラメータ化の利点を説明する。
論文 参考訳(メタデータ) (2024-10-17T22:35:50Z) - KalMamba: Towards Efficient Probabilistic State Space Models for RL under Uncertainty [18.611360495409087]
確率的状態空間モデル(SSM)は、制御のための簡潔な表現を提供するため、高次元部分的な情報から強化学習(RL)に不可欠である。
本稿では,確率的SSMの強度と決定論的SSMのスケーラビリティを組み合わせたRLの表現を効率よく学習するKalMambaを提案する。
論文 参考訳(メタデータ) (2024-06-21T13:27:36Z) - SMR: State Memory Replay for Long Sequence Modeling [19.755738298836526]
本稿では並列畳み込み計算における互換性の限界を克服する新しい非再帰的非一様サンプル処理戦略を提案する。
本研究では,学習可能な記憶を利用する状態記憶再生(SMR)を導入し,学習データと異なるサンプリングポイントでの一般化のために,現在の状態を多段階情報で調整する。
自己回帰言語モデリングとLong Range Arenaにおける長距離モデリングタスクの実験は、一連のSSMモデルに対するSMRメカニズムの一般的な効果を実証している。
論文 参考訳(メタデータ) (2024-05-27T17:53:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。