論文の概要: Mamba State-Space Models Are Lyapunov-Stable Learners
- arxiv url: http://arxiv.org/abs/2406.00209v3
- Date: Fri, 29 Aug 2025 05:39:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 15:42:25.76914
- Title: Mamba State-Space Models Are Lyapunov-Stable Learners
- Title(参考訳): Mamba State-Space ModelsはLyapunov-Stableの学習者
- Authors: John T. Halloran, Manbir Gulati, Paul F. Roysdon,
- Abstract要約: Mamba State-space Model (SSM)は、最近、最先端(SOTA)変換言語モデル(LLM)よりも優れています。
我々は,MPFTとPEFTの組み合わせによって導入された変化に対して,マンバLLMは極めて安定であることを示す。
我々は,MPFTとPEFTを用いて,自然言語タスクにおけるマンバLLMの文脈内学習能力を新たに研究する。
- 参考スコア(独自算出の注目度): 3.441021278275805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mamba state-space models (SSMs) have recently outperformed state-of-the-art (SOTA) Transformer large language models (LLMs) in various tasks and been widely adapted. However, a major concern for stable learning in recurrent-based deep models (such as SSMs) is the sensitivity of their recurrent dynamics. Despite widespread adaptation, the sensitivity of Mamba's recurrent dynamics under common fine-tuning methods-e.g., mixed-precision fine-tuning (MPFT) and parameter-efficient fine-tuning (PEFT)-remains unexplored. Empirically, we show that Mamba LLMs are extremely stable to changes introduced by combinations of MPFT and PEFT, in stark contrast to Transformer LLMs, which we demonstrate may drastically diverge from their respective full-precision counterparts under different combinations of MPFT and PEFT (despite the near-ubiquitous adaptation of these fine-tuning frameworks for attention-based models). The demonstrated robustness of Mamba LLMs are due to their recurrent dynamics, which we prove are guaranteed to be stable using dynamical systems theory (in particular, Lyapunov stability). We conclude by using MPFT and PEFT to novelly study Mamba LLMs' in-context learning (ICL) abilities on natural language tasks, thus supplementing other recent work.
- Abstract(参考訳): Mamba State-space Model (SSM) は、最近様々なタスクにおいて、SOTA (State-of-the-art) の変換言語モデル (LLM) よりも優れており、広く採用されている。
しかし、リカレントベースディープモデル(SSMなど)における安定学習の大きな関心事は、リカレントダイナミクスの感度である。
広く適応しているにもかかわらず、一般的な微調整法、MPFT(Mixed-precision fine-tuning)、PEFT(Parager- efficient fine-tuning)の感度は未検討である。
実験により,MPFTとPEFTの組み合わせによる変化に対して,Mamba LLMは極めて安定であり,Transformer LLMとは対照的であることがわかった。
マンバ LLM の証明されたロバスト性は、リカレント力学によるものであり、力学系理論(特にリャプノフ安定性)を用いて安定であることが証明されている。
我々は,MPFTとPEFTを用いて,マンバLLMの自然言語タスクにおけるインコンテキスト学習能力(ICL)を新たに研究し,最近の研究を補完する。
関連論文リスト
- Differential Mamba [16.613266337054267]
TransformerやRNNのようなシーケンスモデルは、しばしば無関係なコンテキストに注意を向け、ノイズの多い中間表現をもたらす。
最近の研究は、差分設計がトランスフォーマーにおけるこの問題を緩和し、様々なアプリケーションにおけるそれらの効果を向上させることを示している。
本研究では,マンバへの微分設計の素直な適応は不十分であり,注意深いアーキテクチャ修正が必要であることを示す。
論文 参考訳(メタデータ) (2025-07-08T17:30:14Z) - Routing Mamba: Scaling State Space Models with Mixture-of-Experts Projection [88.47928738482719]
線形状態空間モデル(SSM)は、シーケンスモデリングにおいて顕著なパフォーマンス向上を提供する。
Mambaのような最近の進歩は、入力依存のゲーティングとハードウェア対応の実装により、SSMをさらに強化している。
本稿では,線形射影の専門家による疎混合を用いてSSMパラメータをスケールする新しい手法であるRoM(Roing Mamba)を紹介する。
論文 参考訳(メタデータ) (2025-06-22T19:26:55Z) - Mixture-of-Mamba: Enhancing Multi-Modal State-Space Models with Modality-Aware Sparsity [56.0251572416922]
状態空間モデル(SSM)は、シーケンシャルモデリングのためのトランスフォーマーの効率的な代替手段として登場した。
本稿では,Mambaブロックのモダリティ特異的パラメータ化により,モダリティを意識した疎結合を実現する新しいSSMアーキテクチャを提案する。
マルチモーダル事前学習環境におけるMixture-of-Mambaの評価を行った。
論文 参考訳(メタデータ) (2025-01-27T18:35:05Z) - Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement [54.427965535613886]
Mambaは、新しいステートスペースモデル(SSM)として、自然言語処理やコンピュータビジョンに広く応用されている。
本稿では,MambaとU-Net for SEタスクを統合する革新的なアーキテクチャであるMamba-SEUNetを紹介する。
論文 参考訳(メタデータ) (2024-12-21T13:43:51Z) - MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - Bi-Mamba: Towards Accurate 1-Bit State Space Models [28.478762133816726]
Bi-Mambaは、より効率的な大規模言語モデルのために設計されたスケーラブルでパワフルな1ビットのMambaアーキテクチャである。
Bi-Mambaは完全な精度(FP16やBF16など)に匹敵するパフォーマンスを実現し、ポストトレーニングバイナリ化(PTB)のMambaベースラインよりもはるかに精度が高い。
論文 参考訳(メタデータ) (2024-11-18T18:59:15Z) - MambaPEFT: Exploring Parameter-Efficient Fine-Tuning for Mamba [0.5530212768657544]
ステートスペースモデル(SSM)ベースのモデルであるMambaは、トランスフォーマーの代替として注目されている。
Mambaに適用した場合のトランスフォーマーに対する既存のPEFT法の有効性について検討する。
本研究では,マンバの固有構造を利用した新しいPEFT法を提案する。
論文 参考訳(メタデータ) (2024-11-06T11:57:55Z) - Mamba for Scalable and Efficient Personalized Recommendations [0.135975510645475]
本稿では,FT-Transformer アーキテクチャにおいて,Transformer 層を Mamba 層に置き換える新しいハイブリッドモデルを提案する。
FT-Mambaを従来のTransformerベースモデルと比較し,3つのデータセット上でのTwo-Towerアーキテクチャについて検討した。
論文 参考訳(メタデータ) (2024-09-11T14:26:14Z) - ReMamba: Equip Mamba with Effective Long-Sequence Modeling [50.530839868893786]
本研究では,長い文脈の理解能力を高めるReMambaを提案する。
ReMambaは2段階のプロセスで選択的圧縮と適応のテクニックを取り入れている。
論文 参考訳(メタデータ) (2024-08-28T02:47:27Z) - Integrating Multi-Modal Input Token Mixer Into Mamba-Based Decision Models: Decision MetaMamba [0.0]
状態空間モデル(SSM)を用いたシーケンスモデリングは、様々なタスクにおけるトランスフォーマーよりもパフォーマンスが優れていることを示した。
しかし、最先端のSSMであるMambaに基づく決定モデルは、拡張された決定変換器よりも優れた性能を達成できなかった。
本稿では,DMM(Decision MetaMamba)を提案する。
論文 参考訳(メタデータ) (2024-08-20T03:35:28Z) - Mixture-of-Modules: Reinventing Transformers as Dynamic Assemblies of Modules [96.21649779507831]
そこで我々は,Mix-of-modules (MoM) と呼ばれる新しいアーキテクチャを提案する。
MoMは、任意の層がその位置に関係なくトークンを計算することができるという直感によって動機付けられている。
MoMはトランスフォーマーのための統一されたフレームワークを提供するだけでなく、冗長性を減らすための柔軟で学習可能なアプローチを提供する。
論文 参考訳(メタデータ) (2024-07-09T08:50:18Z) - An Empirical Study of Mamba-based Language Models [69.74383762508805]
Mambaのような選択的な状態空間モデル(SSM)はトランスフォーマーの欠点を克服する。
同じデータセット上で訓練された8B-context Mamba, Mamba-2, Transformer モデルを直接比較する。
8BのMamba-2-Hybridは、12の標準タスクで8BのTransformerを上回っている。
論文 参考訳(メタデータ) (2024-06-12T05:25:15Z) - Is Mamba Capable of In-Context Learning? [63.682741783013306]
GPT-4のような技術基盤モデルの現状は、文脈内学習(ICL)において驚くほどよく機能する
この研究は、新たに提案された状態空間モデルであるMambaが同様のICL能力を持つという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-02-05T16:39:12Z) - MambaByte: Token-free Selective State Space Model [71.90159903595514]
マンババイト(英: MambaByte)は、マンバSSMがバイト配列で自己回帰的に訓練したトークンレス適応である。
MambaByteは、言語モデリングタスクにおいて、最先端のサブワードトランスフォーマーよりも優れています。
論文 参考訳(メタデータ) (2024-01-24T18:53:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。