論文の概要: Mamba State-Space Models Are Lyapunov-Stable Learners
- arxiv url: http://arxiv.org/abs/2406.00209v2
- Date: Tue, 15 Oct 2024 19:21:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:39:30.395374
- Title: Mamba State-Space Models Are Lyapunov-Stable Learners
- Title(参考訳): Mamba State-Space ModelsはLyapunov-Stableの学習者
- Authors: John T. Halloran, Manbir Gulati, Paul F. Roysdon,
- Abstract要約: Mamba State-space Model (SSM) は、最近様々なタスクでTransformer Large Language Model (LLM) より優れていることが示されている。
我々は,Mambaのリカレントダイナミクスが小さな入力変化に対して堅牢であることを示す。
また、命令チューニングにより、Mambaモデルはこのギャップを81%に、Mamba-2モデルはこのギャップを132%に制限できることを示す。
- 参考スコア(独自算出の注目度): 1.6385815610837167
- License:
- Abstract: Mamba state-space models (SSMs) were recently shown to outperform state-of-the-art (SOTA) Transformer large language models (LLMs) across various tasks. Despite subsequent widespread adaptation, little work has focused on Mamba LLMs' amenability for fine-tuning frameworks ubiquitously used for Transformer-based LLMs, e.g., mixed-precision fine-tuning (MPFT) and parameter-efficient fine-tuning (PEFT). For the former, it currently remains an open question whether Mamba's recurrent dynamics are robust to small input changes, such as those encountered during MPFT. Using dynamical systems theory (in particular, Lyapunov exponents), we answer this question in the affirmative. We empirically validate this result through several experiments, showing that Mamba SSMs are significantly more stable to changes introduced by mixed-precision than comparable Transformers, even when both MPFT and PEFT are combined. For PEFT, we show how targeting specific memory buffers in Mamba's customized CUDA kernels for low-rank adaptation regularizes SSM parameters, thus providing both parameter efficient learning and computational savings. Finally, with both MPFT and PEFT enabled, we explore the impact of instruction tuning Mamba SSMs for in-context learning (ICL) on natural language tasks. While pretrained Mamba and Mamba-2 models only achieve 38% and 82% (respectively) of the ICL improvements of comparable Transformer-based LLMs, we show that instruction tuning allows Mamba models to narrow this gap to 81% and Mamba-2 models to skyrocket over this gap to 132%.
- Abstract(参考訳): Mamba State-space Model (SSM) は、最近、様々なタスクにおいて、SOTA (State-of-the-art) Transformer Large Language Model (LLMs) よりも優れていることが示されている。
その後の適応にもかかわらず、トランスフォーマーベースのLLM(Mixed-precision fine-tuning、MPFT)やパラメータ効率の細かい微調整(PEFT)で広く使われている細調整フレームワークに対するMamba LLMsの可愛さに焦点をあてる研究はほとんどない。
前者については、MPFTで遭遇したような小さな入力変化に対して、Mambaのリカレントダイナミクスが堅牢であるかどうか、現時点では未解決のままである。
力学系論(特にリャプノフ指数)を用いて、この疑問を肯定的に答える。
実験により,MPFTとPEFTを併用した場合においても,Mamba SSMsは相反する変圧器による変化に対して有意に安定であることが確認された。
PEFTでは、低ランク適応のためのMambaのカスタマイズされたCUDAカーネルにおいて、特定のメモリバッファをターゲットとしてSSMパラメータを正規化し、パラメータ効率のよい学習と計算の節約を両立させる方法を示す。
最後に,MPFTとPEFTの両方を有効にすることで,自然言語処理におけるテキスト内学習(ICL)におけるマンバSSMの指導指導の効果について検討する。
トレーニング済みのMambaモデルとMamba-2モデルは、同等のTransformerベースのLCMのICL改善の38%と82%しか達成していないが、命令チューニングにより、Mambaモデルはこのギャップを81%、Mamba-2モデルはこのギャップを132%に超えることができる。
関連論文リスト
- MambaPEFT: Exploring Parameter-Efficient Fine-Tuning for Mamba [0.5530212768657544]
ステートスペースモデル(SSM)ベースのモデルであるMambaは、トランスフォーマーの代替として注目されている。
Mambaに適用した場合のトランスフォーマーに対する既存のPEFT法の有効性について検討する。
本研究では,マンバの固有構造を利用した新しいPEFT法を提案する。
論文 参考訳(メタデータ) (2024-11-06T11:57:55Z) - Mamba for Scalable and Efficient Personalized Recommendations [0.135975510645475]
本稿では,FT-Transformer アーキテクチャにおいて,Transformer 層を Mamba 層に置き換える新しいハイブリッドモデルを提案する。
FT-Mambaを従来のTransformerベースモデルと比較し,3つのデータセット上でのTwo-Towerアーキテクチャについて検討した。
論文 参考訳(メタデータ) (2024-09-11T14:26:14Z) - Sparse Mamba: Reinforcing Controllability In Structural State Space Models [2.6353853440763118]
我々は,自然言語処理(NLP)アプリケーションのためのSparse-Mamba(S-Mamba)において,制御可能性と可観測性の概念をMamba SSMのアーキテクチャに導入する。
論文 参考訳(メタデータ) (2024-08-31T23:25:12Z) - ReMamba: Equip Mamba with Effective Long-Sequence Modeling [50.530839868893786]
本研究では,長い文脈の理解能力を高めるReMambaを提案する。
ReMambaは2段階のプロセスで選択的圧縮と適応のテクニックを取り入れている。
論文 参考訳(メタデータ) (2024-08-28T02:47:27Z) - Mixture-of-Modules: Reinventing Transformers as Dynamic Assemblies of Modules [96.21649779507831]
そこで我々は,Mix-of-modules (MoM) と呼ばれる新しいアーキテクチャを提案する。
MoMは、任意の層がその位置に関係なくトークンを計算することができるという直感によって動機付けられている。
MoMはトランスフォーマーのための統一されたフレームワークを提供するだけでなく、冗長性を減らすための柔軟で学習可能なアプローチを提供する。
論文 参考訳(メタデータ) (2024-07-09T08:50:18Z) - DeciMamba: Exploring the Length Extrapolation Potential of Mamba [89.07242846058023]
本研究では,マンバに特化して設計された文脈拡張手法であるDeciMambaを紹介する。
DeciMambaは、トレーニング中に見たものよりも25倍長く、余分な計算資源を使わずに、コンテキスト長を外挿できることを示す。
論文 参考訳(メタデータ) (2024-06-20T17:40:18Z) - An Empirical Study of Mamba-based Language Models [69.74383762508805]
Mambaのような選択的な状態空間モデル(SSM)はトランスフォーマーの欠点を克服する。
同じデータセット上で訓練された8B-context Mamba, Mamba-2, Transformer モデルを直接比較する。
8BのMamba-2-Hybridは、12の標準タスクで8BのTransformerを上回っている。
論文 参考訳(メタデータ) (2024-06-12T05:25:15Z) - Is Mamba Capable of In-Context Learning? [63.682741783013306]
GPT-4のような技術基盤モデルの現状は、文脈内学習(ICL)において驚くほどよく機能する
この研究は、新たに提案された状態空間モデルであるMambaが同様のICL能力を持つという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-02-05T16:39:12Z) - BlackMamba: Mixture of Experts for State-Space Models [10.209192169793772]
状態空間モデル(SSM)は、最近、大規模な言語モデリングベンチマークでトランスフォーマーと競合する性能を示した。
MoEモデルは、計算コストと遅延コストを大幅に削減しながら、顕著なパフォーマンスを示している。
我々は,Mamba SSMとMoEを組み合わせた新しいアーキテクチャであるBlackMambaを紹介した。
論文 参考訳(メタデータ) (2024-02-01T07:15:58Z) - MambaByte: Token-free Selective State Space Model [71.90159903595514]
マンババイト(英: MambaByte)は、マンバSSMがバイト配列で自己回帰的に訓練したトークンレス適応である。
MambaByteは、言語モデリングタスクにおいて、最先端のサブワードトランスフォーマーよりも優れています。
論文 参考訳(メタデータ) (2024-01-24T18:53:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。