論文の概要: Memba: Membrane-driven Parameter-Efficient Fine-Tuning for Mamba
- arxiv url: http://arxiv.org/abs/2506.18184v1
- Date: Sun, 22 Jun 2025 21:52:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.792459
- Title: Memba: Membrane-driven Parameter-Efficient Fine-Tuning for Mamba
- Title(参考訳): メンバ:マンバの膜駆動型パラメーター効率的な微調整
- Authors: Donghyun Lee, Yuhang Li, Ruokai Yin, Shiting Xiao, Priyadarshini Panda,
- Abstract要約: State Space Models (SSM) はアテンションベースのトランスフォーマーの強力な代替品として登場した。
メンバは膜駆動である。
PEFTはMamba用に特別に設計されたアプローチである。
- 参考スコア(独自算出の注目度): 21.474315621757594
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: State Space Models (SSMs) have emerged as powerful alternatives to attention-based Transformers, with Mamba demonstrating impressive efficiency and scalability. As these models grow increasingly larger, the need for Parameter-Efficient Fine-Tuning (PEFT) methods becomes critical to adapt pre-trained Mamba to downstream tasks without prohibitive computational costs. However, previous approaches simply apply traditional Transformer-tailored PEFT methods without addressing the unique temporal processing dynamics of SSMs. To address this limitation, we propose Memba, a membrane-driven PEFT approach specifically designed for Mamba. Memba introduces Leaky Integrate Membrane (LIM) neurons as bio-inspired gating mechanisms that naturally accumulate membrane potentials over time, enhancing selective information retention. By strategically combining LIM neurons with Low-Rank Adaptations (LoRA) and cross-layer membrane transfer, our approach significantly improves Mamba's temporal modeling capabilities. Extensive experiments across language and vision tasks demonstrate that Memba achieves substantial improvements over existing PEFT methods. The code is available at https://github.com/Intelligent-Computing-Lab-Yale/Memba.
- Abstract(参考訳): ステートスペースモデル(SSM)は注目に基づくトランスフォーマーの強力な代替手段として登場し、Mambaは目覚ましい効率性とスケーラビリティを誇示している。
これらのモデルがますます大きくなるにつれて、パラメータ効率の良いファインチューニング(PEFT)手法の必要性は、計算コストを抑えることなく、事前学習したマンバを下流のタスクに適応させることが重要となる。
しかし、従来の手法では、SSMのユニークな時間的処理ダイナミクスに対処することなく、Transformer-tailored PEFT法を単純に適用していた。
この制限に対処するため,膜駆動型PEFT手法であるMembaを提案する。
Memba は Leaky Integrate membrane (LIM) ニューロンを、膜電位を時間とともに自然に蓄積し、選択的情報保持を増強するバイオインスパイアされたゲーティング機構として導入している。
LIMニューロンとLoRA(Lo-Rank Adaptations)と膜間移動を戦略的に組み合わせることで,マンバの時間的モデリング能力を大幅に改善する。
言語および視覚タスクにわたる大規模な実験は、Membaが既存のPEFT法よりも大幅に改善されていることを示す。
コードはhttps://github.com/Intelligent-Computing-Lab-Yale/Memba.comで公開されている。
関連論文リスト
- Routing Mamba: Scaling State Space Models with Mixture-of-Experts Projection [88.47928738482719]
線形状態空間モデル(SSM)は、シーケンスモデリングにおいて顕著なパフォーマンス向上を提供する。
Mambaのような最近の進歩は、入力依存のゲーティングとハードウェア対応の実装により、SSMをさらに強化している。
本稿では,線形射影の専門家による疎混合を用いてSSMパラメータをスケールする新しい手法であるRoM(Roing Mamba)を紹介する。
論文 参考訳(メタデータ) (2025-06-22T19:26:55Z) - Reparameterized LLM Training via Orthogonal Equivalence Transformation [54.80172809738605]
直交同値変換を用いてニューロンを最適化する新しいトレーニングアルゴリズムPOETを提案する。
POETは、目的関数を安定して最適化し、一般化を改善する。
我々は、大規模ニューラルネットワークのトレーニングにおいて、POETを柔軟かつスケーラブルにするための効率的な近似を開発する。
論文 参考訳(メタデータ) (2025-06-09T17:59:34Z) - MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - MambaPEFT: Exploring Parameter-Efficient Fine-Tuning for Mamba [0.5530212768657544]
ステートスペースモデル(SSM)ベースのモデルであるMambaは、トランスフォーマーの代替として注目されている。
Mambaに適用した場合のトランスフォーマーに対する既存のPEFT法の有効性について検討する。
本研究では,マンバの固有構造を利用した新しいPEFT法を提案する。
論文 参考訳(メタデータ) (2024-11-06T11:57:55Z) - FMamba: Mamba based on Fast-attention for Multivariate Time-series Forecasting [6.152779144421304]
多変量時系列予測(MTSF)のためのFMambaという新しいフレームワークを導入する。
技術的には、まず、埋め込み層を介して入力変数の時間的特徴を抽出し、次に高速アテンションモジュールを介して入力変数間の依存関係を計算する。
多層パーセプトロンブロック(MLP-block)を通して入力特徴を選択的に扱い、変数の時間的依存関係を抽出する。
最後に、FMambaは、線形層であるプロジェクターを通して予測結果を得る。
論文 参考訳(メタデータ) (2024-07-20T09:14:05Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Mamba State-Space Models Are Lyapunov-Stable Learners [1.6385815610837167]
Mamba State-space Model (SSM) は、最近様々なタスクでTransformer Large Language Model (LLM) より優れていることが示されている。
我々は,Mambaのリカレントダイナミクスが小さな入力変化に対して堅牢であることを示す。
また、命令チューニングにより、Mambaモデルはこのギャップを81%に、Mamba-2モデルはこのギャップを132%に制限できることを示す。
論文 参考訳(メタデータ) (2024-05-31T21:46:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。