論文の概要: DeciMamba: Exploring the Length Extrapolation Potential of Mamba
- arxiv url: http://arxiv.org/abs/2406.14528v2
- Date: Mon, 03 Feb 2025 16:26:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-04 16:07:03.010776
- Title: DeciMamba: Exploring the Length Extrapolation Potential of Mamba
- Title(参考訳): DeciMamba:Mambaの全長外挿の可能性を探る
- Authors: Assaf Ben-Kish, Itamar Zimerman, Shady Abu-Hussein, Nadav Cohen, Amir Globerson, Lior Wolf, Raja Giryes,
- Abstract要約: 本研究では,マンバに特化して設計された文脈拡張手法であるDeciMambaを紹介する。
実世界の長距離NLPタスクに対する実験では、DeciMambaはトレーニング中に見られるものよりも、コンテキスト長に格段に長く当てはまることが示されている。
- 参考スコア(独自算出の注目度): 89.07242846058023
- License:
- Abstract: Long-range sequence processing poses a significant challenge for Transformers due to their quadratic complexity in input length. A promising alternative is Mamba, which demonstrates high performance and achieves Transformer-level capabilities while requiring substantially fewer computational resources. In this paper we explore the length-generalization capabilities of Mamba, which we find to be relatively limited. Through a series of visualizations and analyses we identify that the limitations arise from a restricted effective receptive field, dictated by the sequence length used during training. To address this constraint, we introduce DeciMamba, a context-extension method specifically designed for Mamba. This mechanism, built on top of a hidden filtering mechanism embedded within the S6 layer, enables the trained model to extrapolate well even without additional training. Empirical experiments over real-world long-range NLP tasks show that DeciMamba can extrapolate to context lengths that are significantly longer than the ones seen during training, while enjoying faster inference.
- Abstract(参考訳): 長距離シーケンス処理は入力長の2次複雑さのためにトランスフォーマーにとって大きな課題となる。
有望な代替手段はMambaで、高い性能を示し、トランスフォーマーレベルの能力を達成すると同時に、計算リソースを著しく少なくする。
本稿では,比較的限定的なマンバ長一般化能力について検討する。
一連の可視化と分析により、制限は訓練中に使用するシーケンス長によって決定される制限された効果的な受容場から生じると同定する。
この制約に対処するために,特にMamba用に設計されたコンテキスト拡張手法であるDeciMambaを紹介する。
このメカニズムは、S6層に埋め込まれた隠れフィルタリング機構の上に構築されており、トレーニングされたモデルが追加のトレーニングをすることなく、うまく外挿することができる。
実世界の長距離NLPタスクに対する実証実験では、DeciMambaはトレーニング中に見られるものよりもはるかに長いコンテキスト長を外挿し、推論を高速に楽しむことができる。
関連論文リスト
- Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement [54.427965535613886]
Mambaは、新しいステートスペースモデル(SSM)として、自然言語処理やコンピュータビジョンに広く応用されている。
本稿では,MambaとU-Net for SEタスクを統合する革新的なアーキテクチャであるMamba-SEUNetを紹介する。
論文 参考訳(メタデータ) (2024-12-21T13:43:51Z) - MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - ReMamba: Equip Mamba with Effective Long-Sequence Modeling [50.530839868893786]
本研究では,長い文脈の理解能力を高めるReMambaを提案する。
ReMambaは2段階のプロセスで選択的圧縮と適応のテクニックを取り入れている。
論文 参考訳(メタデータ) (2024-08-28T02:47:27Z) - SIGMA: Selective Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。
SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。
以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-08-21T09:12:59Z) - FMamba: Mamba based on Fast-attention for Multivariate Time-series Forecasting [6.152779144421304]
多変量時系列予測(MTSF)のためのFMambaという新しいフレームワークを導入する。
技術的には、まず、埋め込み層を介して入力変数の時間的特徴を抽出し、次に高速アテンションモジュールを介して入力変数間の依存関係を計算する。
多層パーセプトロンブロック(MLP-block)を通して入力特徴を選択的に扱い、変数の時間的依存関係を抽出する。
最後に、FMambaは、線形層であるプロジェクターを通して予測結果を得る。
論文 参考訳(メタデータ) (2024-07-20T09:14:05Z) - MambaTS: Improved Selective State Space Models for Long-term Time Series Forecasting [12.08746904573603]
選択状態空間モデル(SSM)に基づくMambaは、Transformerの競合相手として登場した。
我々は4つの改善点を提案し、MambaTSに導いた。
8つの公開データセットで実施された実験は、MambaTSが新しい最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2024-05-26T05:50:17Z) - Bi-Mamba+: Bidirectional Mamba for Time Series Forecasting [5.166854384000439]
長期時系列予測(LTSF)は、将来のトレンドとパターンに関するより長い洞察を提供する。
近年,Mamba という新しい状態空間モデル (SSM) が提案されている。
入力データに対する選択的機能とハードウェア対応並列計算アルゴリズムにより、Mambaは予測性能と計算効率のバランスをとる大きな可能性を示した。
論文 参考訳(メタデータ) (2024-04-24T09:45:48Z) - Is Mamba Effective for Time Series Forecasting? [30.85990093479062]
時系列予測のための,S-Mamba(S-Mamba)というマンバモデルを提案する。
具体的には,各変数の時間点を線形層を介して自律的にトークン化する。
13の公開データセットの実験では、S-Mambaは計算オーバーヘッドを低く保ち、主要な性能を達成している。
論文 参考訳(メタデータ) (2024-03-17T08:50:44Z) - MambaMIL: Enhancing Long Sequence Modeling with Sequence Reordering in
Computational Pathology [10.933433327636918]
MIL(Multiple Instance Learning)は、WSI(Whole Slide Images)内の識別的特徴表現を計算病理学で抽出する主要なパラダイムとして登場した。
本稿では,線形複雑度を持つ長周期モデリングのために,Selective Scan Space State Sequential Model(Mamba)をMIL(Multiple Instance Learning)に組み込む。
提案するフレームワークは,最先端のMIL手法に対して良好に機能する。
論文 参考訳(メタデータ) (2024-03-11T15:17:25Z) - Is Mamba Capable of In-Context Learning? [63.682741783013306]
GPT-4のような技術基盤モデルの現状は、文脈内学習(ICL)において驚くほどよく機能する
この研究は、新たに提案された状態空間モデルであるMambaが同様のICL能力を持つという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-02-05T16:39:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。