論文の概要: DeciMamba: Exploring the Length Extrapolation Potential of Mamba
- arxiv url: http://arxiv.org/abs/2406.14528v1
- Date: Thu, 20 Jun 2024 17:40:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 12:23:24.030515
- Title: DeciMamba: Exploring the Length Extrapolation Potential of Mamba
- Title(参考訳): DeciMamba:Mambaの全長外挿の可能性を探る
- Authors: Assaf Ben-Kish, Itamar Zimerman, Shady Abu-Hussein, Nadav Cohen, Amir Globerson, Lior Wolf, Raja Giryes,
- Abstract要約: 本研究では,マンバに特化して設計された文脈拡張手法であるDeciMambaを紹介する。
DeciMambaは、トレーニング中に見たものよりも25倍長く、余分な計算資源を使わずに、コンテキスト長を外挿できることを示す。
- 参考スコア(独自算出の注目度): 89.07242846058023
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-range sequence processing poses a significant challenge for Transformers due to their quadratic complexity in input length. A promising alternative is Mamba, which demonstrates high performance and achieves Transformer-level capabilities while requiring substantially fewer computational resources. In this paper we explore the length-generalization capabilities of Mamba, which we find to be relatively limited. Through a series of visualizations and analyses we identify that the limitations arise from a restricted effective receptive field, dictated by the sequence length used during training. To address this constraint, we introduce DeciMamba, a context-extension method specifically designed for Mamba. This mechanism, built on top of a hidden filtering mechanism embedded within the S6 layer, enables the trained model to extrapolate well even without additional training. Empirical experiments over real-world long-range NLP tasks show that DeciMamba can extrapolate to context lengths that are 25x times longer than the ones seen during training, and does so without utilizing additional computational resources. We will release our code and models.
- Abstract(参考訳): 長距離シーケンス処理は入力長の2次複雑さのためにトランスフォーマーにとって大きな課題となる。
有望な代替手段はMambaで、高い性能を示し、トランスフォーマーレベルの能力を達成すると同時に、計算リソースを著しく少なくする。
本稿では,比較的限定的なマンバ長一般化能力について検討する。
一連の可視化と分析により、制限は訓練中に使用するシーケンス長によって決定される制限された効果的な受容場から生じると同定する。
この制約に対処するために,特にMamba用に設計されたコンテキスト拡張手法であるDeciMambaを紹介する。
このメカニズムは、S6層に埋め込まれた隠れフィルタリング機構の上に構築されており、トレーニングされたモデルが追加のトレーニングをすることなく、うまく外挿することができる。
実世界の長距離NLPタスクに対する実証実験では、DeciMambaはトレーニング中に見たものよりも25倍長いコンテキスト長に外挿でき、追加の計算資源を使わずにそれを行うことができる。
コードとモデルをリリースします。
関連論文リスト
- An Empirical Study of Mamba-based Language Models [69.74383762508805]
Mambaのような選択的な状態空間モデル(SSM)はトランスフォーマーの欠点を克服する。
同じデータセット上で訓練された8B-context Mamba, Mamba-2, Transformer モデルを直接比較する。
8BのMamba-2-Hybridは、12の標準タスクで8BのTransformerを上回っている。
論文 参考訳(メタデータ) (2024-06-12T05:25:15Z) - MambaTS: Improved Selective State Space Models for Long-term Time Series Forecasting [12.08746904573603]
選択状態空間モデル(SSM)に基づくMambaは、Transformerの競合相手として登場した。
我々は4つの改善点を提案し、MambaTSに導いた。
8つの公開データセットで実施された実験は、MambaTSが新しい最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2024-05-26T05:50:17Z) - Bi-Mamba+: Bidirectional Mamba for Time Series Forecasting [5.166854384000439]
長期時系列予測(LTSF)は、将来のトレンドとパターンに関するより長い洞察を提供する。
近年,Mamba という新しい状態空間モデル (SSM) が提案されている。
入力データに対する選択的機能とハードウェア対応並列計算アルゴリズムにより、Mambaは予測性能と計算効率のバランスをとる大きな可能性を示した。
論文 参考訳(メタデータ) (2024-04-24T09:45:48Z) - Integrating Mamba and Transformer for Long-Short Range Time Series Forecasting [14.476978391383405]
時系列予測は重要な問題であり、天気予報、株式市場、科学シミュレーションなど様々な応用において重要な役割を果たしている。
状態空間モデル(SSM)の最近の進歩は、長距離依存のモデリングにおいて顕著な性能を示している。
本稿では,長距離依存にMambaを,短距離依存にTransformerを内部的に組み合わせたハイブリッドフレームワークMambaformerを提案する。
論文 参考訳(メタデータ) (2024-04-23T05:43:44Z) - Is Mamba Effective for Time Series Forecasting? [30.85990093479062]
時系列予測のための,S-Mamba(S-Mamba)というマンバモデルを提案する。
具体的には,各変数の時間点を線形層を介して自律的にトークン化する。
13の公開データセットの実験では、S-Mambaは計算オーバーヘッドを低く保ち、主要な性能を達成している。
論文 参考訳(メタデータ) (2024-03-17T08:50:44Z) - MiM-ISTD: Mamba-in-Mamba for Efficient Infrared Small Target Detection [72.46396769642787]
ネスト構造であるMamba-in-Mamba(MiM-ISTD)を開発した。
MiM-ISTDはSOTA法より8倍高速で、2048×2048$のイメージでテストすると、GPUメモリ使用率を62.2$%削減する。
論文 参考訳(メタデータ) (2024-03-04T15:57:29Z) - PointMamba: A Simple State Space Model for Point Cloud Analysis [65.59944745840866]
我々は、最近の代表的状態空間モデル(SSM)であるMambaの成功を、NLPからポイントクラウド分析タスクへ転送するPointMambaを提案する。
従来のトランスフォーマーとは異なり、PointMambaは線形複雑性アルゴリズムを採用し、グローバルなモデリング能力を示しながら計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-02-16T14:56:13Z) - Is Mamba Capable of In-Context Learning? [63.682741783013306]
GPT-4のような技術基盤モデルの現状は、文脈内学習(ICL)において驚くほどよく機能する
この研究は、新たに提案された状態空間モデルであるMambaが同様のICL能力を持つという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-02-05T16:39:12Z) - CLEX: Continuous Length Extrapolation for Large Language Models [68.43814043853347]
大規模言語モデル(LLM)のためのCLEX(Continuous Longth Extrapolation)を提案する。
CLEXはコンテキストウィンドウを4倍または8倍のトレーニング長に拡張するが、性能は劣化しない。
我々のモデルは4k長でトレーニングされ、最先端のオープンソースモデルに対して最大32k長でトレーニングされた。
論文 参考訳(メタデータ) (2023-10-25T08:13:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。