論文の概要: Is Mamba Effective for Time Series Forecasting?
- arxiv url: http://arxiv.org/abs/2403.11144v1
- Date: Sun, 17 Mar 2024 08:50:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 18:25:46.434084
- Title: Is Mamba Effective for Time Series Forecasting?
- Title(参考訳): Mambaは時系列予測に有効か?
- Authors: Zihan Wang, Fanheng Kong, Shi Feng, Ming Wang, Han Zhao, Daling Wang, Yifei Zhang,
- Abstract要約: 状態空間モデル(SSM)は、シーケンス内の複雑な依存関係をキャプチャする能力によって、注目を集めている。
本稿では,時系列予測(TSF)のための2つの簡単なSSMモデルを紹介する。
S-MambaとD-MambaはGPUメモリとトレーニング時間を節約しながら優れたパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 30.20492395564641
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the realm of time series forecasting (TSF), the Transformer has consistently demonstrated robust performance due to its ability to focus on the global context and effectively capture long-range dependencies within time, as well as discern correlations between multiple variables. However, due to the inefficiencies of the Transformer model and questions surrounding its ability to capture dependencies, ongoing efforts to refine the Transformer architecture persist. Recently, state space models (SSMs), e.g. Mamba, have gained traction due to their ability to capture complex dependencies in sequences, similar to the Transformer, while maintaining near-linear complexity. In text and image tasks, Mamba-based models can improve performance and cost savings, creating a win-win situation. This has piqued our interest in exploring SSM's potential in TSF tasks. In this paper, we introduce two straightforward SSM-based models for TSF, S-Mamba and D-Mamba, both employing the Mamba Block to extract variate correlations. Remarkably, S-Mamba and D-Mamba achieve superior performance while saving GPU memory and training time. Furthermore, we conduct extensive experiments to delve deeper into the potential of Mamba compared to the Transformer in the TSF, aiming to explore a new research direction for this field. Our code is available at https://github.com/wzhwzhwzh0921/S-D-Mamba.
- Abstract(参考訳): 時系列予測(TSF)の分野では、Transformerは、グローバルなコンテキストに集中し、時間内での長距離依存関係を効果的にキャプチャし、複数の変数間の相関を識別する能力により、一貫して堅牢な性能を示している。
しかし、Transformerモデルの非効率さと依存関係をキャプチャする能力に関する疑問のため、Transformerアーキテクチャを洗練するための継続的な取り組みは継続している。
近年、状態空間モデル(SSM)、例えばMambaは、ほぼ線形の複雑さを維持しながら、Transformerのようなシーケンス内の複雑な依存関係をキャプチャする能力によって、注目を集めている。
テキストとイメージタスクでは、Mambaベースのモデルはパフォーマンスとコスト削減を改善し、勝利の状況を生み出す。
このことは、TSFタスクにおけるSSMの可能性を探ることへの我々の関心を暗示している。
本稿では,TSF,S-Mamba,D-Mambaの2つのSSMモデルについて述べる。
注目すべきは、S-MambaとD-MambaはGPUメモリとトレーニング時間を節約しながら優れたパフォーマンスを達成することだ。
さらに,TSFのトランスフォーマーと比較して,マンバのポテンシャルを深く掘り下げる広範囲な実験を行い,新たな研究の方向性を探究する。
私たちのコードはhttps://github.com/wzhwzhhh0921/S-D-Mambaで公開されています。
関連論文リスト
- The Hidden Attention of Mamba Models [61.25846109294293]
Mamba層は効率的な選択状態空間モデル(SSM)を提供する。
このようなモデルを注意駆動モデルとみなすことができる。
この新たな視点により、トランスの自己注意層と基礎となるメカニズムを比較することができる。
論文 参考訳(メタデータ) (2024-03-03T18:58:21Z) - Can Mamba Learn How to Learn? A Comparative Study on In-Context Learning
Tasks [26.17303310342205]
状態空間モデル(SSM)は言語モデリングにおけるトランスフォーマーネットワークの代替として提案されている。
本研究では,各種タスクを対象としたトランスフォーマーモデルに対して,マンバに着目したSSMのICL性能を評価する。
その結果、SSMは標準回帰ICLタスクにおいてトランスフォーマーと相容れない性能を示し、スパースパリティ学習のようなタスクでは優れていた。
これらの制約に対処するため、我々はMambaとアテンションブロックを組み合わせたハイブリッドモデルを導入し、個別に苦労するタスクにおいて個々のモデルを上回るようにした。
論文 参考訳(メタデータ) (2024-02-06T18:56:35Z) - Is Mamba Capable of In-Context Learning? [68.3217718687615]
Mambaは、新しく提案された選択的な状態空間モデルである。
マムバは文脈内学習におけるトランスフォーマーモデルの性能と一致することを示す。
論文 参考訳(メタデータ) (2024-02-05T16:39:12Z) - Repeat After Me: Transformers are Better than State Space Models at
Copying [57.37277256818516]
一般化された状態空間モデルは、推論時間効率の観点からは有望であるが、入力コンテキストからのコピーを必要とするタスクのトランスフォーマーモデルと比較して限定的であることを示す。
論文 参考訳(メタデータ) (2024-02-01T21:44:11Z) - BlackMamba: Mixture of Experts for State-Space Models [10.209192169793772]
状態空間モデル(SSM)は、最近、大規模な言語モデリングベンチマークでトランスフォーマーと競合する性能を示した。
MoEモデルは、計算コストと遅延コストを大幅に削減しながら、顕著なパフォーマンスを示している。
我々は,Mamba SSMとMoEを組み合わせた新しいアーキテクチャであるBlackMambaを紹介した。
論文 参考訳(メタデータ) (2024-02-01T07:15:58Z) - Mamba: Linear-Time Sequence Modeling with Selective State Spaces [37.786327629797654]
ファンデーションモデルは、ほぼ普遍的にTransformerアーキテクチャとコアアテンションモジュールに基づいている。
このようなモデルの重大な弱点は、コンテンツベースの推論を実行できないことである。
我々はこれらの選択的なSSMを、注意やブロック(Mamba)を使わずに、単純化されたエンドツーエンドニューラルネットワークアーキテクチャに統合する(Mamba)。
一般的なシーケンスモデルバックボーンとして、Mambaは言語、オーディオ、ゲノミクスといったいくつかのモードで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-01T18:01:34Z) - Isomer: Isomerous Transformer for Zero-shot Video Object Segmentation [59.91357714415056]
コンテクスト共有変換器(CST)とセマンティックガザリング散乱変換器(SGST)の2つの変種を提案する。
CSTは、軽量な計算により、画像フレーム内のグローバル共有コンテキスト情報を学習し、SGSTは、前景と背景のセマンティック相関を別々にモデル化する。
多段核融合にバニラ変換器を使用するベースラインと比較して,我々は13倍の速度向上を実現し,新しい最先端ZVOS性能を実現する。
論文 参考訳(メタデータ) (2023-08-13T06:12:00Z) - FormerTime: Hierarchical Multi-Scale Representations for Multivariate
Time Series Classification [53.55504611255664]
formerTimeは、多変量時系列分類タスクの分類能力を改善する階層的表現モデルである。
1)時系列データから階層的なマルチスケール表現を学習し、(2)トランスフォーマーと畳み込みネットワークの強さを継承し、(3)自己維持メカニズムによって引き起こされる効率の課題に取り組む。
論文 参考訳(メタデータ) (2023-02-20T07:46:14Z) - Robust representations of oil wells' intervals via sparse attention
mechanism [2.604557228169423]
正規化変換器(Reguformers)と呼ばれる効率的な変換器のクラスを導入する。
私たちの実験の焦点は、石油とガスのデータ、すなわちウェルログにあります。
このような問題に対する我々のモデルを評価するために、20以上の井戸からなるウェルログからなる産業規模のオープンデータセットで作業する。
論文 参考訳(メタデータ) (2022-12-29T09:56:33Z) - ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias [76.16156833138038]
コンボリューション, ie, ViTAEから内在性IBを探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
各トランス層では、ViTAEはマルチヘッド自己保持モジュールと平行な畳み込みブロックを持ち、その特徴は融合されフィードフォワードネットワークに供給される。
論文 参考訳(メタデータ) (2021-06-07T05:31:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。