論文の概要: SST: Multi-Scale Hybrid Mamba-Transformer Experts for Time Series Forecasting
- arxiv url: http://arxiv.org/abs/2404.14757v3
- Date: Sun, 02 Nov 2025 00:28:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-04 18:19:02.640006
- Title: SST: Multi-Scale Hybrid Mamba-Transformer Experts for Time Series Forecasting
- Title(参考訳): SST: 時系列予測のためのマルチスケールハイブリッドマンバトランスフォーマーエキスパート
- Authors: Xiongxiao Xu, Canyu Chen, Yueqing Liang, Baixiang Huang, Guangji Bai, Liang Zhao, Kai Shu,
- Abstract要約: Mambaのような状態空間モデル(SSM)は、注意せずに線形複雑性を達成することで有望な代替手段を提供する。
しかし、マンバは歴史的情報を固定サイズの潜伏状態に圧縮し、情報損失と表現効率の制限を引き起こす可能性がある。
時系列予測に効率的かつ効果的であるハイブリッドのMamba-Transformerアーキテクチャを設計できるだろうか?
本研究では,長距離パターンのMambaエキスパートと短期変動のTransformerエキスパートのマルチスケールハイブリッドモデルであるState Space Transformer (SST)を提案する。
- 参考スコア(独自算出の注目度): 35.09857560516401
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Time series forecasting has made significant advances, including with Transformer-based models. The attention mechanism in Transformer effectively captures temporal dependencies by attending to all past inputs simultaneously. However, its quadratic complexity with respect to sequence length limits the scalability for long-range modeling. Recent state space models (SSMs) such as Mamba offer a promising alternative by achieving linear complexity without attention. Yet, Mamba compresses historical information into a fixed-size latent state, potentially causing information loss and limiting representational effectiveness. This raises a key research question: Can we design a hybrid Mamba-Transformer architecture that is both effective and efficient for time series forecasting? To address it, we adapt a hybrid Mamba-Transformer architecture Mambaformer, originally proposed for language modeling, to the time series domain. Preliminary experiments reveal that naively stacking Mamba and Transformer layers in Mambaformer is suboptimal for time series forecasting, due to an information interference problem. To mitigate this issue, we introduce a new time series decomposition strategy that separates time series into long-range patterns and short-range variations. Then we show that Mamba excels at capturing long-term structures, while Transformer is more effective at modeling short-term dynamics. Building on this insight, we propose State Space Transformer (SST), a multi-scale hybrid model with expert modules: a Mamba expert for long-range patterns and a Transformer expert for short-term variations. SST also employs a multi-scale patching mechanism to adaptively adjust time series resolution: low resolution for long-term patterns and high resolution for short-term variations. Experiments show that SST obtains SOTA performance with linear scalability. The code is at https://github.com/XiongxiaoXu/SST.
- Abstract(参考訳): 時系列予測はTransformerベースのモデルを含む大きな進歩を遂げた。
Transformerのアテンションメカニズムは、すべての過去の入力に同時に参加することで、時間的依存関係を効果的にキャプチャする。
しかし、シーケンス長に関する二次的な複雑性は、長距離モデリングのスケーラビリティを制限している。
Mambaのような最近の状態空間モデル(SSM)は、注意せずに線形複雑性を達成することで有望な代替手段を提供する。
しかし、マンバは歴史的情報を固定サイズの潜伏状態に圧縮し、情報損失と表現効率の制限を引き起こす可能性がある。
時系列予測に効率的かつ効果的であるハイブリッドのMamba-Transformerアーキテクチャを設計できるだろうか?
そこで本研究では,もともと言語モデリングのために提案されていたMamba-Transformerアーキテクチャを時系列領域に適用する。
予備実験では、情報干渉問題により、MambaformerのMamba層とTransformer層は時系列予測に最適であることが明らかとなった。
この問題を緩和するために、時系列を長距離パターンと短距離変動に分離する新しい時系列分解戦略を導入する。
次に,Mambaは長期構造を捉えるのに優れ,Transformerは短期力学のモデリングに有効であることを示す。
この知見に基づいて,長距離パターンのMambaエキスパートと短期変動のTransformerエキスパートのマルチスケールハイブリッドモデルであるState Space Transformer (SST)を提案する。
SSTはまた、時系列の解像度を適応的に調整するマルチスケールのパッチ機構(長期パターンの低解像度と短期変動の高解像度)も採用している。
実験の結果,SSTは線形拡張性でSOTA性能が得られることがわかった。
コードはhttps://github.com/XiongxiaoXu/SSTにある。
関連論文リスト
- TimePro: Efficient Multivariate Long-term Time Series Forecasting with Variable- and Time-Aware Hyper-state [12.940694192516059]
長期の時系列予測では、異なる変数が異なる時間間隔でターゲット変数に影響を与えることが多い。
伝統的なモデルは典型的にはすべての変数や時間点を一様に処理し、複雑な変数関係を捉える能力を制限する。
本稿では,多変量および時間認識型ハイパーステートを構築するMambaベースの革新的なモデルであるTimeProを提案する。
論文 参考訳(メタデータ) (2025-05-27T06:24:21Z) - LLM-PS: Empowering Large Language Models for Time Series Forecasting with Temporal Patterns and Semantics [56.99021951927683]
Time Series Forecasting (TSF) は、金融計画や健康モニタリングなど、多くの現実世界のドメインにおいて重要である。
既存のLarge Language Models (LLM) は通常、時系列データ固有の特性を無視するため、非最適に実行する。
時系列データから基本的なtextitPatterns と有意義な textitSemantics を学習し,TLF のための LLM-PS を提案する。
論文 参考訳(メタデータ) (2025-03-12T11:45:11Z) - S2TX: Cross-Attention Multi-Scale State-Space Transformer for Time Series Forecasting [31.19126944008011]
時系列予測は, 長距離パターンと短距離パターンの不均一性に対処するマルチスケールモデルにおいて, 最近大きな進歩を遂げている。
これらの問題に対処するため、クロスアテンション(S2TX)を備えた状態空間変換器を提案する。
S2TXは、メモリフットプリントを低く保ちながら、非常に堅牢なSOTA結果を達成することができる。
論文 参考訳(メタデータ) (2025-02-17T01:40:45Z) - UmambaTSF: A U-shaped Multi-Scale Long-Term Time Series Forecasting Method Using Mamba [7.594115034632109]
本稿では,新しい時系列予測フレームワークであるUmambaTSFを提案する。
U字型エンコーダ・デコーダ多層パーセプトロン(MLP)のマルチスケール特徴抽出機能とMambaのロングシーケンス表現を統合する。
UmambaTSFは、広く使用されているベンチマークデータセットで最先端のパフォーマンスと優れた汎用性を達成する。
論文 参考訳(メタデータ) (2024-10-15T04:56:43Z) - Moirai-MoE: Empowering Time Series Foundation Models with Sparse Mixture of Experts [103.725112190618]
本稿では,単一入出力プロジェクション層を用いたMoirai-MoEを紹介するとともに,多種多様な時系列パターンのモデリングを専門家の疎結合に委ねる。
39のデータセットに対する大規模な実験は、既存の基盤モデルよりも、分配シナリオとゼロショットシナリオの両方において、Moirai-MoEの優位性を実証している。
論文 参考訳(メタデータ) (2024-10-14T13:01:11Z) - Timer-XL: Long-Context Transformers for Unified Time Series Forecasting [67.83502953961505]
我々は時系列の統一予測のための生成変換器Timer-XLを提案する。
Timer-XLは、統一されたアプローチにより、挑戦的な予測ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-10-07T07:27:39Z) - Oscillatory State-Space Models [61.923849241099184]
長いシーケンスを効率的に学習するための線形状態空間モデル(LinOSS)を提案する。
高速な連想並列スキャンを用いて時間とともに統合された安定な離散化により、提案した状態空間モデルが得られる。
我々はLinOSSが普遍であること、すなわち時間変化関数間の連続および因果作用素写像を近似できることを示す。
論文 参考訳(メタデータ) (2024-10-04T22:00:13Z) - MixLinear: Extreme Low Resource Multivariate Time Series Forecasting with 0.1K Parameters [6.733646592789575]
時系列予測(LTSF)は、パターンや傾向を特定するために、大量の時系列データを分析することによって、長期的な価値を予測する。
トランスフォーマーベースのモデルは高い予測精度を提供するが、ハードウェア制約のあるデバイスにデプロイするには計算集約的すぎることが多い。
資源制約のあるデバイスに特化して設計された超軽量時系列予測モデルであるMixLinearを提案する。
論文 参考訳(メタデータ) (2024-10-02T23:04:57Z) - Integration of Mamba and Transformer -- MAT for Long-Short Range Time Series Forecasting with Application to Weather Dynamics [7.745945701278489]
長い時間範囲の時系列予測は、長期にわたる将来の傾向やパターンを予測するのに不可欠である。
Transformersのようなディープラーニングモデルは、時系列予測の進歩に大きく貢献している。
本稿では,MambaモデルとTransformerモデルの長所と短所について検討する。
論文 参考訳(メタデータ) (2024-09-13T04:23:54Z) - Bidirectional Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。
SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。
以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-08-21T09:12:59Z) - TSCMamba: Mamba Meets Multi-View Learning for Time Series Classification [13.110156202816112]
シフト等分散のような特性を持つパターンを捉えるための新しい多視点手法を提案する。
提案手法は, スペクトル, 時間, 局所, グローバルな特徴を含む多様な特徴を統合して, TSCのリッチで相補的な文脈を得る。
提案手法では,TSCモデルよりも平均精度が4.01-6.45%,7.93%向上した。
論文 参考訳(メタデータ) (2024-06-06T18:05:10Z) - MambaTS: Improved Selective State Space Models for Long-term Time Series Forecasting [12.08746904573603]
選択状態空間モデル(SSM)に基づくMambaは、Transformerの競合相手として登場した。
我々は4つの改善点を提案し、MambaTSに導いた。
8つの公開データセットで実施された実験は、MambaTSが新しい最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2024-05-26T05:50:17Z) - TimeMachine: A Time Series is Worth 4 Mambas for Long-term Forecasting [13.110156202816112]
TimeMachineは時系列データのユニークな特性を利用して、マルチスケールで適切なコンテキストキューを生成する。
TimeMachineは、ベンチマークデータセットを使用して広範囲に検証されるように、予測精度、スケーラビリティ、メモリ効率において優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-03-14T22:19:37Z) - Unified Training of Universal Time Series Forecasting Transformers [104.56318980466742]
マスク型ユニバーサル時系列予測変換器(モイライ)について述べる。
Moiraiは、新たに導入された大規模オープンタイムシリーズアーカイブ(LOTSA)で訓練されており、9つのドメインで27億以上の観測が行われた。
Moiraiは、フルショットモデルと比較してゼロショットの予測器として、競争力や優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-02-04T20:00:45Z) - Timer: Generative Pre-trained Transformers Are Large Time Series Models [83.03091523806668]
本稿では,大規模時系列モデル(LTSM)の早期開発を目的とした。
事前トレーニング中に、最大10億のタイムポイントを持つ大規模なデータセットをキュレートします。
多様なアプリケーションのニーズを満たすため,予測,計算,時系列の異常検出を統一的な生成タスクに変換する。
論文 参考訳(メタデータ) (2024-02-04T06:55:55Z) - Grouped self-attention mechanism for a memory-efficient Transformer [64.0125322353281]
天気予報、電力消費、株式市場などの現実世界のタスクには、時間とともに変化するデータの予測が含まれる。
時系列データは通常、その周期的特性と時間的長期依存性のために、長いシーケンスで長い観察期間にわたって記録される。
我々はGSA(Grouped Self-Attention)とCCA(Compressed Cross-Attention)の2つの新しいモジュールを提案する。
提案モデルでは,既存の手法に匹敵する計算量と性能の低減が効果的に示された。
論文 参考訳(メタデータ) (2022-10-02T06:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。