論文の概要: TSMixer: Lightweight MLP-Mixer Model for Multivariate Time Series
Forecasting
- arxiv url: http://arxiv.org/abs/2306.09364v3
- Date: Wed, 28 Jun 2023 01:57:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-29 11:30:07.144922
- Title: TSMixer: Lightweight MLP-Mixer Model for Multivariate Time Series
Forecasting
- Title(参考訳): TSMixer:多変量時系列予測のための軽量MLPミクサモデル
- Authors: Vijay Ekambaram, Arindam Jati, Nam Nguyen, Phanwadee Sinthong, Jayant
Kalagnanam
- Abstract要約: TSMixerは、多層パーセプトロン(MLP)モジュールからなる軽量ニューラルネットワークである。
我々のモデルはコンピュータビジョンにおけるパッチ付きミクサーモデルの成功からインスピレーションを得ている。
TSMixerは最先端のモデルとトランスフォーマーのモデルよりもかなりのマージンで優れている。
- 参考スコア(独自算出の注目度): 11.618694738633287
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Transformers have gained popularity in time series forecasting for their
ability to capture long-sequence interactions. However, their high memory and
computing requirements pose a critical bottleneck for long-term forecasting. To
address this, we propose TSMixer, a lightweight neural architecture exclusively
composed of multi-layer perceptron (MLP) modules. TSMixer is designed for
multivariate forecasting and representation learning on patched time series,
providing an efficient alternative to Transformers. Our model draws inspiration
from the success of MLP-Mixer models in computer vision. We demonstrate the
challenges involved in adapting Vision MLP-Mixer for time series and introduce
empirically validated components to enhance accuracy. This includes a novel
design paradigm of attaching online reconciliation heads to the MLP-Mixer
backbone, for explicitly modeling the time-series properties such as hierarchy
and channel-correlations. We also propose a Hybrid channel modeling approach to
effectively handle noisy channel interactions and generalization across diverse
datasets, a common challenge in existing patch channel-mixing methods.
Additionally, a simple gated attention mechanism is introduced in the backbone
to prioritize important features. By incorporating these lightweight
components, we significantly enhance the learning capability of simple MLP
structures, outperforming complex Transformer models with minimal computing
usage. Moreover, TSMixer's modular design enables compatibility with both
supervised and masked self-supervised learning methods, making it a promising
building block for time-series Foundation Models. TSMixer outperforms
state-of-the-art MLP and Transformer models in forecasting by a considerable
margin of 8-60%. It also outperforms the latest strong benchmarks of
Patch-Transformer models (by 1-2%) with a significant reduction in memory and
runtime (2-3X).
- Abstract(参考訳): トランスフォーマーは時系列予測において、長い列の相互作用を捉える能力で人気を集めている。
しかし、その高いメモリとコンピューティング要件は長期的な予測に重大なボトルネックをもたらす。
そこで本研究では,多層パーセプトロン(MLP)モジュールのみからなる軽量ニューラルネットワークTSMixerを提案する。
tsmixerはパッチ付き時系列の多変量予測と表現学習のために設計されており、トランスフォーマーの効率的な代替手段を提供する。
我々のモデルはコンピュータビジョンにおけるMLP-Mixerモデルの成功からインスピレーションを得ている。
時系列にVision MLP-Mixerを適用する際の課題を示し、精度を高めるために経験的検証されたコンポーネントを導入する。
これは、階層構造やチャネル相関などの時系列特性を明示的にモデル化するための、MLP-Mixerバックボーンにオンライン和解ヘッドを付加する新しい設計パラダイムを含む。
また,既存のパッチチャネル混合方式では一般的な課題である,多種多様なデータセット間のノイズチャネルインタラクションと一般化を効果的に処理するためのハイブリッドチャネルモデリング手法を提案する。
さらに、重要な特徴を優先するために、バックボーンに単純なゲートアテンション機構が導入される。
これらの軽量なコンポーネントを組み込むことで、単純なmlp構造の学習能力を大幅に向上させ、最小の計算使用量で複雑なトランスフォーマーモデルを上回る。
さらに、TSMixerのモジュール設計により、教師付きとマスク付きの両方の自己教師付き学習手法との互換性が実現され、時系列基礎モデルのための有望なビルディングブロックとなる。
TSMixer は最先端の MLP と Transformer のモデルよりも 8-60% の差で予測できる。
また、Patch-Transformerモデルの最新の強力なベンチマーク(1~2%)を上回り、メモリとランタイム(2~3倍)を大幅に削減した。
関連論文リスト
- SCHEME: Scalable Channer Mixer for Vision Transformers [52.605868919281086]
視覚変換器は多くの視覚タスクにおける印象的な性能のために大きな注目を集めている。
特徴混合が高密度接続に取って代わり,これをブロック対角構造で確認できるかどうかを検討した。
SCHEMEformerの新しいモデル群は、FLOPS、精度、モデルサイズ、精度、スループットの新たなフロンティアを確立する。
論文 参考訳(メタデータ) (2023-12-01T08:22:34Z) - MatFormer: Nested Transformer for Elastic Inference [94.1789252941718]
MatFormerは、様々なデプロイメント制約で弾力性を提供するように設計されたネストトランスフォーマーアーキテクチャである。
2.6BデコーダのみのMatFormer言語モデル(MatLM)は1.5Bから2.6Bまでの小さなモデルを抽出できることを示す。
また,MatFormerベースのViT(MatViT)エンコーダから抽出した小さなエンコーダは,適応的な大規模検索のための距離空間構造を保持する。
論文 参考訳(メタデータ) (2023-10-11T17:57:14Z) - iMixer: hierarchical Hopfield network implies an invertible, implicit and iterative MLP-Mixer [2.5782420501870296]
ホップフィールドネットワークとトランスフォーマーのようなアーキテクチャの研究をiMixerに一般化する。
iMixerは、出力側から入力側へ前進する一般化である。
画像分類タスクにおいて,様々なデータセットを用いてモデル性能を評価する。
この結果は、ホップフィールドネットワークとミキサーモデルとの対応が、トランスフォーマーのようなアーキテクチャ設計のより広範なクラスを理解するための原則であることを示している。
論文 参考訳(メタデータ) (2023-04-25T18:00:08Z) - HyperMixer: An MLP-based Low Cost Alternative to Transformers [12.785548869229052]
本稿では,ハイパーネットを用いたトークン混合を動的に生成する,シンプルな変種HyperMixerを提案する。
Transformersとは対照的に、HyperMixerは処理時間、トレーニングデータ、ハイパーチューニングといった面で、これらの結果を大幅に低コストで達成します。
論文 参考訳(メタデータ) (2022-03-07T20:23:46Z) - pNLP-Mixer: an Efficient all-MLP Architecture for Language [10.634940525287014]
オンデバイスNLPのためのpNLP-Mixerモデルは、新しいプロジェクション層により高い重量効率を実現する。
MTOPとMultiATISの2つの多言語意味解析データセットに対して,pNLP-Mixerモデルの評価を行った。
私たちのモデルは、MTOPで最大7.8%のマージンで、2倍の大きさの小さなモデルの最先端を一貫して打ち負かしています。
論文 参考訳(メタデータ) (2022-02-09T09:01:29Z) - DynaMixer: A Vision MLP Architecture with Dynamic Mixing [38.23027495545522]
本稿では,動的情報融合を利用したDynaMixerという,効率的なタスクライクなネットワークアーキテクチャを提案する。
本稿では,DynaMixerモデルを用いて,混合するトークンの内容を動的に生成する手法を提案する。
提案したDynaMixerモデル(97Mパラメータ)は、ImageNet-1K上で84.3%のトップ-1精度を実現し、最先端のビジョンモデルに対して好適に機能する。
論文 参考訳(メタデータ) (2022-01-28T12:43:14Z) - Merlion: A Machine Learning Library for Time Series [73.46386700728577]
Merlionは時系列のためのオープンソースの機械学習ライブラリである。
モデルの統一インターフェースと、異常検出と予測のためのデータセットを備えている。
Merlionはまた、本番環境でのモデルのライブデプロイメントと再トレーニングをシミュレートするユニークな評価フレームワークも提供する。
論文 参考訳(メタデータ) (2021-09-20T02:03:43Z) - A Battle of Network Structures: An Empirical Study of CNN, Transformer,
and MLP [121.35904748477421]
畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンのための支配的なディープニューラルネットワーク(DNN)アーキテクチャである。
トランスフォーマーとマルチ層パーセプトロン(MLP)ベースのモデル(Vision TransformerやVision-Mixer)が新しいトレンドを導い始めた。
本稿では,これらのDNN構造について実証的研究を行い,それぞれの長所と短所を理解しようとする。
論文 参考訳(メタデータ) (2021-08-30T06:09:02Z) - MLP-Mixer: An all-MLP Architecture for Vision [93.16118698071993]
マルチ層パーセプトロン(MLP)を基盤としたアーキテクチャ「Mixer」を発表。
Mixerはイメージ分類ベンチマークで競合スコアを獲得し、事前トレーニングと推論は最先端のモデルに匹敵する。
論文 参考訳(メタデータ) (2021-05-04T16:17:21Z) - Wake Word Detection with Streaming Transformers [72.66551640048405]
提案したトランスフォーマーモデルでは,同じ偽アラームレートで,平均25%の誤り拒否率でベースライン畳み込みネットワークを性能的に上回ることを示す。
Mobvoiのウェイクワードデータセットに関する実験により,提案したTransformerモデルはベースライン畳み込みネットワークを25%上回る性能を示した。
論文 参考訳(メタデータ) (2021-02-08T19:14:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。