Fugu-MT 論文翻訳(概要): TSMixer: Lightweight MLP-Mixer Model for Multivariate Time Series Forecasting

論文の概要: TSMixer: Lightweight MLP-Mixer Model for Multivariate Time Series Forecasting

arxiv url: http://arxiv.org/abs/2306.09364v4
Date: Mon, 11 Dec 2023 15:46:13 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-12 22:45:20.067432
Title: TSMixer: Lightweight MLP-Mixer Model for Multivariate Time Series Forecasting
Title（参考訳）: TSMixer:多変量時系列予測のための軽量MLPミクサモデル
Authors: Vijay Ekambaram, Arindam Jati, Nam Nguyen, Phanwadee Sinthong, Jayant Kalagnanam
Abstract要約: トランスフォーマーは、時系列の相互作用をキャプチャする能力のために時系列予測で人気を博している。高メモリとコンピューティングの要求は、長期予測にとって重要なボトルネックとなる。マルチ層パーセプトロン(MLP)モジュールからなる軽量ニューラルネットワークTSMixerを提案する。
参考スコア（独自算出の注目度）: 13.410217680999459
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Transformers have gained popularity in time series forecasting for their ability to capture long-sequence interactions. However, their high memory and computing requirements pose a critical bottleneck for long-term forecasting. To address this, we propose TSMixer, a lightweight neural architecture exclusively composed of multi-layer perceptron (MLP) modules for multivariate forecasting and representation learning on patched time series. Inspired by MLP-Mixer's success in computer vision, we adapt it for time series, addressing challenges and introducing validated components for enhanced accuracy. This includes a novel design paradigm of attaching online reconciliation heads to the MLP-Mixer backbone, for explicitly modeling the time-series properties such as hierarchy and channel-correlations. We also propose a novel Hybrid channel modeling and infusion of a simple gating approach to effectively handle noisy channel interactions and generalization across diverse datasets. By incorporating these lightweight components, we significantly enhance the learning capability of simple MLP structures, outperforming complex Transformer models with minimal computing usage. Moreover, TSMixer's modular design enables compatibility with both supervised and masked self-supervised learning methods, making it a promising building block for time-series Foundation Models. TSMixer outperforms state-of-the-art MLP and Transformer models in forecasting by a considerable margin of 8-60%. It also outperforms the latest strong benchmarks of Patch-Transformer models (by 1-2%) with a significant reduction in memory and runtime (2-3X). The source code of our model is officially released as PatchTSMixer in the HuggingFace. Model: https://huggingface.co/docs/transformers/main/en/model_doc/patchtsmixer Examples: https://github.com/ibm/tsfm/#notebooks-links
Abstract（参考訳）: トランスフォーマーは時系列予測において、長い列の相互作用を捉える能力で人気を集めている。しかし、その高いメモリとコンピューティング要件は長期的な予測に重大なボトルネックをもたらす。そこで本研究では,マルチ変数予測とパッチ付き時系列上での表現学習のためのマルチ層パーセプトロン(MLP)モジュールからなる軽量ニューラルネットワークTSMixerを提案する。コンピュータビジョンにおけるmlp-mixerの成功に触発され、時系列に適応し、課題に対処し、精度を高めるために検証済みコンポーネントを導入する。これは、階層構造やチャネル相関などの時系列特性を明示的にモデル化するための、MLP-Mixerバックボーンにオンライン和解ヘッドを付加する新しい設計パラダイムを含む。また,多様なデータセット間のノイズの多いチャネル相互作用と一般化を効果的に扱うための,単純なゲーティング手法の新たなハイブリッドチャネルモデリングと注入を提案する。これらの軽量なコンポーネントを組み込むことで、単純なmlp構造の学習能力を大幅に向上させ、最小の計算使用量で複雑なトランスフォーマーモデルを上回る。さらに、TSMixerのモジュール設計により、教師付きとマスク付きの両方の自己教師付き学習手法との互換性が実現され、時系列基礎モデルのための有望なビルディングブロックとなる。 TSMixer は最先端の MLP と Transformer のモデルよりも 8-60% の差で予測できる。また、Patch-Transformerモデルの最新の強力なベンチマーク(1～2%)を上回り、メモリとランタイム(2～3倍)を大幅に削減した。私たちのモデルのソースコードは、HuggingFaceのPatchTSMixerとして公式にリリースされています。 Model: https://huggingface.co/docs/transformers/main/en/model_doc/patchtsmixer例: https://github.com/ibm/tsfm/#notebooks-links

関連論文リスト

WPMixer: Efficient Multi-Resolution Mixing for Long-Term Time Series Forecasting [20.29110166475336]
時系列予測のための新しい多分解能ウェーブレット分解モデルであるWavelet Patch Patch Mixer (WPMixer)を提案する。本モデルでは,長期連続予測のための最先端モデルと変圧器モデルとを比較検討した。
論文参考訳（メタデータ） (2024-12-22T22:08:16Z)
The Mamba in the Llama: Distilling and Accelerating Hybrid Models [76.64055251296548]
注目層からの線形射影重みを学術的なGPU資源で再利用することにより,大規模な変換器を線形RNNに蒸留することが可能であることを示す。その結果、注意層を4分の1含むハイブリッドモデルは、チャットベンチマークのオリジナルのTransformerに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-08-27T17:56:11Z)
Transformers to SSMs: Distilling Quadratic Knowledge to Subquadratic Models [92.36510016591782]
本稿では,事前学習したトランスフォーマーアーキテクチャを,状態空間モデル(SSM)などの代替アーキテクチャに蒸留する手法を提案する。提案手法はMOHAWKと呼ばれ、3Bトークンと5Bトークンを用いたハイブリッドバージョン(Hybrid Phi-Mamba)を用いてPhi-1.5アーキテクチャに基づくMamba-2変異体を蒸留することができる。 Phi-Mambaは、スクラッチからモデルのトレーニングに使用されるトレーニングデータの1%未満を使用してはいるが、過去のオープンソース非トランスフォーマーモデルと比較して、大幅にパフォーマンスが向上している。
論文参考訳（メタデータ） (2024-08-19T17:48:11Z)
Hierarchical Associative Memory, Parallelized MLP-Mixer, and Symmetry Breaking [6.9366619419210656]
トランスフォーマーは、自然言語処理における主要なニューラルネットワークモデルとして、自らを確立している。最近の研究は、MetaFormersで説明されているようなアテンションモジュールを他のメカニズムに置き換えることを検討している。本稿では,Krotovの階層型連想メモリとMetaFormersを統合し,Transformerブロックの包括的表現を可能にする。
論文参考訳（メタデータ） (2024-06-18T02:42:19Z)
SCHEME: Scalable Channel Mixer for Vision Transformers [52.605868919281086]
ビジョントランスフォーマーは多くの視覚タスクにおいて印象的なパフォーマンスを達成した。チャネルミキサーや機能ミキシングブロック(FFNか)の研究は、はるかに少ない。密度の高い接続は、より大きな膨張比をサポートする対角線ブロック構造に置き換えることができることを示す。
論文参考訳（メタデータ） (2023-12-01T08:22:34Z)
MatFormer: Nested Transformer for Elastic Inference [94.1789252941718]
MatFormerは、様々なデプロイメント制約で弾力性を提供するように設計されたネストトランスフォーマーアーキテクチャである。 2.6BデコーダのみのMatFormer言語モデル(MatLM)は1.5Bから2.6Bまでの小さなモデルを抽出できることを示す。また,MatFormerベースのViT(MatViT)エンコーダから抽出した小さなエンコーダは,適応的な大規模検索のための距離空間構造を保持する。
論文参考訳（メタデータ） (2023-10-11T17:57:14Z)
iMixer: hierarchical Hopfield network implies an invertible, implicit and iterative MLP-Mixer [2.5782420501870296]
ホップフィールドネットワークとトランスフォーマーのようなアーキテクチャの研究をiMixerに一般化する。 iMixerは、出力側から入力側へ前進する一般化である。画像分類タスクにおいて,様々なデータセットを用いてモデル性能を評価する。この結果は、ホップフィールドネットワークとミキサーモデルとの対応が、トランスフォーマーのようなアーキテクチャ設計のより広範なクラスを理解するための原則であることを示している。
論文参考訳（メタデータ） (2023-04-25T18:00:08Z)
HyperMixer: An MLP-based Low Cost Alternative to Transformers [12.785548869229052]
本稿では,ハイパーネットを用いたトークン混合を動的に生成する,シンプルな変種HyperMixerを提案する。 Transformersとは対照的に、HyperMixerは処理時間、トレーニングデータ、ハイパーチューニングといった面で、これらの結果を大幅に低コストで達成します。
論文参考訳（メタデータ） (2022-03-07T20:23:46Z)
A Battle of Network Structures: An Empirical Study of CNN, Transformer, and MLP [121.35904748477421]
畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンのための支配的なディープニューラルネットワーク(DNN)アーキテクチャである。トランスフォーマーとマルチ層パーセプトロン(MLP)ベースのモデル(Vision TransformerやVision-Mixer)が新しいトレンドを導い始めた。本稿では,これらのDNN構造について実証的研究を行い,それぞれの長所と短所を理解しようとする。
論文参考訳（メタデータ） (2021-08-30T06:09:02Z)
MLP-Mixer: An all-MLP Architecture for Vision [93.16118698071993]
マルチ層パーセプトロン(MLP)を基盤としたアーキテクチャ「Mixer」を発表。 Mixerはイメージ分類ベンチマークで競合スコアを獲得し、事前トレーニングと推論は最先端のモデルに匹敵する。
論文参考訳（メタデータ） (2021-05-04T16:17:21Z)
Wake Word Detection with Streaming Transformers [72.66551640048405]
提案したトランスフォーマーモデルでは,同じ偽アラームレートで,平均25%の誤り拒否率でベースライン畳み込みネットワークを性能的に上回ることを示す。 Mobvoiのウェイクワードデータセットに関する実験により,提案したTransformerモデルはベースライン畳み込みネットワークを25%上回る性能を示した。
論文参考訳（メタデータ） (2021-02-08T19:14:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。