論文の概要: Tiny Time Mixers (TTMs): Fast Pre-trained Models for Enhanced Zero/Few-Shot Forecasting of Multivariate Time Series
- arxiv url: http://arxiv.org/abs/2401.03955v4
- Date: Sat, 6 Apr 2024 17:16:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 01:36:21.560477
- Title: Tiny Time Mixers (TTMs): Fast Pre-trained Models for Enhanced Zero/Few-Shot Forecasting of Multivariate Time Series
- Title(参考訳): Tiny Time Mixers (TTMs):多変量時系列のZero/Few-Shot予測のための高速事前学習モデル
- Authors: Vijay Ekambaram, Arindam Jati, Nam H. Nguyen, Pankaj Dayama, Chandra Reddy, Wesley M. Gifford, Jayant Kalagnanam,
- Abstract要約: 本稿では,軽量なTSMixerアーキテクチャに基づく,非常に小さなモデルであるTiny Time Mixers(TTM)を紹介する。
時間分解能の異なる複数のデータセットに対する事前学習の複雑さに対処するために,いくつかの新しい拡張を導入する。
TTMは、少数/ゼロショットの予測において、人気のあるベンチマークよりも大きな精度向上(12-38%)を示している。
- 参考スコア(独自算出の注目度): 11.136300104263599
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large pre-trained models for zero/few-shot learning excel in language and vision domains but encounter challenges in multivariate time series (TS) due to the diverse nature and scarcity of publicly available pre-training data. Consequently, there has been a recent surge in utilizing pre-trained large language models (LLMs) with token adaptations for TS forecasting. These approaches employ cross-domain transfer learning and surprisingly yield impressive results. However, these models are typically very slow and large (~billion parameters) and do not consider cross-channel correlations. To address this, we present Tiny Time Mixers (TTM), a significantly small model based on the lightweight TSMixer architecture. TTM marks the first success in developing fast and tiny general pre-trained models (<1M parameters), exclusively trained on public TS datasets, with effective transfer learning capabilities for forecasting. To tackle the complexity of pre-training on multiple datasets with varied temporal resolutions, we introduce several novel enhancements such as adaptive patching, dataset augmentation via downsampling, and resolution prefix tuning. Moreover, we employ a multi-level modeling strategy to effectively model channel correlations and infuse exogenous signals during fine-tuning, a crucial capability lacking in existing benchmarks. TTM shows significant accuracy gains (12-38\%) over popular benchmarks in few/zero-shot forecasting. It also drastically reduces the compute needs as compared to LLM-TS methods, with a 14X cut in learnable parameters, 106X less total parameters, and substantial reductions in fine-tuning (65X) and inference time (54X). In fact, TTM's zero-shot often surpasses the few-shot results in many popular benchmarks, highlighting the efficacy of our approach. Code and pre-trained models will be open-sourced.
- Abstract(参考訳): ゼロ/フェーショット学習のための大規模な事前学習モデルは、言語や視覚領域において優れているが、多変量時系列(TS)において、公開されている事前学習データの多様性と不足により、課題に直面している。
その結果、TS予測のためのトークン適応による事前訓練済みの大規模言語モデル(LLM)の利用が近年急増している。
これらのアプローチはクロスドメイン転送学習を採用しており、驚くべき結果をもたらす。
しかしながら、これらのモデルは典型的には非常に遅く、大きい(−ビリオンパラメータ)ため、チャネル間の相関を考慮しない。
これを解決するために,軽量なTSMixerアーキテクチャに基づく,はるかに小さなモデルであるTiny Time Mixers (TTM)を提案する。
TTMは、パブリックTSデータセットにのみトレーニングされた高速で小さな一般トレーニング済みモデル(<1Mパラメータ)を開発し、予測に効果的な転送学習機能を備えた最初の成功である。
時間分解能の異なる複数のデータセットに対する事前トレーニングの複雑さに対処するために、適応パッチ、ダウンサンプリングによるデータセット拡張、解像度プレフィックスチューニングなど、いくつかの新しい拡張を導入する。
さらに,チャネル相関を効果的にモデル化し,既存のベンチマークに欠落する重要な機能である微調整時に外因性シグナルを注入するためのマルチレベルモデリング手法を用いる。
TTMは、少数/ゼロショットの予測において、人気のあるベンチマークよりも大幅に精度が向上している(12-38\%)。
また、LLM-TS法と比較して、学習可能なパラメータが14倍、総パラメータが106倍、微調整(65倍)と推論時間(54倍)が大幅に削減された。
実際、TTMのゼロショットは、多くの人気のあるベンチマークにおいて、数ショットの結果を上回ることが多く、我々のアプローチの有効性を強調している。
コードと事前訓練されたモデルはオープンソースになる。
関連論文リスト
- SparseTSF: Modeling Long-term Time Series Forecasting with 1k Parameters [16.966008476215258]
本稿では,長期時系列予測(LTSF)のための新しい,極めて軽量なモデルであるSparseTSFを紹介する。
SparseTSFの中心にはCross-Period Sparse Forecasting技術があり、時系列データの周期性と傾向を分離することで予測タスクを単純化する。
SparseTSFは目覚ましい一般化機能を示しており、限られた計算資源、小さなサンプル、低品質のデータを扱うシナリオに適している。
論文 参考訳(メタデータ) (2024-05-02T02:15:23Z) - T-Stitch: Accelerating Sampling in Pre-Trained Diffusion Models with
Trajectory Stitching [143.72720563387082]
Trajectory Stitching T-Stitchは, ほとんどあるいは全く発生しないことなくサンプリング効率を向上させるための, 単純かつ効率的な手法である。
我々の重要な洞察は、異なる拡散モデルが同じトレーニングデータ分布の下で同様のエンコーディングを学ぶことである。
また,本手法は,SDモデルの高速化を目的としたドロップイン手法としても利用できる。
論文 参考訳(メタデータ) (2024-02-21T23:08:54Z) - Timer: Transformers for Time Series Analysis at Scale [87.9808714449511]
本稿では,大規模時系列モデル(LTSM)の早期開発を目的とした。
事前トレーニング中に、最大10億のタイムポイントを持つ大規模なデータセットをキュレートします。
多様なアプリケーションのニーズを満たすため,予測,計算,時系列の異常検出を統一的な生成タスクに変換する。
論文 参考訳(メタデータ) (2024-02-04T06:55:55Z) - The Bigger the Better? Rethinking the Effective Model Scale in Long-term
Time Series Forecasting [57.00348861248051]
時系列予測は時系列分析において重要なフロンティアである。
階層的な分解で拡張された軽量トランスフォーマーであるHDformerを紹介する。
HDformerは既存のLTSFモデルよりも優れており、パラメータは99%以上少ない。
論文 参考訳(メタデータ) (2024-01-22T13:15:40Z) - Towards Flexible Time-to-event Modeling: Optimizing Neural Networks via
Rank Regression [17.684526928033065]
我々はDART(Time-to-event Prediction)のためのDeep AFT Rank-regressionモデルを導入する。
このモデルは、表現学習において効率的で信頼性の高いゲハンのランク統計に基づく客観的関数を用いる。
提案手法は, 生存時間分布に分布仮定を課さない半パラメトリックなAFTモデリング手法である。
論文 参考訳(メタデータ) (2023-07-16T13:58:28Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - Pre-training Enhanced Spatial-temporal Graph Neural Network for
Multivariate Time Series Forecasting [13.441945545904504]
スケーラブルな時系列事前学習モデル(STEP)によりSTGNNが拡張される新しいフレームワークを提案する。
具体的には、非常に長期の歴史時系列から時間パターンを効率的に学習するための事前学習モデルを設計する。
我々のフレームワークは下流のSTGNNを著しく強化することができ、事前学習モデルは時間パターンを適切にキャプチャする。
論文 参考訳(メタデータ) (2022-06-18T04:24:36Z) - METRO: Efficient Denoising Pretraining of Large Scale Autoencoding
Language Models with Model Generated Signals [151.3601429216877]
本稿では,補助モデルにより生成された学習信号を用いて,大規模自動符号化言語モデルの事前学習を行う。
我々は「モデル生成dEnoising TRaining Objective」(METRO)というレシピを提案する。
結果、最大54億のパラメータからなるMETRO-LMは、GLUE、SuperGLUE、SQuADベンチマークで新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-04-13T21:39:15Z) - Neural forecasting at scale [8.245069318446415]
本研究では,大規模な時系列集合上での時系列予測のために,アンサンブルに基づくディープニューラルネットワークを効率的にスケーリングする問題について検討する。
我々のモデルは、関連するモデルの実用的限界に対処し、トレーニング時間を半減し、メモリ要件を5。
論文 参考訳(メタデータ) (2021-09-20T17:22:40Z) - Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。
これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。
この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-21T05:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。