論文の概要: Tiny Time Mixers (TTMs): Fast Pre-trained Models for Enhanced Zero/Few-Shot Forecasting of Multivariate Time Series
- arxiv url: http://arxiv.org/abs/2401.03955v8
- Date: Thu, 07 Nov 2024 15:07:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-09 00:49:11.540899
- Title: Tiny Time Mixers (TTMs): Fast Pre-trained Models for Enhanced Zero/Few-Shot Forecasting of Multivariate Time Series
- Title(参考訳): Tiny Time Mixers (TTMs):多変量時系列のZero/Few-Shot予測のための高速事前学習モデル
- Authors: Vijay Ekambaram, Arindam Jati, Pankaj Dayama, Sumanta Mukherjee, Nam H. Nguyen, Wesley M. Gifford, Chandra Reddy, Jayant Kalagnanam,
- Abstract要約: 本稿では,効率的な転送学習機能を備えたコンパクトモデルであるTiny Time Mixers (TTM)について紹介する。
TTMには、適応パッチ、多様な解像度サンプリング、およびさまざまなデータセット解像度の事前トレーニングを処理するための解像度プレフィックスチューニングなどのイノベーションが含まれている。
既存のベンチマークでは0/few-shot予測(4-40%)を上回り、計算要求を大幅に削減した。
- 参考スコア(独自算出の注目度): 11.635608108358575
- License:
- Abstract: Large pre-trained models excel in zero/few-shot learning for language and vision tasks but face challenges in multivariate time series (TS) forecasting due to diverse data characteristics. Consequently, recent research efforts have focused on developing pre-trained TS forecasting models. These models, whether built from scratch or adapted from large language models (LLMs), excel in zero/few-shot forecasting tasks. However, they are limited by slow performance, high computational demands, and neglect of cross-channel and exogenous correlations. To address this, we introduce Tiny Time Mixers (TTM), a compact model (starting from 1M parameters) with effective transfer learning capabilities, trained exclusively on public TS datasets. TTM, based on the light-weight TSMixer architecture, incorporates innovations like adaptive patching, diverse resolution sampling, and resolution prefix tuning to handle pre-training on varied dataset resolutions with minimal model capacity. Additionally, it employs multi-level modeling to capture channel correlations and infuse exogenous signals during fine-tuning. TTM outperforms existing popular benchmarks in zero/few-shot forecasting by (4-40%), while reducing computational requirements significantly. Moreover, TTMs are lightweight and can be executed even on CPU-only machines, enhancing usability and fostering wider adoption in resource-constrained environments. The model weights for reproducibility and research use are available at https://huggingface.co/ibm/ttm-research-r2/, while enterprise-use weights under the Apache license can be accessed as follows: the initial TTM-Q variant at https://huggingface.co/ibm-granite/granite-timeseries-ttm-r1, and the latest variants (TTM-B, TTM-E, TTM-A) weights are available at https://huggingface.co/ibm-granite/granite-timeseries-ttm-r2.
- Abstract(参考訳): 大規模事前学習モデルは、言語や視覚タスクのゼロ/ファウショット学習に優れるが、多変量時系列(TS)予測では多様なデータ特性のために課題に直面している。
その結果、最近の研究は、事前訓練されたTS予測モデルの開発に重点を置いている。
これらのモデルは、スクラッチから構築されたり、大きな言語モデル(LLM)から適応されたりして、ゼロ/フェーショット予測タスクで優れています。
しかし、性能の遅さ、高い計算要求、チャネル間および外因性相関の無視によって制限されている。
そこで本研究では,Tyny Time Mixers(TTM)について紹介する。Tyny Time Mixers(TTM)は1Mパラメータから始まるコンパクトモデルで,効率的な転送学習機能を備えている。
TTMは軽量なTSMixerアーキテクチャをベースとして、適応パッチ、多様な解像度サンプリング、解像度プレフィックスチューニングといった革新を取り入れて、モデルキャパシティを最小限にしたさまざまなデータセット解像度の事前トレーニングを処理する。
さらに、マルチレベルモデリングを用いて、チャネル相関を捕捉し、微調整中に外因性信号を注入する。
TTMは、ゼロ/フェーショット予測(4-40%)で既存のベンチマークより優れており、計算要求を大幅に削減している。
さらに、TTMは軽量で、CPUのみのマシンでも実行できる。
再現性と研究使用のためのモデルウェイトは https://huggingface.co/ibm/ttm-research-r2/ で利用可能であるが、Apacheライセンス下でのエンタープライズユースウェイトは https://huggingface.co/ibm-granite/granite-timeseries-ttm-r1 で最初の TTM-Q 変種と最新の変種 (TTM-B, TTM-E, TTM-A) 変種は https://huggingface.co/ibm-granite/granite-timeseries-tm-r2 で利用可能である。
関連論文リスト
- A Mamba Foundation Model for Time Series Forecasting [13.593170999506889]
本稿では,マンバアーキテクチャ上に構築された時系列予測のための線形複雑基盤モデルであるTSMambaを紹介する。
このモデルは、前方および後方のMambaエンコーダを通して時間的依存関係をキャプチャし、高い予測精度を達成する。
また、タスク固有の予測モデルと比較して、競争力や優れたフルショットパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-11-05T09:34:05Z) - Time-MoE: Billion-Scale Time Series Foundation Models with Mixture of Experts [25.503695417712997]
Time-MoEは、より大きく、より有能な基礎モデルを予測するために設計された、スケーラブルで統一されたアーキテクチャである。
Time-MoEは、予測毎にネットワークのサブセットだけを活性化することで、計算効率を向上させる。
時系列基礎モデルを24億のパラメータに拡張し,予測精度を大幅に向上させた。
論文 参考訳(メタデータ) (2024-09-24T12:42:18Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - UNITS: A Unified Multi-Task Time Series Model [31.675845788410246]
タスクトークン化を用いたマルチタスク時系列モデルUniTSを導入し,予測および生成タスクを単一モデル内で表現する。
人間の活動センサー、医療、エンジニアリング、ファイナンスドメインにまたがる38のデータセットに対して、UniTSモデルは12の予測モデル、20の分類モデル、18の異常検出モデル、16の計算モデルに対して好意的に機能する。
論文 参考訳(メタデータ) (2024-02-29T21:25:58Z) - Timer: Generative Pre-trained Transformers Are Large Time Series Models [83.03091523806668]
本稿では,大規模時系列モデル(LTSM)の早期開発を目的とした。
事前トレーニング中に、最大10億のタイムポイントを持つ大規模なデータセットをキュレートします。
多様なアプリケーションのニーズを満たすため,予測,計算,時系列の異常検出を統一的な生成タスクに変換する。
論文 参考訳(メタデータ) (2024-02-04T06:55:55Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Efficient GPT Model Pre-training using Tensor Train Matrix
Representation [65.96485282393361]
大規模なトランスフォーマーモデルは数十億のパラメータを特徴としており、デプロイが困難になり、スクラッチからトレーニングコストが禁じられている。
GPT-2アーキテクチャのパラメータ数を削減すべく、完全に接続された層の行列を対応するTrain Matrix(TTM)構造に置き換える。
GPTベースのモデルは最大40%のパラメータを格納し、元のモデルに匹敵するパープレキシティを示す。
論文 参考訳(メタデータ) (2023-06-05T08:38:25Z) - Incremental Online Learning Algorithms Comparison for Gesture and Visual
Smart Sensors [68.8204255655161]
本稿では,加速度センサデータに基づくジェスチャー認識と画像分類の2つの実例として,最先端の4つのアルゴリズムを比較した。
以上の結果から,これらのシステムの信頼性と小型メモリMCUへのデプロイの可能性が確認された。
論文 参考訳(メタデータ) (2022-09-01T17:05:20Z) - Neural forecasting at scale [8.245069318446415]
本研究では,大規模な時系列集合上での時系列予測のために,アンサンブルに基づくディープニューラルネットワークを効率的にスケーリングする問題について検討する。
我々のモデルは、関連するモデルの実用的限界に対処し、トレーニング時間を半減し、メモリ要件を5。
論文 参考訳(メタデータ) (2021-09-20T17:22:40Z) - Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。
これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。
この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-21T05:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。