論文の概要: Time-MoE: Billion-Scale Time Series Foundation Models with Mixture of Experts
- arxiv url: http://arxiv.org/abs/2409.16040v2
- Date: Wed, 2 Oct 2024 09:08:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 18:04:33.294755
- Title: Time-MoE: Billion-Scale Time Series Foundation Models with Mixture of Experts
- Title(参考訳): Time-MoE:10億ドル規模の時系列モデルとエキスパートの混成
- Authors: Xiaoming Shi, Shiyu Wang, Yuqi Nie, Dianqi Li, Zhou Ye, Qingsong Wen, Ming Jin,
- Abstract要約: Time-MoEは、より大きく、より有能な基礎モデルを予測するために設計された、スケーラブルで統一されたアーキテクチャである。
Time-MoEは、予測毎にネットワークのサブセットだけを活性化することで、計算効率を向上させる。
時系列基礎モデルを24億のパラメータに拡張し,予測精度を大幅に向上させた。
- 参考スコア(独自算出の注目度): 25.503695417712997
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning for time series forecasting has seen significant advancements over the past decades. However, despite the success of large-scale pre-training in language and vision domains, pre-trained time series models remain limited in scale and operate at a high cost, hindering the development of larger capable forecasting models in real-world applications. In response, we introduce Time-MoE, a scalable and unified architecture designed to pre-train larger, more capable forecasting foundation models while reducing inference costs. By leveraging a sparse mixture-of-experts (MoE) design, Time-MoE enhances computational efficiency by activating only a subset of networks for each prediction, reducing computational load while maintaining high model capacity. This allows Time-MoE to scale effectively without a corresponding increase in inference costs. Time-MoE comprises a family of decoder-only transformer models that operate in an auto-regressive manner and support flexible forecasting horizons with varying input context lengths. We pre-trained these models on our newly introduced large-scale data Time-300B, which spans over 9 domains and encompassing over 300 billion time points. For the first time, we scaled a time series foundation model up to 2.4 billion parameters, achieving significantly improved forecasting precision. Our results validate the applicability of scaling laws for training tokens and model size in the context of time series forecasting. Compared to dense models with the same number of activated parameters or equivalent computation budgets, our models consistently outperform them by large margin. These advancements position Time-MoE as a state-of-the-art solution for tackling real-world time series forecasting challenges with superior capability, efficiency, and flexibility.
- Abstract(参考訳): 時系列予測のためのディープラーニングは、過去数十年で大きな進歩を遂げてきた。
しかし、言語や視覚領域における大規模な事前訓練の成功にもかかわらず、事前訓練された時系列モデルは大規模に制限され、高コストで運用され、現実世界のアプリケーションにおいてより大きな有能な予測モデルの開発を妨げている。
これに対し、我々は、より大きく、より有能な予測基盤モデルを事前訓練し、推論コストを削減できるように設計された、スケーラブルで統一されたアーキテクチャであるTime-MoEを紹介した。
sparse Mixed-of-experts (MoE) 設計を活用することで、Time-MoEは予測毎にネットワークのサブセットのみを活性化し、高いモデル容量を維持しながら計算負荷を削減することにより、計算効率を向上させる。
これにより、Time-MoEは推論コストが増加することなく効果的にスケールできる。
Time-MoEは、自動回帰方式で動作し、入力コンテキスト長の異なる柔軟な予測水平線をサポートするデコーダのみのトランスフォーマーモデルである。
私たちはこれらのモデルを、新たに導入した大規模データであるTime-300Bで事前トレーニングしました。
時系列基礎モデルを24億のパラメータに拡張し,予測精度を大幅に向上させた。
本結果は,時系列予測の文脈において,トークンのトレーニングとモデルサイズに対するスケーリング法則の適用性を検証するものである。
同じ数の活性化パラメータや等価な計算予算を持つ高密度モデルと比較して、我々のモデルはずっと大きなマージンでそれらを上回ります。
これらの進歩により、Time-MoEは、優れた能力、効率、柔軟性を持つ課題を予測する現実世界の時系列に対処するための最先端のソリューションとして位置づけられる。
関連論文リスト
- A Mamba Foundation Model for Time Series Forecasting [13.593170999506889]
本稿では,マンバアーキテクチャ上に構築された時系列予測のための線形複雑基盤モデルであるTSMambaを紹介する。
このモデルは、前方および後方のMambaエンコーダを通して時間的依存関係をキャプチャし、高い予測精度を達成する。
また、タスク固有の予測モデルと比較して、競争力や優れたフルショットパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-11-05T09:34:05Z) - Test Time Learning for Time Series Forecasting [1.4605709124065924]
テストタイムトレーニング(TTT)モジュールは、MambaベースのTimeMachineなど、最先端モデルよりも一貫して優れている。
その結果,平均二乗誤差 (MSE) と平均絶対誤差 (MAE) に有意な改善が認められた。
この研究は、時系列予測の新しいベンチマークを設定し、スケーラブルで高性能な予測モデルにおける将来の研究の基礎を定めている。
論文 参考訳(メタデータ) (2024-09-21T04:40:08Z) - Generalizing Weather Forecast to Fine-grained Temporal Scales via Physics-AI Hybrid Modeling [55.13352174687475]
本稿では,天気予報をより微細なテンポラルスケールに一般化する物理AIハイブリッドモデル(WeatherGFT)を提案する。
具体的には、小さな時間スケールで物理進化をシミュレートするために、慎重に設計されたPDEカーネルを用いる。
我々は、異なるリードタイムでのモデルの一般化を促進するためのリードタイムアウェアトレーニングフレームワークを導入する。
論文 参考訳(メタデータ) (2024-05-22T16:21:02Z) - A Scalable and Transferable Time Series Prediction Framework for Demand
Forecasting [24.06534393565697]
時系列予測は多くのビジネス問題において最も不可欠でユビキタスなタスクの1つである。
本稿では,多種多様なアイテムの今後の需要を正確に予測できる,シンプルかつ強力なフレームワークであるフォレスティング・オーケストラ(Forchestra)を提案する。
論文 参考訳(メタデータ) (2024-02-29T18:01:07Z) - Unified Training of Universal Time Series Forecasting Transformers [104.56318980466742]
マスク型ユニバーサル時系列予測変換器(モイライ)について述べる。
Moiraiは、新たに導入された大規模オープンタイムシリーズアーカイブ(LOTSA)で訓練されており、9つのドメインで27億以上の観測が行われた。
Moiraiは、フルショットモデルと比較してゼロショットの予測器として、競争力や優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-02-04T20:00:45Z) - Timer: Generative Pre-trained Transformers Are Large Time Series Models [83.03091523806668]
本稿では,大規模時系列モデル(LTSM)の早期開発を目的とした。
事前トレーニング中に、最大10億のタイムポイントを持つ大規模なデータセットをキュレートします。
多様なアプリケーションのニーズを満たすため,予測,計算,時系列の異常検出を統一的な生成タスクに変換する。
論文 参考訳(メタデータ) (2024-02-04T06:55:55Z) - Lag-Llama: Towards Foundation Models for Probabilistic Time Series
Forecasting [54.04430089029033]
本稿では,デコーダのみの変換器アーキテクチャに基づく時系列予測のための汎用基礎モデルであるLag-Llamaを提案する。
Lag-Llamaは、複数のドメインからの多様な時系列データの大規模なコーパスで事前訓練され、強力なゼロショット一般化能力を示す。
このような未確認データセットの比較的小さな部分で微調整を行うと、Lag-Llamaは最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-10-12T12:29:32Z) - Pushing the Limits of Pre-training for Time Series Forecasting in the
CloudOps Domain [54.67888148566323]
クラウドオペレーションドメインから,大規模時系列予測データセットを3つ導入する。
強力なゼロショットベースラインであり、モデルとデータセットサイズの両方において、さらなるスケーリングの恩恵を受けています。
これらのデータセットと結果を取得することは、古典的および深層学習のベースラインを事前訓練された方法と比較した総合的なベンチマーク結果の集合である。
論文 参考訳(メタデータ) (2023-10-08T08:09:51Z) - Time-LLM: Time Series Forecasting by Reprogramming Large Language Models [110.20279343734548]
時系列予測は多くの実世界の力学系において重要な意味を持つ。
時系列予測のための大規模言語モデルを再利用するための再プログラミングフレームワークであるTime-LLMを提案する。
Time-LLMは、最先端の特殊な予測モデルよりも優れた、強力な時系列学習者である。
論文 参考訳(メタデータ) (2023-10-03T01:31:25Z) - Neural forecasting at scale [8.245069318446415]
本研究では,大規模な時系列集合上での時系列予測のために,アンサンブルに基づくディープニューラルネットワークを効率的にスケーリングする問題について検討する。
我々のモデルは、関連するモデルの実用的限界に対処し、トレーニング時間を半減し、メモリ要件を5。
論文 参考訳(メタデータ) (2021-09-20T17:22:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。