論文の概要: Scaling-laws for Large Time-series Models
- arxiv url: http://arxiv.org/abs/2405.13867v1
- Date: Wed, 22 May 2024 17:48:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 20:53:06.734938
- Title: Scaling-laws for Large Time-series Models
- Title(参考訳): 大規模時系列モデルのスケーリング法則
- Authors: Thomas D. P. Edwards, James Alvey, Justin Alsing, Nam H. Nguyen, Benjamin D. Wandelt,
- Abstract要約: 時系列予測は言語に類似したシーケンシャルな構造を共有しており、大規模なトランスフォーマーアーキテクチャにも適用可能である。
基本デコーダのみの時系列変換モデルは,LSMと類似のスケーリング挙動を示すことを示す。
我々は、パラメータ数、データセットサイズ、およびトレーニング計算に関して、初めてパワー則スケーリング関係をトレーニングし、確立する異種時系列データの大規模なコーパスを組み立てる。
- 参考スコア(独自算出の注目度): 2.0671213754662343
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling laws for large language models (LLMs) have provided useful guidance on how to train ever larger models for predictable performance gains. Time series forecasting shares a similar sequential structure to language, and is amenable to large-scale transformer architectures. Here we show that foundational decoder-only time series transformer models exhibit analogous scaling-behavior to LLMs, while architectural details (aspect ratio and number of heads) have a minimal effect over broad ranges. We assemble a large corpus of heterogenous time series data on which to train, and establish, for the first time, power-law scaling relations with respect to parameter count, dataset size, and training compute, spanning five orders of magnitude.
- Abstract(参考訳): 大規模言語モデル(LLM)のスケーリング法則は、予測可能なパフォーマンス向上のために、より大規模なモデルをトレーニングする方法に関する有用なガイダンスを提供している。
時系列予測は言語に類似したシーケンシャルな構造を共有しており、大規模なトランスフォーマーアーキテクチャにも適用可能である。
ここでは、基本デコーダのみの時系列変換モデルがLLMと類似のスケーリング挙動を示すのに対し、アーキテクチャの詳細(アスペクト比とヘッド数)は広範囲にわたって最小限の効果を示すことを示す。
我々は,パラメータ数,データセットサイズ,およびトレーニング計算に関して,初めてパワー則スケーリング関係をトレーニングし,確立する異種時系列データの大規模なコーパスを組み立てる。
関連論文リスト
- UniTST: Effectively Modeling Inter-Series and Intra-Series Dependencies for Multivariate Time Series Forecasting [98.12558945781693]
フラット化されたパッチトークンに統一された注意機構を含む変圧器ベースモデルUniTSTを提案する。
提案モデルでは単純なアーキテクチャを採用しているが,時系列予測のためのいくつかのデータセットの実験で示されたような,魅力的な性能を提供する。
論文 参考訳(メタデータ) (2024-06-07T14:39:28Z) - Chronos: Learning the Language of Time Series [79.38691251254173]
Chronosは事前訓練された確率的時系列モデルのためのフレームワークである。
クロノスモデルでは,様々な領域の時系列データを利用して,未知の予測タスクにおけるゼロショット精度を向上させることができることを示す。
論文 参考訳(メタデータ) (2024-03-12T16:53:54Z) - Unified Training of Universal Time Series Forecasting Transformers [104.56318980466742]
マスク型ユニバーサル時系列予測変換器(モイライ)について述べる。
Moiraiは、新たに導入された大規模オープンタイムシリーズアーカイブ(LOTSA)で訓練されており、9つのドメインで27億以上の観測が行われた。
Moiraiは、フルショットモデルと比較してゼロショットの予測器として、競争力や優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-02-04T20:00:45Z) - Timer: Generative Pre-trained Transformers Are Large Time Series Models [83.03091523806668]
本稿では,大規模時系列モデル(LTSM)の早期開発を目的とした。
事前トレーニング中に、最大10億のタイムポイントを持つ大規模なデータセットをキュレートします。
多様なアプリケーションのニーズを満たすため,予測,計算,時系列の異常検出を統一的な生成タスクに変換する。
論文 参考訳(メタデータ) (2024-02-04T06:55:55Z) - Pushing the Limits of Pre-training for Time Series Forecasting in the
CloudOps Domain [54.67888148566323]
クラウドオペレーションドメインから,大規模時系列予測データセットを3つ導入する。
強力なゼロショットベースラインであり、モデルとデータセットサイズの両方において、さらなるスケーリングの恩恵を受けています。
これらのデータセットと結果を取得することは、古典的および深層学習のベースラインを事前訓練された方法と比較した総合的なベンチマーク結果の集合である。
論文 参考訳(メタデータ) (2023-10-08T08:09:51Z) - TACTiS-2: Better, Faster, Simpler Attentional Copulas for Multivariate Time Series [57.4208255711412]
パウラ理論に基づいて,最近導入されたトランスフォーマーに基づく注目パウラ(TACTiS)の簡易な目的を提案する。
結果から,実世界の予測タスクにまたがって,このモデルのトレーニング性能が大幅に向上し,最先端のパフォーマンスが達成できることが示唆された。
論文 参考訳(メタデータ) (2023-10-02T16:45:19Z) - DuETT: Dual Event Time Transformer for Electronic Health Records [14.520791492631114]
我々はDuETTアーキテクチャを紹介した。これは、時間とイベントの両タイプにまたがるように設計されたトランスフォーマーの拡張である。
DuETTは集約された入力を使用し、スパース時系列は一定長さの正規シーケンスに変換される。
本モデルでは,MIMIC-IV と PhysioNet-2012 EHR データセットを用いて,複数の下流タスクにおける最先端のディープラーニングモデルより優れています。
論文 参考訳(メタデータ) (2023-04-25T17:47:48Z) - Language Modeling using LMUs: 10x Better Data Efficiency or Improved
Scaling Compared to Transformers [4.899818550820576]
シーケンス処理に先立って,レジェンダメモリ単位をベースとしたモデルを構築した。
我々の新しいアーキテクチャは10倍少ないトークンでトランスフォーマーと同じ精度を実現している。
論文 参考訳(メタデータ) (2021-10-05T23:20:37Z) - Benchmarking down-scaled (not so large) pre-trained language models [0.0]
大規模なトランスフォーマーベースの言語モデルは、異なる数のステップと異なるバッチサイズのコーパスで事前学習されている。
形状パラメータとモデルサイズが異なる3つの事前学習目標を比較し、事前学習ステップの数とバッチサイズを変化させる。
私たちの実験では、NSP +BERTスタイルは、標準LM目標と同様に一貫して(RoBERTaスタイル)を上回ります。
論文 参考訳(メタデータ) (2021-05-11T09:01:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。