論文の概要: Towards Foundation Time Series Model: To Synthesize Or Not To
Synthesize?
- arxiv url: http://arxiv.org/abs/2403.02534v1
- Date: Mon, 4 Mar 2024 23:03:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 16:36:11.130399
- Title: Towards Foundation Time Series Model: To Synthesize Or Not To
Synthesize?
- Title(参考訳): 基本時系列モデルに向けて: 合成するか、合成しないか?
- Authors: Kseniia Kuvshinova, Olga Tsymboi, Alina Kostromina, Dmitry Simakov,
Elizaveta Kovtun
- Abstract要約: 本論では,合成データに基づく基礎モデルの学習に有利であるか,限られた実例のみを利用する方がよいか,という課題について考察する。
本実験は,通常の時系列のみを対象として実施し,実時間時系列のみを活用することを優先して述べる。
- 参考スコア(独自算出の注目度): 2.8707270250981094
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The industry is rich in cases when we are required to make forecasting for
large amounts of time series at once. However, we might be in a situation where
we can not afford to train a separate model for each of them. Such issue in
time series modeling remains without due attention. The remedy for this setting
is the establishment of a foundation model. Such a model is expected to work in
zero-shot and few-shot regimes. However, what should we take as a training
dataset for such kind of model?
Witnessing the benefits from the enrichment of NLP datasets with
artificially-generated data, we might want to adopt their experience for time
series. In contrast to natural language, the process of generation of synthetic
time series data is even more favorable because it provides full control of
series patterns, time horizons, and number of samples. In this work, we
consider the essential question if it is advantageous to train a foundation
model on synthetic data or it is better to utilize only a limited number of
real-life examples. Our experiments are conducted only for regular time series
and speak in favor of leveraging solely the real time series. Moreover, the
choice of the proper source dataset strongly influences the performance during
inference. When provided access even to a limited quantity of short time series
data, employing it within a supervised framework yields more favorable results
than training on a larger volume of synthetic data. The code for our
experiments is publicly available on Github
\url{https://github.com/sb-ai-lab/synthesize_or_not}.
- Abstract(参考訳): 業界は、大量の時系列の予測を一度に行う必要がある場合に豊富です。
しかし、私たちはそれぞれに別々のモデルをトレーニングする余裕がない状況にあるかもしれません。
時系列モデリングにおけるこのような問題は、注意を払わずに残っている。
この設定に対する救済策は、基礎モデルの確立である。
このようなモデルはゼロショットと少数ショットのレギュレーションで機能することが期待されている。
しかし、そのようなモデルのトレーニングデータセットとしてどう考えるべきか?
人工的に生成されたデータによるNLPデータセットの強化によるメリットを考慮すれば、彼らの経験を時系列に取り入れたいと思っています。
自然言語とは対照的に、合成時系列データの生成プロセスは、時系列パターン、時間軸、サンプル数を完全に制御できるため、さらに有利である。
本研究は,合成データに基づく基礎モデルの学習に有利であるか,限られた実生活事例のみを利用する方がよいか,という重要な問題について考察する。
我々の実験は定期的な時系列でのみ行われ、リアルタイムの時系列のみを活用することに賛成した。
さらに、適切なソースデータセットの選択は、推論中のパフォーマンスに大きく影響します。
限られた短時間の時系列データにもアクセスできるようにすると、教師付きフレームワーク内で利用することで、より大量の合成データのトレーニングよりも好ましい結果が得られる。
実験のコードはGithub \url{https://github.com/sb-ai-lab/synthesize_or_not}で公開されている。
関連論文リスト
- Beyond Data Scarcity: A Frequency-Driven Framework for Zero-Shot Forecasting [15.431513584239047]
時系列予測は多くの現実世界の応用において重要である。
従来の予測技術は、データが不足しているか、全く利用できない場合に苦労する。
近年の進歩は、このようなタスクに大規模な基礎モデルを活用することが多い。
論文 参考訳(メタデータ) (2024-11-24T07:44:39Z) - Moirai-MoE: Empowering Time Series Foundation Models with Sparse Mixture of Experts [103.725112190618]
本稿では,単一入出力プロジェクション層を用いたMoirai-MoEを紹介するとともに,多種多様な時系列パターンのモデリングを専門家の疎結合に委ねる。
39のデータセットに対する大規模な実験は、既存の基盤モデルよりも、分配シナリオとゼロショットシナリオの両方において、Moirai-MoEの優位性を実証している。
論文 参考訳(メタデータ) (2024-10-14T13:01:11Z) - Leveraging Priors via Diffusion Bridge for Time Series Generation [3.2066708654182743]
時系列生成はシミュレーション、データ拡張、仮説テスト技術といった実世界のアプリケーションで広く利用されている。
拡散モデルは、時系列生成のデファクトアプローチとして現れています。
TimeBridgeは、拡散ブリッジを活用してフレキシブルな合成を可能にするフレームワークで、選択した事前とデータ分散の間のトランスポートを学習する。
論文 参考訳(メタデータ) (2024-08-13T06:47:59Z) - Time Series Data Augmentation as an Imbalanced Learning Problem [2.5536554335016417]
我々は、オーバーサンプリング戦略を用いて、合成時系列観測を作成し、予測モデルの精度を向上させる。
5502個の単変量時系列を含む7種類のデータベースを用いて実験を行った。
提案手法は,グローバルモデルとローカルモデルの両方で優れており,この2つのアプローチのトレードオフが良好であることがわかった。
論文 参考訳(メタデータ) (2024-04-29T09:27:15Z) - Unified Training of Universal Time Series Forecasting Transformers [104.56318980466742]
マスク型ユニバーサル時系列予測変換器(モイライ)について述べる。
Moiraiは、新たに導入された大規模オープンタイムシリーズアーカイブ(LOTSA)で訓練されており、9つのドメインで27億以上の観測が行われた。
Moiraiは、フルショットモデルと比較してゼロショットの予測器として、競争力や優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-02-04T20:00:45Z) - Timer: Generative Pre-trained Transformers Are Large Time Series Models [83.03091523806668]
本稿では,大規模時系列モデル(LTSM)の早期開発を目的とした。
事前トレーニング中に、最大10億のタイムポイントを持つ大規模なデータセットをキュレートします。
多様なアプリケーションのニーズを満たすため,予測,計算,時系列の異常検出を統一的な生成タスクに変換する。
論文 参考訳(メタデータ) (2024-02-04T06:55:55Z) - Time Series Synthesis Using the Matrix Profile for Anonymization [32.22243483781984]
多くの研究者は、プライバシー規制や秘密のビジネス情報漏洩を恐れてデータを公開できない。
本稿では, 行列プロファイル (TSSUMP) を用いた時系列合成を提案する。
我々は,ECGとジェンダーマスキング予測のケーススタディにおいて,本手法を検証した。
論文 参考訳(メタデータ) (2023-11-05T04:27:24Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - Lag-Llama: Towards Foundation Models for Probabilistic Time Series
Forecasting [54.04430089029033]
本稿では,デコーダのみの変換器アーキテクチャに基づく時系列予測のための汎用基礎モデルであるLag-Llamaを提案する。
Lag-Llamaは、複数のドメインからの多様な時系列データの大規模なコーパスで事前訓練され、強力なゼロショット一般化能力を示す。
このような未確認データセットの比較的小さな部分で微調整を行うと、Lag-Llamaは最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-10-12T12:29:32Z) - Pushing the Limits of Pre-training for Time Series Forecasting in the
CloudOps Domain [54.67888148566323]
クラウドオペレーションドメインから,大規模時系列予測データセットを3つ導入する。
強力なゼロショットベースラインであり、モデルとデータセットサイズの両方において、さらなるスケーリングの恩恵を受けています。
これらのデータセットと結果を取得することは、古典的および深層学習のベースラインを事前訓練された方法と比較した総合的なベンチマーク結果の集合である。
論文 参考訳(メタデータ) (2023-10-08T08:09:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。