論文の概要: Towards Foundation Time Series Model: To Synthesize Or Not To
Synthesize?
- arxiv url: http://arxiv.org/abs/2403.02534v1
- Date: Mon, 4 Mar 2024 23:03:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 16:36:11.130399
- Title: Towards Foundation Time Series Model: To Synthesize Or Not To
Synthesize?
- Title(参考訳): 基本時系列モデルに向けて: 合成するか、合成しないか?
- Authors: Kseniia Kuvshinova, Olga Tsymboi, Alina Kostromina, Dmitry Simakov,
Elizaveta Kovtun
- Abstract要約: 本論では,合成データに基づく基礎モデルの学習に有利であるか,限られた実例のみを利用する方がよいか,という課題について考察する。
本実験は,通常の時系列のみを対象として実施し,実時間時系列のみを活用することを優先して述べる。
- 参考スコア(独自算出の注目度): 2.8707270250981094
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The industry is rich in cases when we are required to make forecasting for
large amounts of time series at once. However, we might be in a situation where
we can not afford to train a separate model for each of them. Such issue in
time series modeling remains without due attention. The remedy for this setting
is the establishment of a foundation model. Such a model is expected to work in
zero-shot and few-shot regimes. However, what should we take as a training
dataset for such kind of model?
Witnessing the benefits from the enrichment of NLP datasets with
artificially-generated data, we might want to adopt their experience for time
series. In contrast to natural language, the process of generation of synthetic
time series data is even more favorable because it provides full control of
series patterns, time horizons, and number of samples. In this work, we
consider the essential question if it is advantageous to train a foundation
model on synthetic data or it is better to utilize only a limited number of
real-life examples. Our experiments are conducted only for regular time series
and speak in favor of leveraging solely the real time series. Moreover, the
choice of the proper source dataset strongly influences the performance during
inference. When provided access even to a limited quantity of short time series
data, employing it within a supervised framework yields more favorable results
than training on a larger volume of synthetic data. The code for our
experiments is publicly available on Github
\url{https://github.com/sb-ai-lab/synthesize_or_not}.
- Abstract(参考訳): 業界は、大量の時系列の予測を一度に行う必要がある場合に豊富です。
しかし、私たちはそれぞれに別々のモデルをトレーニングする余裕がない状況にあるかもしれません。
時系列モデリングにおけるこのような問題は、注意を払わずに残っている。
この設定に対する救済策は、基礎モデルの確立である。
このようなモデルはゼロショットと少数ショットのレギュレーションで機能することが期待されている。
しかし、そのようなモデルのトレーニングデータセットとしてどう考えるべきか?
人工的に生成されたデータによるNLPデータセットの強化によるメリットを考慮すれば、彼らの経験を時系列に取り入れたいと思っています。
自然言語とは対照的に、合成時系列データの生成プロセスは、時系列パターン、時間軸、サンプル数を完全に制御できるため、さらに有利である。
本研究は,合成データに基づく基礎モデルの学習に有利であるか,限られた実生活事例のみを利用する方がよいか,という重要な問題について考察する。
我々の実験は定期的な時系列でのみ行われ、リアルタイムの時系列のみを活用することに賛成した。
さらに、適切なソースデータセットの選択は、推論中のパフォーマンスに大きく影響します。
限られた短時間の時系列データにもアクセスできるようにすると、教師付きフレームワーク内で利用することで、より大量の合成データのトレーニングよりも好ましい結果が得られる。
実験のコードはGithub \url{https://github.com/sb-ai-lab/synthesize_or_not}で公開されている。
関連論文リスト
- Time Series Data Augmentation as an Imbalanced Learning Problem [2.5536554335016417]
我々は、オーバーサンプリング戦略を用いて、合成時系列観測を作成し、予測モデルの精度を向上させる。
5502個の単変量時系列を含む7種類のデータベースを用いて実験を行った。
提案手法は,グローバルモデルとローカルモデルの両方で優れており,この2つのアプローチのトレードオフが良好であることがわかった。
論文 参考訳(メタデータ) (2024-04-29T09:27:15Z) - Is Model Collapse Inevitable? Breaking the Curse of Recursion by Accumulating Real and Synthetic Data [49.73114504515852]
各世代の合成データによって元の実データを置き換えることは、モデル崩壊の傾向にあることを示す。
生成した実データと連続する合成データの蓄積は,モデル崩壊を回避することを実証する。
論文 参考訳(メタデータ) (2024-04-01T18:31:24Z) - Timer: Transformers for Time Series Analysis at Scale [87.9808714449511]
本稿では,大規模時系列モデル(LTSM)の早期開発を目的とした。
事前トレーニング中に、最大10億のタイムポイントを持つ大規模なデータセットをキュレートします。
多様なアプリケーションのニーズを満たすため,予測,計算,時系列の異常検出を統一的な生成タスクに変換する。
論文 参考訳(メタデータ) (2024-02-04T06:55:55Z) - Time Series Synthesis Using the Matrix Profile for Anonymization [32.22243483781984]
多くの研究者は、プライバシー規制や秘密のビジネス情報漏洩を恐れてデータを公開できない。
本稿では, 行列プロファイル (TSSUMP) を用いた時系列合成を提案する。
我々は,ECGとジェンダーマスキング予測のケーススタディにおいて,本手法を検証した。
論文 参考訳(メタデータ) (2023-11-05T04:27:24Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - Lag-Llama: Towards Foundation Models for Probabilistic Time Series
Forecasting [54.04430089029033]
本稿では,デコーダのみの変換器アーキテクチャに基づく時系列予測のための汎用基礎モデルであるLag-Llamaを提案する。
Lag-Llamaは、複数のドメインからの多様な時系列データの大規模なコーパスで事前訓練され、強力なゼロショット一般化能力を示す。
このような未確認データセットの比較的小さな部分で微調整を行うと、Lag-Llamaは最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-10-12T12:29:32Z) - Pushing the Limits of Pre-training for Time Series Forecasting in the
CloudOps Domain [54.67888148566323]
クラウドオペレーションドメインから,大規模時系列予測データセットを3つ導入する。
強力なゼロショットベースラインであり、モデルとデータセットサイズの両方において、さらなるスケーリングの恩恵を受けています。
これらのデータセットと結果を取得することは、古典的および深層学習のベースラインを事前訓練された方法と比較した総合的なベンチマーク結果の集合である。
論文 参考訳(メタデータ) (2023-10-08T08:09:51Z) - Continuous-time convolutions model of event sequences [53.36665135225617]
イベントシーケンスデータの巨大なサンプルは、eコマース、ヘルスケア、ファイナンスなど、さまざまなドメインで発生します。
利用可能なデータの量とクライアント毎のイベントシーケンスの長さは典型的には大きいため、長期的なモデリングが必要である。
時間内の事象の一様発生に適した連続畳み込みニューラルネットワークに基づくCOTIC法を提案する。
論文 参考訳(メタデータ) (2023-02-13T10:34:51Z) - Time-series Transformer Generative Adversarial Networks [5.254093731341154]
本稿では,時系列データに特化して生じる制約について考察し,合成時系列を生成するモデルを提案する。
合成時系列データを生成するモデルには,(1)実列の段階的条件分布を捉えること,(2)実列全体の結合分布を忠実にモデル化すること,の2つの目的がある。
TsT-GANは、Transformerアーキテクチャを活用してデシラタを満足させ、その性能を5つのデータセット上の5つの最先端モデルと比較するフレームワークである。
論文 参考訳(メタデータ) (2022-05-23T10:04:21Z) - Generative time series models using Neural ODE in Variational
Autoencoders [0.0]
生成時系列モデリングのための変分オートエンコーダ設定にニューラル正規微分方程式を実装した。
開発と研究を容易にするために、コードに対するオブジェクト指向のアプローチが採られた。
論文 参考訳(メタデータ) (2022-01-12T14:38:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。