論文の概要: A Language Model-Guided Framework for Mining Time Series with Distributional Shifts
- arxiv url: http://arxiv.org/abs/2406.05249v1
- Date: Fri, 7 Jun 2024 20:21:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 22:36:11.529005
- Title: A Language Model-Guided Framework for Mining Time Series with Distributional Shifts
- Title(参考訳): 分散シフトを伴う時系列マイニングのための言語モデルガイドフレームワーク
- Authors: Haibei Zhu, Yousef El-Laham, Elizabeth Fons, Svitlana Vyetrenko,
- Abstract要約: 本稿では,大規模言語モデルとデータソースインタフェースを用いて時系列データセットを探索・収集する手法を提案する。
収集したデータは外部ソースから得られるが、一次時系列データセットと重要な統計特性を共有できる。
収集されたデータセットは、既存のデータセット、特にデータ分散の変化を効果的に補うことができることを示唆している。
- 参考スコア(独自算出の注目度): 5.082311792764403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effective utilization of time series data is often constrained by the scarcity of data quantity that reflects complex dynamics, especially under the condition of distributional shifts. Existing datasets may not encompass the full range of statistical properties required for robust and comprehensive analysis. And privacy concerns can further limit their accessibility in domains such as finance and healthcare. This paper presents an approach that utilizes large language models and data source interfaces to explore and collect time series datasets. While obtained from external sources, the collected data share critical statistical properties with primary time series datasets, making it possible to model and adapt to various scenarios. This method enlarges the data quantity when the original data is limited or lacks essential properties. It suggests that collected datasets can effectively supplement existing datasets, especially involving changes in data distribution. We demonstrate the effectiveness of the collected datasets through practical examples and show how time series forecasting foundation models fine-tuned on these datasets achieve comparable performance to those models without fine-tuning.
- Abstract(参考訳): 時系列データの有効利用は、特に分散シフトの条件下で、複雑なダイナミクスを反映するデータ量の不足によって制限されることが多い。
既存のデータセットは、堅牢で包括的な分析に必要な全ての統計特性を包含していないかもしれない。
プライバシーに関する懸念は、金融やヘルスケアといった分野のアクセシビリティをさらに制限する可能性がある。
本稿では,大規模言語モデルとデータソースインタフェースを用いて時系列データセットを探索・収集する手法を提案する。
外部ソースから収集されたデータは、一次時系列データセットと重要な統計特性を共有しており、様々なシナリオをモデル化し適応することができる。
この方法は、元のデータが制限されたり、本質的な性質が欠如している場合に、データ量を大きくする。
収集されたデータセットは、既存のデータセット、特にデータ分散の変化を効果的に補うことができることを示唆している。
実例を用いて収集したデータセットの有効性を実証し、これらのデータセット上で微調整された時系列予測基礎モデルを微調整することなく、それらのモデルに匹敵する性能を実現する方法を示す。
関連論文リスト
- Tackling Data Heterogeneity in Federated Time Series Forecasting [61.021413959988216]
時系列予測は、エネルギー消費予測、病気の伝染モニタリング、天気予報など、様々な実世界の応用において重要な役割を果たす。
既存のほとんどのメソッドは、分散デバイスから中央クラウドサーバに大量のデータを収集する、集中的なトレーニングパラダイムに依存しています。
本稿では,情報合成データを補助的知識キャリアとして生成することにより,データの均一性に対処する新しいフレームワークであるFed-TRENDを提案する。
論文 参考訳(メタデータ) (2024-11-24T04:56:45Z) - Metadata Matters for Time Series: Informative Forecasting with Transformers [70.38241681764738]
時系列予測のためのMetaTST(Metadata-informed Time Series Transformer)を提案する。
メタデータの非構造化の性質に取り組むため、MetaTSTは、事前に設計されたテンプレートによってそれらを自然言語に形式化する。
Transformerエンコーダは、メタデータ情報によるシーケンス表現を拡張するシリーズトークンとメタデータトークンの通信に使用される。
論文 参考訳(メタデータ) (2024-10-04T11:37:55Z) - The Data Addition Dilemma [4.869513274920574]
医療タスクのための多くの機械学習では、標準データセットは、多くの、基本的に異なるソースにまたがるデータを集約することによって構築される。
しかし、いつより多くのデータを追加することが助けになるのか、いつ、実際の設定で望ましいモデル結果の進行を妨げるのか?
この状況をtextitData Addition Dilemma と認識し、このマルチソーススケーリングコンテキストにトレーニングデータを追加すると、全体的な精度が低下し、不確実なフェアネスの結果が減少し、最悪のサブグループのパフォーマンスが低下することを示した。
論文 参考訳(メタデータ) (2024-08-08T01:42:31Z) - Review of Data-centric Time Series Analysis from Sample, Feature, and Period [37.33135447969283]
優れた時系列データセットは、モデルの正確性、堅牢性、収束性に有利である。
データ中心AIの出現は、モデルの改良からデータ品質の優先順位付けへの展望の変化を表している。
時系列分析において,様々なデータ中心の手法を体系的に検討し,幅広い研究トピックを取り上げている。
論文 参考訳(メタデータ) (2024-04-24T00:34:44Z) - Pushing the Limits of Pre-training for Time Series Forecasting in the
CloudOps Domain [54.67888148566323]
クラウドオペレーションドメインから,大規模時系列予測データセットを3つ導入する。
強力なゼロショットベースラインであり、モデルとデータセットサイズの両方において、さらなるスケーリングの恩恵を受けています。
これらのデータセットと結果を取得することは、古典的および深層学習のベースラインを事前訓練された方法と比較した総合的なベンチマーク結果の集合である。
論文 参考訳(メタデータ) (2023-10-08T08:09:51Z) - Development of a Neural Network-based Method for Improved Imputation of
Missing Values in Time Series Data by Repurposing DataWig [1.8719295298860394]
時系列データの欠落は頻繁に発生し、成功した分析に障害を与える。
時系列データの堅牢な計算のために様々な手法が試みられているが、最も先進的な手法でさえもまだ課題に直面している。
大規模なデータセットを処理する能力を持つニューラルネットワークベースの方法であるDataWigを修正して、tsDataWig(時系列データウィグ)を開発しました。
元のDataWigとは異なり、tsDataWigは時間変数の値を直接処理し、複雑な時間で欠落した値をインプットする。
論文 参考訳(メタデータ) (2023-08-18T15:53:40Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z) - TimeVAE: A Variational Auto-Encoder for Multivariate Time Series
Generation [6.824692201913679]
可変オートエンコーダ(VAE)を用いて時系列データを合成生成する新しいアーキテクチャを提案する。
提案されたアーキテクチャには、解釈可能性、ドメイン知識をエンコードする能力、トレーニング時間の短縮など、いくつかの異なる特性がある。
論文 参考訳(メタデータ) (2021-11-15T21:42:14Z) - PIETS: Parallelised Irregularity Encoders for Forecasting with
Heterogeneous Time-Series [5.911865723926626]
マルチソースデータセットの不均一性と不規則性は時系列解析において重要な課題となる。
本研究では、異種時系列をモデル化するための新しいアーキテクチャ、PIETSを設計する。
PIETSは異種時間データを効果的にモデル化し、予測タスクにおける他の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-09-30T20:01:19Z) - Learning summary features of time series for likelihood free inference [93.08098361687722]
時系列データから要約機能を自動的に学習するためのデータ駆動型戦略を提案する。
以上の結果から,データから要約的特徴を学習することで,手作りの値に基づいてLFI手法よりも優れる可能性が示唆された。
論文 参考訳(メタデータ) (2020-12-04T19:21:37Z) - DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a
Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。
利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。
関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2019-12-27T02:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。