論文の概要: It's TIME: Towards the Next Generation of Time Series Forecasting Benchmarks
- arxiv url: http://arxiv.org/abs/2602.12147v1
- Date: Thu, 12 Feb 2026 16:31:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.93574
- Title: It's TIME: Towards the Next Generation of Time Series Forecasting Benchmarks
- Title(参考訳): TIME:次世代の時系列予測ベンチマークを目指して
- Authors: Zhongzheng Qiao, Sheng Pan, Anni Wang, Viktoriya Zhukova, Yong Liu, Xudong Jiang, Qingsong Wen, Mingsheng Long, Ming Jin, Chenghao Liu,
- Abstract要約: 時系列基礎モデル(TSFM)は,特定のデータセットモデルから一般化可能なタスク評価に至るまで,予測環境に革命をもたらしている。
我々は、50の新しいデータセットと98の予測タスクからなる次世代タスク中心のベンチマークであるTIMEを紹介する。
静的なメタラベルに基づく従来のデータセットレベルの評価を超える新しいパターンレベルの評価視点を提案する。
- 参考スコア(独自算出の注目度): 87.7937890373758
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Time series foundation models (TSFMs) are revolutionizing the forecasting landscape from specific dataset modeling to generalizable task evaluation. However, we contend that existing benchmarks exhibit common limitations in four dimensions: constrained data composition dominated by reused legacy sources, compromised data integrity lacking rigorous quality assurance, misaligned task formulations detached from real-world contexts, and rigid analysis perspectives that obscure generalizable insights. To bridge these gaps, we introduce TIME, a next-generation task-centric benchmark comprising 50 fresh datasets and 98 forecasting tasks, tailored for strict zero-shot TSFM evaluation free from data leakage. Integrating large language models and human expertise, we establish a rigorous human-in-the-loop benchmark construction pipeline to ensure high data integrity and redefine task formulation by aligning forecasting configurations with real-world operational requirements and variate predictability. Furthermore, we propose a novel pattern-level evaluation perspective that moves beyond traditional dataset-level evaluations based on static meta labels. By leveraging structural time series features to characterize intrinsic temporal properties, this approach offers generalizable insights into model capabilities across diverse patterns. We evaluate 12 representative TSFMs and establish a multi-granular leaderboard to facilitate in-depth analysis and visualized inspection. The leaderboard is available at https://huggingface.co/spaces/Real-TSF/TIME-leaderboard.
- Abstract(参考訳): 時系列基礎モデル(TSFM)は,特定のデータセットモデルから一般化可能なタスク評価に至るまで,予測環境に革命をもたらしている。
しかし、既存のベンチマークでは、再利用されたレガシソースが支配する制約付きデータ構成、厳密な品質保証を欠いたデータの完全性を損なうこと、現実の文脈から切り離されたタスクの定式化、そして一般化可能な洞察を曖昧にするための厳密な分析の観点である。
これらのギャップを埋めるため、データ漏洩のない厳密なゼロショットTSFM評価に適した、50のデータセットと98の予測タスクからなる次世代タスク中心ベンチマークであるTIMEを導入する。
大規模言語モデルと人間の専門知識を統合することにより、予測設定を実世界の運用要件と整合させ、予測可能性を変化させることで、高いデータの整合性を確保し、タスクの定式化を再定義する、厳密なヒューマン・イン・ザ・ループ・ベンチマーク構築パイプラインを構築します。
さらに,静的なメタラベルに基づく従来のデータセットレベルの評価を超えて,新しいパターンレベルの評価視点を提案する。
構造時系列の特徴を活用して固有時間特性を特徴づけることで、様々なパターンをまたいだモデル機能に関する一般化可能な洞察を提供する。
我々は,12個の代表TSFMを評価し,深部分析と可視化検査を容易にするための多粒性リーダーボードを構築した。
リーダーボードはhttps://huggingface.co/spaces/Real-TSF/TIME- Leaderboardで入手できる。
関連論文リスト
- Time Series Foundation Models: Benchmarking Challenges and Requirements [0.0]
時系列基礎モデル(TSFM)は、時系列予測の新しいパラダイムである。
TSFMの評価は、より広範なトレーニングセットと同様に、整合性ベンチマークデータの確保がより困難になるため、難しい。
論文 参考訳(メタデータ) (2025-10-15T15:15:45Z) - Estimating Time Series Foundation Model Transferability via In-Context Learning [74.65355820906355]
時系列基礎モデル(TSFM)は、大規模な事前訓練を通じて強力なゼロショット予測を提供する。
微調整は、公開データに制限のあるドメインのパフォーマンス向上に依然として不可欠である。
モデル選択をコンテキスト内学習問題として再キャストする転送可能性推定フレームワークであるTimeTicを紹介する。
論文 参考訳(メタデータ) (2025-09-28T07:07:13Z) - TS-RAG: Retrieval-Augmented Generation based Time Series Foundation Models are Stronger Zero-Shot Forecaster [14.512119661418522]
時系列予測のための検索拡張生成フレームワークTS-RAGを提案する。
具体的には、TS-RAGはトレーニング済みの時系列エンコーダを利用して、専用の知識ベースから意味的に関連するセグメントを検索する。
TS-RAG は最先端のゼロショット予測性能を達成し,既存の TSFM を6.84% まで上回った。
論文 参考訳(メタデータ) (2025-03-06T16:48:48Z) - Not All Data are Good Labels: On the Self-supervised Labeling for Time Series Forecasting [37.189362258417624]
本稿では,候補データセットを自然に構築することで,時系列データセットを再ラベルする新たな自己教師型アプローチについて検討する。
単純な再構成ネットワークの最適化において、中間体は自己管理パラダイムの擬似ラベルとして使用される。
実世界の11のデータセットの実験では、SCAMは様々なバックボーンモデルの性能を一貫して改善している。
論文 参考訳(メタデータ) (2025-02-20T16:29:37Z) - GIFT-Eval: A Benchmark For General Time Series Forecasting Model Evaluation [90.53485251837235]
時系列基礎モデルはゼロショット予測に優れ、明示的なトレーニングなしで多様なタスクを処理する。
GIFT-Evalは、多様なデータセットに対する評価を促進するための先駆的なベンチマークである。
GIFT-Evalには、144,000の時系列と17700万のデータポイントの23のデータセットが含まれている。
論文 参考訳(メタデータ) (2024-10-14T11:29:38Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。