論文の概要: TempusBench: An Evaluation Framework for Time-Series Forecasting
- arxiv url: http://arxiv.org/abs/2604.11529v2
- Date: Thu, 16 Apr 2026 16:57:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 16:09:14.164508
- Title: TempusBench: An Evaluation Framework for Time-Series Forecasting
- Title(参考訳): TempusBench: 時系列予測のための評価フレームワーク
- Authors: Denizalp Goktas, Gerardo Riaño-Briceño, Alif Abdullah, Aryan Nair, Chenkai Shen, Beatriz de Lucio, Alexandra Magnusson, Farhan Mashrur, Ahmed Abdulla, Shawrna Sen, Mahitha Thippireddy, Gregory Schwartz, Amy Greenwald,
- Abstract要約: 時系列基礎モデル(TSFM)のためのオープンソースの評価フレームワークであるTempusBenchを紹介する。
このようなフレームワークの開発の進展を妨げる、少なくとも4つの大きな問題が見られます。
GitHub上のコードへのアクセスは、https://github.com/Smlcrm/TempusBench.comです。
- 参考スコア(独自算出の注目度): 36.738682337273104
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Foundation models have transformed natural language processing and computer vision, and a rapidly growing literature on time-series foundation models (TSFMs) seeks to replicate this success in forecasting. While recent open-source models demonstrate the promise of TSFMs, the field lacks a comprehensive and community-accepted model evaluation framework. We see at least four major issues impeding progress on the development of such a framework. First, existing evaluation frameworks comprise benchmark forecasting tasks derived from often outdated datasets (e.g., M3), many of which lack clear metadata and overlap with the corpora used to pre-train TSFMs. Second, these frameworks evaluate models along a narrowly defined set of benchmark forecasting tasks, such as forecast horizon length or domain, but overlook core statistical properties such as non-stationarity and seasonality. Third, domain-specific models (e.g., XGBoost) are often compared unfairly, as existing frameworks do not enforce a systematic and consistent hyperparameter tuning convention for all models. Fourth, visualization tools for interpreting comparative performance are lacking. To address these issues, we introduce TempusBench, an open-source evaluation framework for TSFMs. TempusBench consists of 1) new datasets which are not included in existing TSFM pretraining corpora, 2) a set of novel benchmark tasks that go beyond existing ones, 3) a model evaluation pipeline with a standardized hyperparameter tuning protocol, and 4) a tensorboard-based visualization interface. We provide access to our code on GitHub: https://github.com/Smlcrm/TempusBench and maintain a live leaderboard at https://benchmark.smlcrm.com/.
- Abstract(参考訳): ファウンデーションモデルは自然言語処理とコンピュータビジョンを変革し、時系列基礎モデル(TSFM)に関する文献は、予測においてこの成功を再現しようとしている。
最近のオープンソースモデルはTSFMの可能性を実証しているが、この分野には包括的でコミュニティに受け入れられるモデル評価フレームワークがない。
このようなフレームワークの開発の進展を妨げる、少なくとも4つの大きな問題が見られます。
まず、既存の評価フレームワークは、しばしば時代遅れのデータセット(例えばM3)から派生したベンチマーク予測タスクで構成されており、その多くが明確なメタデータがなく、TSFMの事前トレーニングに使われるコーパスと重複している。
第二に、これらのフレームワークは、予測地平線の長さや領域のような、狭義に定義されたベンチマーク予測タスクのセットに沿ってモデルを評価するが、非定常性や季節性のような中心的な統計的性質を見落としている。
第3に、ドメイン固有のモデル(例えばXGBoost)は、既存のフレームワークがすべてのモデルに対して体系的で一貫したハイパーパラメータチューニング規約を強制しないため、しばしば不公平に比較される。
第4に、比較パフォーマンスを解釈するための可視化ツールがない。
これらの問題に対処するため,TSFMのオープンソース評価フレームワークである TempusBench を紹介した。
TempusBench (複数形 TempusBenchs)
1)既存のTSFM事前学習コーパスには含まれない新しいデータセット。
2) 既存のタスクを超える新しいベンチマークタスクのセット。
3)標準化されたハイパーパラメータチューニングプロトコルを用いたモデル評価パイプライン、及び
4) テンソルボードベースの可視化インターフェース。
https://github.com/Smlcrm/TempusBench, and maintain a live leaderboard at https://benchmark.smlcrm.com/
関連論文リスト
- It's TIME: Towards the Next Generation of Time Series Forecasting Benchmarks [87.7937890373758]
時系列基礎モデル(TSFM)は,特定のデータセットモデルから一般化可能なタスク評価に至るまで,予測環境に革命をもたらしている。
我々は、50の新しいデータセットと98の予測タスクからなる次世代タスク中心のベンチマークであるTIMEを紹介する。
静的なメタラベルに基づく従来のデータセットレベルの評価を超える新しいパターンレベルの評価視点を提案する。
論文 参考訳(メタデータ) (2026-02-12T16:31:01Z) - Estimating Time Series Foundation Model Transferability via In-Context Learning [74.65355820906355]
時系列基礎モデル(TSFM)は、大規模な事前訓練を通じて強力なゼロショット予測を提供する。
微調整は、公開データに制限のあるドメインのパフォーマンス向上に依然として不可欠である。
モデル選択をコンテキスト内学習問題として再キャストする転送可能性推定フレームワークであるTimeTicを紹介する。
論文 参考訳(メタデータ) (2025-09-28T07:07:13Z) - LimiX: Unleashing Structured-Data Modeling Capability for Generalist Intelligence [61.46575527504109]
LimiX-16MとLimiX-2Mは、構造化されたデータを変数と欠落に対する共同分布として扱う。
サンプルサイズ,特徴次元,クラス数,カテゴリ間特徴比,欠落度,サンプル-特徴比の広い11種類の大規模構造化データベンチマークを対象としたLimiXモデルの評価を行った。
論文 参考訳(メタデータ) (2025-09-03T17:39:08Z) - Multi-Scale Finetuning for Encoder-based Time Series Foundation Models [67.95907033226585]
時系列基礎モデル (TSFM) は, 時系列予測において印象的なゼロショット性能を示す。
直感的な微調整はパフォーマンスの向上をもたらすが、TSFMの能力を完全に活用するには不十分である、と我々は主張する。
マルチスケール・ファインタニング(MSFT)は,マルチスケール・モデリングをファインタニング・プロセスに明示的に統合する,シンプルながら汎用的なフレームワークである。
論文 参考訳(メタデータ) (2025-06-17T01:06:01Z) - TSFM-Bench: A Comprehensive and Unified Benchmark of Foundation Models for Time Series Forecasting [35.505530132151]
時系列予測(TSF)は、金融投資、気象サービス、エネルギー管理など、多くの分野で重要な機能である。
多くのTSFメソッドはドメイン固有のデータ収集とモデルトレーニングを必要とし、他のドメインに適用してもうまく一般化しない。
大規模な異種時系列データに基づいて事前訓練された時系列基礎モデル(TSFM)は、これらの制限を克服することを目的としている。
論文 参考訳(メタデータ) (2024-10-15T17:23:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。