論文の概要: Impermanent: A Live Benchmark for Temporal Generalization in Time Series Forecasting
- arxiv url: http://arxiv.org/abs/2603.08707v2
- Date: Tue, 10 Mar 2026 02:59:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 12:59:13.137432
- Title: Impermanent: A Live Benchmark for Temporal Generalization in Time Series Forecasting
- Title(参考訳): Impermanent: 時系列予測における時間的一般化のためのライブベンチマーク
- Authors: Azul Garza, Renée Rosillo, Rodrigo Mendoza-Smith, David Salinas, Andrew Robert Williams, Arjun Ashok, Mononito Goswami, José Martín Juárez,
- Abstract要約: Impermanentは、オープンワールドの時間的変化の下で予測モデルを評価するライブベンチマークである。
私たちは、スター数によるトップ400リポジトリにフォーカスし、イシューのオープン、プルリクエストのオープン、プッシュイベント、新しいスターゲイザーから時系列を構築します。
静的な精度から持続的な性能へ評価をシフトさせることにより、Imbermanentは、時系列予測における基礎レベルの一般化が有意義に主張できるかどうかを評価するための具体的な一歩を踏み出す。
- 参考スコア(独自算出の注目度): 8.050703449557028
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in time-series forecasting increasingly rely on pre-trained foundation-style models. While these models often claim broad generalization, existing evaluation protocols provide limited evidence. Indeed, most current benchmarks use static train-test splits that can easily lead to contamination as foundation models can inadvertently train on test data or perform model selection using test scores, which can inflate performance. We introduce Impermanent, a live benchmark that evaluates forecasting models under open-world temporal change by scoring forecasts sequentially over time on continuously updated data streams, enabling the study of temporal robustness, distributional shift, and performance stability rather than one-off accuracy on a frozen test set. Impermanent is instantiated on GitHub open-source activity, providing a naturally live and highly non-stationary dataset shaped by releases, shifting contributor behavior, platform/tooling changes, and external events. We focus on the top 400 repositories by star count and construct time series from issues opened, pull requests opened, push events, and new stargazers, evaluated over a rolling window with daily updates, alongside standardized protocols and leaderboards for reproducible, ongoing comparison. By shifting evaluation from static accuracy to sustained performance, Impermanent takes a concrete step toward assessing when and whether foundation-level generalization in time-series forecasting can be meaningfully claimed. Code and a live dashboard are available at https://github.com/TimeCopilot/impermanent and https://impermanent.timecopilot.dev.
- Abstract(参考訳): 時系列予測の最近の進歩は、事前訓練された基礎モデルにますます依存している。
これらのモデルはしばしば広範な一般化を主張するが、既存の評価プロトコルは限られた証拠を提供する。
実際、現在のベンチマークのほとんどは静的なトレインテストの分割を使用しており、ファンデーションモデルは不注意にテストデータでトレーニングしたり、テストスコアを使ってモデル選択を実行したりできるため、容易に汚染につながる可能性がある。
本稿では,連続的に更新されたデータストリーム上で予測を逐次評価することで,オープンワールドの時間変化下での予測モデルを評価するライブベンチマークであるImpermanentを紹介し,凍結したテストセット上での1オフ精度ではなく,時間的ロバスト性,分布シフト,パフォーマンス安定性について検討する。
ImpermanentはGitHubのオープンソースアクティビティでインスタンス化されており、リリースによって形づくられる自然に生きており、非定常的なデータセット、コントリビュータの振る舞いのシフト、プラットフォーム/ツーリングの変更、外部イベントを提供する。
私たちは、スター数で上位400のリポジトリにフォーカスし、問題のオープン、プルリクエストのオープン、プッシュイベント、新しいスターゲイザーから構築した時系列を、標準化されたプロトコルと、再現可能な、継続的な比較のためのリーダボードとともに、毎日のアップデートでローリングウィンドウ上で評価します。
静的な精度から持続的な性能へ評価をシフトさせることにより、Imbermanentは、時系列予測における基礎レベルの一般化が有意義に主張できるかどうかを評価するための具体的な一歩を踏み出す。
コードとダッシュボードはhttps://github.com/TimeCopilot/impermanentとhttps://impermanent.timecopilot.devで公開されている。
関連論文リスト
- It's TIME: Towards the Next Generation of Time Series Forecasting Benchmarks [87.7937890373758]
時系列基礎モデル(TSFM)は,特定のデータセットモデルから一般化可能なタスク評価に至るまで,予測環境に革命をもたらしている。
我々は、50の新しいデータセットと98の予測タスクからなる次世代タスク中心のベンチマークであるTIMEを紹介する。
静的なメタラベルに基づく従来のデータセットレベルの評価を超える新しいパターンレベルの評価視点を提案する。
論文 参考訳(メタデータ) (2026-02-12T16:31:01Z) - fev-bench: A Realistic Benchmark for Time Series Forecasting [19.931138737002215]
既存のベンチマークでは、ドメインカバレッジが狭くなったり、重要な現実世界の設定を見落としたりすることが多い。
7つの領域にわたる100の予測タスクからなるベンチマークであるfevbenchを提案する。
fev-benchでは、モデルパフォーマンスを報告するために、ブートストラップされた信頼区間を持つ原則化された集約手法を採用している。
論文 参考訳(メタデータ) (2025-09-30T16:17:18Z) - Estimating Time Series Foundation Model Transferability via In-Context Learning [74.65355820906355]
時系列基礎モデル(TSFM)は、大規模な事前訓練を通じて強力なゼロショット予測を提供する。
微調整は、公開データに制限のあるドメインのパフォーマンス向上に依然として不可欠である。
モデル選択をコンテキスト内学習問題として再キャストする転送可能性推定フレームワークであるTimeTicを紹介する。
論文 参考訳(メタデータ) (2025-09-28T07:07:13Z) - Enhancing Transformer-Based Foundation Models for Time Series Forecasting via Bagging, Boosting and Statistical Ensembles [7.787518725874443]
時系列基礎モデル(TSFM)は、時系列予測、異常検出、分類、計算のための強力な一般化とゼロショット能力を示している。
本稿では, 統計的およびアンサンブルに基づくエンハンスメント技術を用いて, 頑健さと精度を向上させる手法について検討する。
論文 参考訳(メタデータ) (2025-08-18T04:06:26Z) - Breaking Silos: Adaptive Model Fusion Unlocks Better Time Series Forecasting [64.45587649141842]
時系列予測は多くの現実世界のアプリケーションにおいて重要な役割を果たす。
1つのモデルは、異なるテストサンプルで一貫して他よりも優れていますが、(ii) それぞれのモデルは特定のケースで優れています。
異種モデルのサンプルレベル適応融合による時系列予測のためのフレームワークであるTimeFuseを紹介する。
論文 参考訳(メタデータ) (2025-05-24T00:45:07Z) - Sundial: A Family of Highly Capable Time Series Foundation Models [47.27032162475962]
Sundialはネイティブでフレキシブルでスケーラブルな時系列基盤モデルのファミリーです。
我々のモデルは、事前の分布を指定せずに事前訓練されており、複数の確率予測を生成することができる。
Sundialは、ジャスト・イン・タイムの推論速度で、ポイントと確率予測ベンチマークの両方で最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-02-02T14:52:50Z) - Battling the Non-stationarity in Time Series Forecasting via Test-time Adaptation [39.7344214193566]
時系列予測(TSF)に適した先駆的なテスト時間適応フレームワークを提案する。
TSF-TTAに対する提案手法であるTAFASは、事前学習中に学習したコアセマンティック情報を保存しながら、ソース予測器をフレキシブルに適応してテスト分布を継続的にシフトさせる。
部分的に観測された真実とゲートキャリブレーションモジュールの新たな利用により、ソース予測器のプロアクティブ、ロバスト、モデルに依存しない適応が可能となった。
論文 参考訳(メタデータ) (2025-01-09T04:59:15Z) - Measuring Pre-training Data Quality without Labels for Time Series Foundation Models [10.64362760848387]
基礎モデルで学習した表現空間の質を評価するための新しい尺度であるコントラスト精度を導入する。
実験の結果,提案手法とモデル精度との正の相関関係を下流タスクの集合上で明らかにした。
論文 参考訳(メタデータ) (2024-12-09T10:38:30Z) - OrionBench: Benchmarking Time Series Generative Models in the Service of the End-User [8.05635934199494]
OrionBenchは、教師なし時系列異常検出モデルのための継続的ベンチマークフレームワークである。
OrionBenchの使用方法と,4年間で公開された17リリースにわたるパイプラインのパフォーマンスについて紹介する。
論文 参考訳(メタデータ) (2023-10-26T19:43:16Z) - Lag-Llama: Towards Foundation Models for Probabilistic Time Series
Forecasting [54.04430089029033]
本稿では,デコーダのみの変換器アーキテクチャに基づく時系列予測のための汎用基礎モデルであるLag-Llamaを提案する。
Lag-Llamaは、複数のドメインからの多様な時系列データの大規模なコーパスで事前訓練され、強力なゼロショット一般化能力を示す。
このような未確認データセットの比較的小さな部分で微調整を行うと、Lag-Llamaは最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-10-12T12:29:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。