論文の概要: Are We Winning the Wrong Game? Revisiting Evaluation Practices for Long-Term Time Series Forecasting
- arxiv url: http://arxiv.org/abs/2603.08156v1
- Date: Mon, 09 Mar 2026 09:37:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.739681
- Title: Are We Winning the Wrong Game? Revisiting Evaluation Practices for Long-Term Time Series Forecasting
- Title(参考訳): 間違ったゲームに勝つか? 長期連続予測のための評価実践を再考する
- Authors: Thanapol Phungtua-eng, Yoshitaka Yamamoto,
- Abstract要約: 長期時系列予測(LTSF)は、データマイニングと機械学習における中心的な課題として広く認識されている。
我々は、この計量中心の体制は単に不完全であるだけでなく、予測のより広い目的と構造的に不一致であると主張する。
本稿では, 統計的忠実度, 構造的コヒーレンス, 決定レベルの関連性を統合した多次元評価視点を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-term time series forecasting (LTSF) is widely recognized as a central challenge in data mining and machine learning. LTSF has increasingly evolved into a benchmark-driven ''GAME,'' where models are ranked, compared, and declared state-of-the-art based primarily on marginal reductions in aggregated pointwise error metrics such as MSE and MAE. Across a small set of canonical datasets and fixed forecasting horizons, progress is communicated through leaderboard-style tables in which lower numerical scores define success. In this GAME, what is measured becomes what is optimized, and incremental error reduction becomes the dominant currency of advancement. We argue that this metric-centric regime is not merely incomplete, but structurally misaligned with the broader objectives of forecasting. In real-world settings, forecasting often prioritizes preserving temporal structure, trend stability, seasonal coherence, robustness to regime shifts, and supporting downstream decision processes. Optimizing aggregate pointwise error does not necessarily imply modeling these structural properties. As a result, leaderboard improvement may increasingly reflect specialization in benchmark configurations rather than a deeper understanding of temporal dynamics. This paper revisits LTSF evaluation as a foundational question in data science: what does it mean to measure forecasting progress? We propose a multi-dimensional evaluation perspective that integrates statistical fidelity, structural coherence, and decision-level relevance. By challenging the current metric monoculture, we aim to redirect attention from winning benchmark tables toward advancing meaningful, context-aware forecasting.
- Abstract(参考訳): 長期時系列予測(LTSF)は、データマイニングと機械学習における中心的な課題として広く認識されている。
LTSFは、ベンチマーク駆動の 'GAME' へと進化し、モデルがランク付けされ、比較され、主にMSEやMAEのような集約されたポイントワイドエラーメトリクスのマージンの削減に基づく最先端の宣言がなされている。
少数の標準データセットと固定された予測地平線にまたがって、低い数値スコアが成功を定義するリーダーボード形式のテーブルを通じて進捗が伝えられる。
このGAMEでは、測定したものが最適化されたものとなり、インクリメンタルなエラー低減が進歩の第一の通貨となる。
我々は、この計量中心の体制は単に不完全であるだけでなく、予測のより広い目的と構造的に不一致であると主張する。
現実の環境では、予測は時間的構造、傾向安定性、季節的一貫性、体制の変化に対する堅牢性、下流の意思決定プロセスのサポートを優先することが多い。
集合点誤差の最適化は、必ずしもこれらの構造特性をモデル化するとは限らない。
その結果、リーダーボードの改善は、時間的ダイナミクスの深い理解よりも、ベンチマーク設定の特殊化を反映している可能性がある。
本稿では,LTSF評価をデータ科学の基礎的問題として再考する。
本稿では, 統計的忠実度, 構造的コヒーレンス, 決定レベルの関連性を統合した多次元評価視点を提案する。
現在のメトリクスモノカルチャーに挑戦することで、ベンチマークテーブルの勝利から意味のある文脈対応予測へと注意を向ける。
関連論文リスト
- Sequential Regression for Continuous Value Prediction using Residual Quantization [8.96389388600604]
継続的価値予測は産業規模のレコメンデーションシステムにおいて重要な役割を果たす。
既存の生成的アプローチは厳密なパラメトリック分布の仮定に依存している。
順序付き量子化符号の和として対象とする連続値を表す残差量子化(RQ)に基づくシーケンス学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-26T13:52:54Z) - Optimal Look-back Horizon for Time Series Forecasting in Federated Learning [26.070107882914844]
本稿では,フェデレート時系列予測における適応的地平面選択の原理的枠組みを提案する。
我々は予測損失をベイズ項に分解し、既約不確実性を反映する。
予測損失の総和は、既約損失が飽和し始める最小の地平線で最小化され、近似損失は増加し続けることを示す。
論文 参考訳(メタデータ) (2025-11-16T21:46:54Z) - Beyond MSE: Ordinal Cross-Entropy for Probabilistic Time Series Forecasting [11.320830769077027]
現在のディープラーニングベースの予測モデルは、回帰モデリングにMean Squared Error(MSE)損失関数を用いる。
時系列予測のための新しい順序分類手法であるOCE-TSを提案する。
MSE と Mean Absolute Error (MAE) を評価指標として,OCE-TS がベンチマークモデルより一貫して優れていることを示す。
論文 参考訳(メタデータ) (2025-11-13T11:14:24Z) - ResAD: Normalized Residual Trajectory Modeling for End-to-End Autonomous Driving [64.42138266293202]
ResADは正規化された残留軌道モデリングフレームワークである。
学習タスクを再編成し、慣性参照からの残留偏差を予測する。
NAVSIMベンチマークでは、ResADはバニラ拡散ポリシーを用いて最先端のPDMS 88.6を達成している。
論文 参考訳(メタデータ) (2025-10-09T17:59:36Z) - Accuracy Law for the Future of Deep Time Series Forecasting [65.46625911002202]
時系列予測は、部分的に観測可能で不確実な性質のため、本質的にゼロでない誤差の低い境界に直面する。
本稿では、ディープ時系列予測の性能上限をどうやって推定するかという根本的な問題に焦点をあてる。
新たに訓練された2,800以上の深層予測器の厳密な統計的テストに基づいて、深部モデルの最小予測誤差とウィンドウワイズ級数パターンの複雑さとの間に有意な指数関数的関係を見出した。
論文 参考訳(メタデータ) (2025-10-03T05:18:47Z) - Revisiting Multivariate Time Series Forecasting with Missing Values [65.30332997607141]
現実の時系列では欠落値が一般的である。
現在のアプローチでは、計算モジュールを使用して、不足した値を補う、計算済みの予測フレームワークが開発されている。
このフレームワークは、致命的な問題を見落としている: 欠落した値に対して基礎的な真理は存在せず、予測精度を劣化させる可能性のあるエラーの影響を受けやすいようにしている。
本稿では,Information Bottleneck原則に基づく新しいフレームワークであるConsistency-Regularized Information Bottleneck(CRIB)を紹介する。
論文 参考訳(メタデータ) (2025-09-27T20:57:48Z) - Beyond Model Ranking: Predictability-Aligned Evaluation for Time Series Forecasting [18.018179328110048]
スペクトルコヒーレンスに基づく予測可能性整合診断フレームワークを提案する。
予測可能性ドリフト(predictability drift, 予測可能性ドリフト)の最初の体系的な証拠として, タスクの予測困難度が時間とともに急激に変化することを示す。
複雑なモデルは予測可能性の低いデータより優れているのに対し、線形モデルは予測可能なタスクに非常に効果的である。
論文 参考訳(メタデータ) (2025-09-27T02:56:06Z) - Improving Time Series Forecasting via Instance-aware Post-hoc Revision [44.90322487625981]
時系列予測は、様々な現実世界の応用において重要な役割を果たす。
近年の手法は、先進的帰納バイアスとトレーニング戦略を取り入れることで、顕著な精度を実現している。
本稿では,予測性能を向上させるためのモデルに依存しないフレームワークであるPIRを提案する。
論文 参考訳(メタデータ) (2025-05-29T15:56:41Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。