論文の概要: Beyond Model Ranking: Predictability-Aligned Evaluation for Time Series Forecasting
- arxiv url: http://arxiv.org/abs/2509.23074v1
- Date: Sat, 27 Sep 2025 02:56:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.020903
- Title: Beyond Model Ranking: Predictability-Aligned Evaluation for Time Series Forecasting
- Title(参考訳): モデルランキングを超えて:予測可能性に配慮した時系列予測の評価
- Authors: Wanjin Feng, Yuan Yuan, Jingtao Ding, Yong Li,
- Abstract要約: スペクトルコヒーレンスに基づく予測可能性整合診断フレームワークを提案する。
予測可能性ドリフト(predictability drift, 予測可能性ドリフト)の最初の体系的な証拠として, タスクの予測困難度が時間とともに急激に変化することを示す。
複雑なモデルは予測可能性の低いデータより優れているのに対し、線形モデルは予測可能なタスクに非常に効果的である。
- 参考スコア(独自算出の注目度): 18.018179328110048
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the era of increasingly complex AI models for time series forecasting, progress is often measured by marginal improvements on benchmark leaderboards. However, this approach suffers from a fundamental flaw: standard evaluation metrics conflate a model's performance with the data's intrinsic unpredictability. To address this pressing challenge, we introduce a novel, predictability-aligned diagnostic framework grounded in spectral coherence. Our framework makes two primary contributions: the Spectral Coherence Predictability (SCP), a computationally efficient ($O(N\log N)$) and task-aligned score that quantifies the inherent difficulty of a given forecasting instance, and the Linear Utilization Ratio (LUR), a frequency-resolved diagnostic tool that precisely measures how effectively a model exploits the linearly predictable information within the data. We validate our framework's effectiveness and leverage it to reveal two core insights. First, we provide the first systematic evidence of "predictability drift", demonstrating that a task's forecasting difficulty varies sharply over time. Second, our evaluation reveals a key architectural trade-off: complex models are superior for low-predictability data, whereas linear models are highly effective on more predictable tasks. We advocate for a paradigm shift, moving beyond simplistic aggregate scores toward a more insightful, predictability-aware evaluation that fosters fairer model comparisons and a deeper understanding of model behavior.
- Abstract(参考訳): 時系列予測のためのますます複雑なAIモデルの時代では、ベンチマークのリーダーボードの限界改善によって、進歩が測定されることが多い。
しかし、このアプローチには根本的な欠陥がある。標準評価メトリクスは、データ固有の予測不可能性とモデルのパフォーマンスを詳述する。
そこで本研究では,スペクトルコヒーレンスに基づく新しい予測可能性整合診断フレームワークを提案する。
我々のフレームワークは2つの主要な貢献をしている: スペクトルコヒーレンス予測可能性(SCP)、計算効率(O(N\log N)$)、与えられた予測インスタンスの本質的な難しさを定量化するタスク整合スコア、および、モデルがデータ内の線形予測可能な情報をどのように効果的に活用するかを正確に測定する周波数分解診断ツールである線形利用比(LUR)である。
フレームワークの有効性を評価し、それを活用して2つの中核的な洞察を明らかにします。
まず,タスクの予測困難度が時間とともに急激に変化することを示す「予測可能性ドリフト」の最初の体系的な証拠を提示する。
複雑なモデルは予測可能性の低いデータよりも優れているが、線形モデルは予測可能なタスクに非常に効果的である。
我々は、より公平なモデル比較とモデル行動のより深い理解を促進する、より洞察に富んだ予測可能性を考慮した評価へと、単純化された集計スコアを超えて移行するパラダイムシフトを提唱する。
関連論文リスト
- Revisiting Multivariate Time Series Forecasting with Missing Values [74.56971641937771]
現実の時系列では欠落値が一般的である。
現在のアプローチでは、計算モジュールを使用して、不足した値を補う、計算済みの予測フレームワークが開発されている。
このフレームワークは、致命的な問題を見落としている: 欠落した値に対して基礎的な真理は存在せず、予測精度を劣化させる可能性のあるエラーの影響を受けやすいようにしている。
本稿では,Information Bottleneck原則に基づく新しいフレームワークであるConsistency-Regularized Information Bottleneck(CRIB)を紹介する。
論文 参考訳(メタデータ) (2025-09-27T20:57:48Z) - RoHOI: Robustness Benchmark for Human-Object Interaction Detection [78.18946529195254]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、コンテキスト認識支援を可能にするロボット・ヒューマン・アシストに不可欠である。
HOI検出のための最初のベンチマークを導入し、様々な課題下でモデルのレジリエンスを評価する。
我々のベンチマークであるRoHOIは、HICO-DETとV-COCOデータセットに基づく20の汚職タイプと、新しいロバストネスにフォーカスしたメトリクスを含んでいる。
論文 参考訳(メタデータ) (2025-07-12T01:58:04Z) - Consistency-based Abductive Reasoning over Perceptual Errors of Multiple Pre-trained Models in Novel Environments [5.5855749614100825]
本稿では,複数の事前学習モデルを活用することで,このリコール低減を緩和できるという仮説を述べる。
我々は,一貫性に基づく推論問題として,様々なモデルからの矛盾する予測を特定し,管理することの課題を定式化する。
本研究は,複数の不完全なモデルから得られた知識を,難易度の高い新しいシナリオにおいて堅牢に統合するための効果的なメカニズムとして,一貫性に基づく誘拐の有効性を検証するものである。
論文 参考訳(メタデータ) (2025-05-25T23:17:47Z) - ChronosX: Adapting Pretrained Time Series Models with Exogenous Variables [30.679739751673655]
本稿では,事前学習した時系列予測モデルに共変量を統合する新しい手法を提案する。
提案手法は,モジュールブロックによる事前学習予測モデルに共変量情報を組み込む。
本手法は,合成データと実データの両方の評価において,事前学習されたモデルに共変量情報を効果的に組み込むことで,既存のベースラインを上回ります。
論文 参考訳(メタデータ) (2025-03-15T12:34:19Z) - Optimizing Sequential Recommendation Models with Scaling Laws and Approximate Entropy [104.48511402784763]
SRモデルの性能法則は,モデルの性能とデータ品質の関係を理論的に調査し,モデル化することを目的としている。
データ品質を評価するために、従来のデータ量メトリクスと比較して、より曖昧なアプローチを示すために、近似エントロピー(ApEn)を提案する。
論文 参考訳(メタデータ) (2024-11-30T10:56:30Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Incremental Outlier Detection Modelling Using Streaming Analytics in Finance & Health Care [0.0]
リアルタイムデータの時代において、従来の手法はストリーミング環境の動的な性質に追従するのに苦労することが多い。
本稿では,モデルを一度構築し,リアルタイム環境下で評価するハイブリッドフレームワークを提案する。
我々は、一級サポートベクターマシン(OCSVM)、孤立林適応型スライドウィンドウアプローチ(IForest ASD)、正確な嵐(ES)、角度ベース外乱検出(ABOD)、局所外乱係数(LOF)、Kitsunesオンラインアルゴリズム(KitNet)、K-nearest近隣の8種類の最先端外乱検出モデルを採用した。
論文 参考訳(メタデータ) (2023-05-17T02:30:28Z) - Mlinear: Rethink the Linear Model for Time-series Forecasting [9.841293660201261]
Mlinearは、主に線形層に基づく単純だが効果的な方法である。
複数のデータセット上で広く使われている平均二乗誤差(MSE)を大幅に上回る新しい損失関数を導入する。
提案手法は,PatchTSTを336列長入力で21:3,512列長入力で29:10で有意に上回った。
論文 参考訳(メタデータ) (2023-05-08T15:54:18Z) - Back2Future: Leveraging Backfill Dynamics for Improving Real-time
Predictions in Future [73.03458424369657]
公衆衛生におけるリアルタイム予測では、データ収集は簡単で要求の多いタスクである。
過去の文献では「バックフィル」現象とそのモデル性能への影響についてはほとんど研究されていない。
我々は、与えられたモデルの予測をリアルタイムで洗練することを目的とした、新しい問題とニューラルネットワークフレームワークBack2Futureを定式化する。
論文 参考訳(メタデータ) (2021-06-08T14:48:20Z) - Learning Prediction Intervals for Model Performance [1.433758865948252]
モデル性能の予測間隔を計算する手法を提案する。
我々は,幅広いドリフト条件におけるアプローチを評価し,競合ベースラインよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2020-12-15T21:32:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。