論文の概要: Position: There are no Champions in Long-Term Time Series Forecasting
- arxiv url: http://arxiv.org/abs/2502.14045v1
- Date: Wed, 19 Feb 2025 19:08:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:29:09.485916
- Title: Position: There are no Champions in Long-Term Time Series Forecasting
- Title(参考訳): ポジション:長期の時系列予測にチャンピオンはいない
- Authors: Lorenzo Brigato, Rafael Morand, Knut Strømmen, Maria Panagiotou, Markus Schmidt, Stavroula Mougiakakou,
- Abstract要約: 我々は、より複雑なモデルを追求することから、ベンチマークプラクティスの強化へと焦点を移す必要があることに重点を置いています。
クレームをサポートするために、私たちはまず、14のデータセットに3500以上のネットワークをトレーニングすることで、最も人気のあるベンチマークで最高のパフォーマンスのモデルを広く、徹底し、再現可能な評価を行います。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Recent advances in long-term time series forecasting have introduced numerous complex prediction models that consistently outperform previously published architectures. However, this rapid progression raises concerns regarding inconsistent benchmarking and reporting practices, which may undermine the reliability of these comparisons. Our position emphasizes the need to shift focus away from pursuing ever-more complex models and towards enhancing benchmarking practices through rigorous and standardized evaluation methods. To support our claim, we first perform a broad, thorough, and reproducible evaluation of the top-performing models on the most popular benchmark by training 3,500+ networks over 14 datasets. Then, through a comprehensive analysis, we find that slight changes to experimental setups or current evaluation metrics drastically shift the common belief that newly published results are advancing the state of the art. Our findings suggest the need for rigorous and standardized evaluation methods that enable more substantiated claims, including reproducible hyperparameter setups and statistical testing.
- Abstract(参考訳): 長期連続予測の最近の進歩は、これまで公表されていたアーキテクチャを一貫して上回る多くの複雑な予測モデルを導入している。
しかし、この急激な進歩は、一貫性のないベンチマークとレポートのプラクティスに関する懸念を提起し、これらの比較の信頼性を損なう可能性がある。
我々の立場は、より複雑なモデルを追求することから、厳格で標準化された評価手法によるベンチマークプラクティスの強化へと焦点を移す必要があることを強調している。
クレームをサポートするために、私たちはまず、14のデータセットに3500以上のネットワークをトレーニングすることで、最も人気のあるベンチマークで最高のパフォーマンスのモデルを広く、徹底し、再現可能な評価を行います。
そして、包括的分析により、実験的なセットアップや現在の評価指標へのわずかな変化が、新たに公開された結果が最先端の進歩を推し進めているという共通の信念を大きく変えていることがわかった。
本研究は,再現可能なハイパーパラメータの設定や統計的検査など,より確実なクレームを実現するための厳密で標準化された評価手法の必要性を示唆する。
関連論文リスト
- Scenario-Wise Rec: A Multi-Scenario Recommendation Benchmark [54.93461228053298]
6つの公開データセットと12のベンチマークモデルと、トレーニングと評価パイプラインで構成されるベンチマークである textbfScenario-Wise Rec を紹介します。
このベンチマークは、研究者に先行研究から貴重な洞察を提供することを目的としており、新しいモデルの開発を可能にしている。
論文 参考訳(メタデータ) (2024-12-23T08:15:34Z) - Recurrent Neural Goodness-of-Fit Test for Time Series [8.22915954499148]
時系列データは、金融や医療など、さまざまな分野において重要である。
従来の評価基準は、時間的依存関係と潜在的な特徴の高次元性のために不足している。
Recurrent Neural (RENAL) Goodness-of-Fit testは,生成時系列モデルを評価するための新しい,統計的に厳密なフレームワークである。
論文 参考訳(メタデータ) (2024-10-17T19:32:25Z) - Revisiting BPR: A Replicability Study of a Common Recommender System Baseline [78.00363373925758]
我々は,BPRモデルの特徴を考察し,その性能への影響を示し,オープンソースのBPR実装について検討する。
分析の結果,これらの実装とオリジナルのBPR論文の矛盾が明らかとなり,特定の実装に対して最大50%の性能低下がみられた。
BPRモデルは、トップnのレコメンデーションタスクにおける最先端メソッドに近いパフォーマンスレベルを達成でき、特定のデータセット上でもパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-09-21T18:39:53Z) - PerturBench: Benchmarking Machine Learning Models for Cellular Perturbation Analysis [14.526536510805755]
本稿では,この急速に発展する分野におけるベンチマークの標準化を目的として,単一細胞における摂動の影響を予測するための包括的なフレームワークを提案する。
当社のフレームワークであるPerturBenchには、ユーザフレンドリなプラットフォーム、多様なデータセット、フェアモデル比較のためのメトリクス、詳細なパフォーマンス分析が含まれています。
論文 参考訳(メタデータ) (2024-08-20T07:40:20Z) - PredBench: Benchmarking Spatio-Temporal Prediction across Diverse Disciplines [86.36060279469304]
予測時間ネットワークの総合評価に適したベンチマークであるPredBenchを紹介する。
このベンチマークでは、広く採用されている12のメソッドと、複数のアプリケーションドメインにまたがる多様なデータセットを統合する。
その多次元評価フレームワークは、総合的なメトリクスセットで分析を広げる。
論文 参考訳(メタデータ) (2024-07-11T11:51:36Z) - Forecasting with Deep Learning: Beyond Average of Average of Average Performance [0.393259574660092]
予測モデルの評価と比較の現在のプラクティスは、パフォーマンスを1つのスコアにまとめることに集中しています。
複数の視点からモデルを評価するための新しいフレームワークを提案する。
このフレームワークの利点は、最先端のディープラーニングアプローチと古典的な予測手法を比較して示す。
論文 参考訳(メタデータ) (2024-06-24T12:28:22Z) - Predictive Churn with the Set of Good Models [64.05949860750235]
近似機械学習モデルの集合に対する競合予測の効果について検討する。
ラーショモン集合内のモデル間の係り受けに関する理論的結果を示す。
当社のアプローチは、コンシューマ向けアプリケーションにおいて、より予測し、削減し、混乱を避けるためにどのように使用できるかを示します。
論文 参考訳(メタデータ) (2024-02-12T16:15:25Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - Consistent Counterfactuals for Deep Models [25.1271020453651]
ファクトファクトの例は、金融や医療診断といった重要な領域における機械学習モデルの予測を説明するために使用される。
本稿では,初期訓練条件に小さな変更を加えた深層ネットワークにおける実例に対するモデル予測の整合性について検討する。
論文 参考訳(メタデータ) (2021-10-06T23:48:55Z) - Investigating Crowdsourcing Protocols for Evaluating the Factual
Consistency of Summaries [59.27273928454995]
要約に適用される現在の事前学習モデルは、ソーステキストを誤って表現したり、外部情報を導入したりする事実上の矛盾がちである。
評価ベースのLikertスケールとランキングベースのBest-Worst Scalingプロトコルを用いた,事実整合性のためのクラウドソーシング評価フレームワークを構築した。
ランキングベースのプロトコルは、データセット間の要約品質をより信頼性の高い尺度を提供するのに対して、Likertレーティングの信頼性はターゲットデータセットと評価設計に依存する。
論文 参考訳(メタデータ) (2021-09-19T19:05:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。