論文の概要: Cherry-Picking in Time Series Forecasting: How to Select Datasets to Make Your Model Shine
- arxiv url: http://arxiv.org/abs/2412.14435v1
- Date: Thu, 19 Dec 2024 01:34:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:33:03.051745
- Title: Cherry-Picking in Time Series Forecasting: How to Select Datasets to Make Your Model Shine
- Title(参考訳): 時系列予測のチェリーピッキング:モデルを輝かせるためのデータセットの選択方法
- Authors: Luis Roque, Carlos Soares, Vitor Cerqueira, Luis Torgo,
- Abstract要約: 本研究では,データセット選択バイアス,特にチェリーピッキングデータセットの実践が予測手法の性能評価に与える影響について検討する。
4つのデータセットを選択的に選択することで、46%のメソッドがクラスでベストと判断され、77%が上位3つにランク付けできた。
その結果、ベンチマークのサブセットで予測アルゴリズムを実証的に検証する場合、3から6までのデータセット数の増加は、アルゴリズムを正しいものと誤識別するリスクを約40%削減することを示した。
- 参考スコア(独自算出の注目度): 0.35998666903987897
- License:
- Abstract: The importance of time series forecasting drives continuous research and the development of new approaches to tackle this problem. Typically, these methods are introduced through empirical studies that frequently claim superior accuracy for the proposed approaches. Nevertheless, concerns are rising about the reliability and generalizability of these results due to limitations in experimental setups. This paper addresses a critical limitation: the number and representativeness of the datasets used. We investigate the impact of dataset selection bias, particularly the practice of cherry-picking datasets, on the performance evaluation of forecasting methods. Through empirical analysis with a diverse set of benchmark datasets, our findings reveal that cherry-picking datasets can significantly distort the perceived performance of methods, often exaggerating their effectiveness. Furthermore, our results demonstrate that by selectively choosing just four datasets - what most studies report - 46% of methods could be deemed best in class, and 77% could rank within the top three. Additionally, recent deep learning-based approaches show high sensitivity to dataset selection, whereas classical methods exhibit greater robustness. Finally, our results indicate that, when empirically validating forecasting algorithms on a subset of the benchmarks, increasing the number of datasets tested from 3 to 6 reduces the risk of incorrectly identifying an algorithm as the best one by approximately 40%. Our study highlights the critical need for comprehensive evaluation frameworks that more accurately reflect real-world scenarios. Adopting such frameworks will ensure the development of robust and reliable forecasting methods.
- Abstract(参考訳): 時系列予測の重要性は、この問題に対処するための継続的な研究と新しいアプローチの開発を促進する。
通常、これらの手法は実験的な研究を通じて導入され、提案手法の精度が優れているとしばしば主張される。
しかしながら、実験装置の制限により、これらの結果の信頼性と一般化性に対する懸念が高まっている。
本稿では,使用するデータセットの数と代表性という限界に対処する。
本研究では,データセット選択バイアス,特にチェリーピッキングデータセットの実践が予測手法の性能評価に与える影響について検討する。
各種ベンチマークデータセットを用いた実証分析により,桜の摘み上げデータセットは,評価された手法の性能を著しく歪曲し,その効果を誇張することが明らかとなった。
さらに,本研究の結果は,4つのデータセットを選択的に選択することで,46%のメソッドがクラスで最良と判断され,77%が上位3つにランク付けできることを示した。
さらに、最近のディープラーニングベースのアプローチはデータセットの選択に高い感度を示す一方、古典的な手法はより堅牢性を示す。
最後に,ベンチマークのサブセット上で予測アルゴリズムを実証的に検証した場合,3から6までのデータセット数の増加は,アルゴリズムを正しいものと誤識別するリスクを約40%低減することを示す。
本研究は,現実のシナリオをより正確に反映した包括的評価フレームワークの必要性を強調した。
このようなフレームワークを採用することで、堅牢で信頼性の高い予測方法の開発が保証される。
関連論文リスト
- A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Ranking and Combining Latent Structured Predictive Scores without Labeled Data [2.5064967708371553]
本稿では,新しい教師なしアンサンブル学習モデル(SUEL)を提案する。
連続的な予測スコアを持つ予測器のセット間の依存関係を利用して、ラベル付きデータなしで予測器をランク付けし、それらをアンサンブルされたスコアに重み付けする。
提案手法の有効性は、シミュレーション研究とリスク遺伝子発見の現実的応用の両方を通じて厳密に評価されている。
論文 参考訳(メタデータ) (2024-08-14T20:14:42Z) - Uncertainty for Active Learning on Graphs [70.44714133412592]
不確実性サンプリングは、機械学習モデルのデータ効率を改善することを目的とした、アクティブな学習戦略である。
予測の不確実性を超えた不確実性サンプリングをベンチマークし、他のアクティブラーニング戦略に対する大きなパフォーマンスギャップを強調します。
提案手法は,データ生成プロセスの観点から基幹的ベイズ不確実性推定法を開発し,不確実性サンプリングを最適クエリへ導く上での有効性を実証する。
論文 参考訳(メタデータ) (2024-05-02T16:50:47Z) - DRoP: Distributionally Robust Data Pruning [11.930434318557156]
我々は、訓練されたモデルの分類バイアスにデータプルーニングが与える影響について、最初の系統的研究を行う。
そこで我々はDRoPを提案する。DRoPは,標準的なコンピュータビジョンベンチマークにおいて,その性能を実証的に実証し,分散的に頑健な手法である。
論文 参考訳(メタデータ) (2024-04-08T14:55:35Z) - Systematic Evaluation of Predictive Fairness [60.0947291284978]
バイアス付きデータセットのトレーニングにおけるバイアスの緩和は、重要なオープンな問題である。
複数のタスクにまたがる様々なデバイアス化手法の性能について検討する。
データ条件が相対モデルの性能に強い影響を与えることがわかった。
論文 参考訳(メタデータ) (2022-10-17T05:40:13Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Selecting Datasets for Evaluating an Enhanced Deep Learning Framework [0.2999888908665658]
この研究は続くステップに対処し、異常な不規則なシーケンシャルパターンによって特徴づけられる適切なデータセットを選択する。
開発されたフレームワークは、最も適切なデータセットを使用してテストされた。
本研究は、金融市場と日替わりの通貨交換ドメインが、設計したディープラーニングフレームワークの評価に最も適したデータセットであると結論付けた。
論文 参考訳(メタデータ) (2021-09-21T22:09:30Z) - Doing Great at Estimating CATE? On the Neglected Assumptions in
Benchmark Comparisons of Treatment Effect Estimators [91.3755431537592]
もっとも単純な設定であっても、無知性仮定に基づく推定は誤解を招く可能性があることを示す。
異種処理効果評価のための機械学習ベンチマークデータセットを2つ検討した。
ベンチマークデータセットの固有の特性が、他のものよりもいくつかのアルゴリズムを好んでいる点を強調します。
論文 参考訳(メタデータ) (2021-07-28T13:21:27Z) - Online Coreset Selection for Rehearsal-based Continual Learning [65.85595842458882]
継続的な学習では、後に再生されるトレーニング例(コアセット)のサブセットを格納し、破滅的な忘れを軽減します。
提案するオンラインコアセット選択(OCS, Online Coreset Selection)は, 各イテレーションにおいて最も代表的で情報性の高いコアセットを選択するシンプルで効果的な方法である。
提案手法は,過去のタスクに対して高親和性サンプルを選択しながら,目標データセットへのモデル適応を最大化し,破滅的忘れを直接的に抑制する。
論文 参考訳(メタデータ) (2021-06-02T11:39:25Z) - Robust Fairness-aware Learning Under Sample Selection Bias [17.09665420515772]
サンプル選択バイアス下での頑健で公正な学習のための枠組みを提案する。
テストデータが利用可能で、利用できない場合に、サンプル選択バイアスを処理する2つのアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-05-24T23:23:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。