論文の概要: A Look at the Evaluation Setup of the M5 Forecasting Competition
- arxiv url: http://arxiv.org/abs/2108.03588v1
- Date: Sun, 8 Aug 2021 08:32:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-10 15:03:37.569398
- Title: A Look at the Evaluation Setup of the M5 Forecasting Competition
- Title(参考訳): M5予測競争の評価設定について
- Authors: Hansika Hewamalage, Pablo Montero-Manso, Christoph Bergmeir, Rob J
Hyndman
- Abstract要約: M5誤差尺度の評価設定について検討した。
不安定性の主要な要因は階層的な集約とスケーリングである。
これらの知見の多くは、一般的な階層的予測ベンチマークに応用できる。
- 参考スコア(独自算出の注目度): 2.055054374525828
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Forecast evaluation plays a key role in how empirical evidence shapes the
development of the discipline. Domain experts are interested in error measures
relevant for their decision making needs. Such measures may produce unreliable
results. Although reliability properties of several metrics have already been
discussed, it has hardly been quantified in an objective way. We propose a
measure named Rank Stability, which evaluates how much the rankings of an
experiment differ in between similar datasets, when the models and errors are
constant. We use this to study the evaluation setup of the M5. We find that the
evaluation setup of the M5 is less reliable than other measures. The main
drivers of instability are hierarchical aggregation and scaling.
Price-weighting reduces the stability of all tested error measures. Scale
normalization of the M5 error measure results in less stability than other
scale-free errors. Hierarchical levels taken separately are less stable with
more aggregation, and their combination is even less stable than individual
levels. We also show positive tradeoffs of retaining aggregation importance
without affecting stability. Aggregation and stability can be linked to the
influence of much debated magic numbers. Many of our findings can be applied to
general hierarchical forecast benchmarking.
- Abstract(参考訳): 予測評価は、経験的証拠が規律の発展をいかに形作るかにおいて重要な役割を果たす。
ドメインの専門家は、意思決定のニーズに関連するエラー対策に興味を持っています。
このような措置は信頼できない結果をもたらす可能性がある。
いくつかのメトリクスの信頼性特性は既に議論されているが、客観的に定量化されることはほとんどない。
本研究では,モデルと誤差が一定である場合,実験のランクが類似したデータセット間でどの程度異なるかを評価する,ランク安定性という尺度を提案する。
これを用いて,M5の評価設定について検討する。
M5の評価設定は他の測定方法よりも信頼性が低いことがわかった。
不安定の主な要因は階層的集約とスケーリングである。
価格重み付けは、すべてのテストされたエラー測定の安定性を低下させる。
M5誤差測定のスケール正規化は、他のスケールフリーエラーよりも安定性が低い。
分離した階層レベルは凝集度が高いほど安定せず、それらの組み合わせは個々のレベルよりも不安定である。
また,安定性を損なうことなく,集約の重要性を維持するというポジティブなトレードオフを示す。
集約と安定性は、議論の多かったマジックナンバーの影響と結びつくことができる。
私たちの発見の多くは、一般的な階層的予測ベンチマークに適用できます。
関連論文リスト
- Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z) - Adapting to Shifting Correlations with Unlabeled Data Calibration [6.84735357291896]
サイト間の分散シフトは、不安定な相関を利用する傾向にあるため、モデル性能を著しく低下させる可能性がある。
本稿では,モデル予測を予測対象と共同設立者間のシフト相関に適応させるフレキシブルな手法であるGeneralized Prevalence Adjustment (GPA)を提案する。
GPAは、これらのサイトからの未ラベルのサンプルを使用して、新しいサイトのターゲットと共同創設者の相互作用を推測することができる。
論文 参考訳(メタデータ) (2024-09-09T18:45:43Z) - Uncertainty Quantification Metrics for Deep Regression [1.1999555634662633]
スカラー化誤差, 誤差, スピアマンランク相関, 負対数類似度について検討した。
これらの指標が4つの典型的な不確実性の下でどのように振る舞うかを考察する。
以上の結果から,Errorは最も安定かつ解釈可能な指標であるが,AUSEとNLLにもそれぞれのユースケースが存在することが示唆された。
論文 参考訳(メタデータ) (2024-05-07T12:46:45Z) - Robustness May be More Brittle than We Think under Different Degrees of
Distribution Shifts [72.90906474654594]
分散シフトの度合いが異なる場合、モデルの堅牢性はかなり不安定で不整合であることを示す。
我々は,CLIPのような大規模事前学習モデルが,新しい下流タスクの分分分布シフトに敏感であることが観察された。
論文 参考訳(メタデータ) (2023-10-10T13:39:18Z) - Evaluating AI systems under uncertain ground truth: a case study in
dermatology [44.80772162289557]
本稿では,アノテーションの不確実性を測定するための指標を提案し,評価のための不確実性調整指標を提案する。
本稿では,本フレームワークを皮膚条件分類に応用した症例スタディとして,アノテーションを診断の形で提供した画像について述べる。
論文 参考訳(メタデータ) (2023-07-05T10:33:45Z) - Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis,
and LLMs Evaluations [111.88727295707454]
本稿では,NLP分野におけるアウト・オブ・ディストリビューション(OOD)のロバスト性に関する研究を再検討する。
本稿では, 明確な分化と分散の困難さを保証するための, ベンチマーク構築プロトコルを提案する。
我々は,OODロバスト性の分析と評価のための事前学習言語モデルの実験を行った。
論文 参考訳(メタデータ) (2023-06-07T17:47:03Z) - When are ensembles really effective? [49.37269057899679]
分類タスクにおいて,アンサンブルが顕著な性能向上をもたらす時期について検討する。
平均誤差率に対して不一致率が大きくなると,アンサンブルにより性能が大幅に向上することを示す。
アンサンブルが実現し、大きなパフォーマンス改善をもたらすことのない、実践的なシナリオを特定します。
論文 参考訳(メタデータ) (2023-05-21T01:36:25Z) - Measuring the Instability of Fine-Tuning [7.370822347217826]
異なるランダムシードを持つ下流タスクにおける微調整済み言語モデルは不安定であることが示されている。
本稿では,SDと他の6つの測定方法について,粒度の異なるレベルでの不安定性を定量的に分析する。
論文 参考訳(メタデータ) (2023-02-15T16:55:15Z) - Mutual Wasserstein Discrepancy Minimization for Sequential
Recommendation [82.0801585843835]
逐次リコメンデーションのためのMutual WasserStein差分最小化MSteinに基づく新しい自己教師型学習フレームワークを提案する。
また,ワッサーシュタイン離散度測定に基づく新しい学習損失を提案する。
論文 参考訳(メタデータ) (2023-01-28T13:38:48Z) - ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。
これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。
本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文 参考訳(メタデータ) (2022-12-15T15:52:39Z) - RIFLE: Imputation and Robust Inference from Low Order Marginals [10.082738539201804]
我々は,不備なデータの存在下での回帰と分類のための統計的推論フレームワークを開発する。
我々のフレームワークであるRIFLEは、基礎となるデータ分布の低次モーメントを対応する信頼区間で推定し、分布的に堅牢なモデルを学ぶ。
実験の結果,RIFLEは,欠落値の割合が高い場合や,データポイント数が比較的小さい場合には,他のベンチマークアルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-09-01T23:17:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。