論文の概要: Evaluating Time Series Models with Knowledge Discovery
- arxiv url: http://arxiv.org/abs/2503.14869v1
- Date: Wed, 19 Mar 2025 03:48:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:22:49.551926
- Title: Evaluating Time Series Models with Knowledge Discovery
- Title(参考訳): 知識発見による時系列モデルの評価
- Authors: Li Zhang,
- Abstract要約: 時系列データは、医療、地震学、製造業、エネルギーといった様々な重要な領域に存在する最もユビキタスなデータモダリティの1つである。
モデルの性能はRMSE、精度、F1スコアといった特定の評価指標によって評価されることが多い。
モデル評価にドメイン知識を効果的に活用することを目的とした知識発見に基づく評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 4.897267974042842
- License:
- Abstract: Time series data is one of the most ubiquitous data modalities existing in a diverse critical domains such as healthcare, seismology, manufacturing and energy. Recent years, there are increasing interest of the data mining community to develop time series deep learning models to pursue better performance. The models performance often evaluate by certain evaluation metrics such as RMSE, Accuracy, and F1-score. Yet time series data are often hard to interpret and are collected with unknown environmental factors, sensor configuration, latent physic mechanisms, and non-stationary evolving behavior. As a result, a model that is better on standard metric-based evaluation may not always perform better in real-world tasks. In this blue sky paper, we aim to explore the challenge that exists in the metric-based evaluation framework for time series data mining and propose a potential blue-sky idea -- developing a knowledge-discovery-based evaluation framework, which aims to effectively utilize domain-expertise knowledge to evaluate a model. We demonstrate that an evidence-seeking explanation can potentially have stronger persuasive power than metric-based evaluation and obtain better generalization ability for time series data mining tasks.
- Abstract(参考訳): 時系列データは、医療、地震学、製造業、エネルギーといった様々な重要な領域に存在する最もユビキタスなデータモダリティの1つである。
近年、データマイニングコミュニティは、より良いパフォーマンスを追求する時系列深層学習モデル開発への関心が高まっている。
モデルの性能はRMSE、精度、F1スコアといった特定の評価指標によって評価されることが多い。
しかし、時系列データは解釈が難しいことが多く、未知の環境要因、センサーの構成、潜伏した物理機構、非定常的な進化挙動で収集される。
結果として、標準的なメートル法に基づく評価よりも優れたモデルが、現実のタスクにおいて常により良い性能を発揮するとは限らない。
本稿では,時系列データマイニングのためのメートル法に基づく評価フレームワークに存在する課題を探求し,知識発見に基づく評価フレームワークを開発し,モデル評価にドメイン知識を効果的に活用することを目的とする。
証拠探索による説明は,メートル法に基づく評価よりも説得力が高く,時系列データマイニングタスクの一般化能力が向上する可能性が示唆された。
関連論文リスト
- TimeRAF: Retrieval-Augmented Foundation model for Zero-shot Time Series Forecasting [59.702504386429126]
TimeRAFは検索拡張技術によるゼロショット時系列予測を強化する検索拡張予測モデルである。
TimeRAFは、エンド・ツー・エンドの学習可能なレトリバーを使用して、知識ベースから貴重な情報を抽出する。
論文 参考訳(メタデータ) (2024-12-30T09:06:47Z) - Recurrent Neural Goodness-of-Fit Test for Time Series [8.22915954499148]
時系列データは、金融や医療など、さまざまな分野において重要である。
従来の評価基準は、時間的依存関係と潜在的な特徴の高次元性のために不足している。
Recurrent Neural (RENAL) Goodness-of-Fit testは,生成時系列モデルを評価するための新しい,統計的に厳密なフレームワークである。
論文 参考訳(メタデータ) (2024-10-17T19:32:25Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Large Models for Time Series and Spatio-Temporal Data: A Survey and
Outlook [95.32949323258251]
時系列データ、特に時系列データと時間時間データは、現実世界のアプリケーションで広く使われている。
大規模言語やその他の基礎モデルの最近の進歩は、時系列データマイニングや時間データマイニングでの使用の増加に拍車を掛けている。
論文 参考訳(メタデータ) (2023-10-16T09:06:00Z) - MADS: Modulated Auto-Decoding SIREN for time series imputation [9.673093148930874]
我々は,暗黙のニューラル表現に基づく時系列計算のための新しい自動デコードフレームワークMADSを提案する。
実世界の2つのデータセット上で本モデルを評価し,時系列計算における最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-07-03T09:08:47Z) - Exploring validation metrics for offline model-based optimisation with
diffusion models [50.404829846182764]
モデルベース最適化(MBO)では、マシンラーニングを使用して、(基底真理)オラクルと呼ばれるブラックボックス関数に対する報酬の尺度を最大化する候補を設計することに興味があります。
モデル検証中に基底オラクルに対する近似をトレーニングし、その代わりに使用することができるが、その評価は近似的であり、敵の例に対して脆弱である。
本手法は,外挿量を測定するために提案した評価フレームワークにカプセル化されている。
論文 参考訳(メタデータ) (2022-11-19T16:57:37Z) - Quantifying Quality of Class-Conditional Generative Models in
Time-Series Domain [4.219228636765818]
Inception Time Score(ITS)とFrechet Inception Time Distance(FITD)を導入し、時系列領域におけるクラス条件生成モデルの質的性能を評価する。
提案した指標の識別能力を調べるため,80種類のデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-10-14T08:13:20Z) - Firenze: Model Evaluation Using Weak Signals [5.723905680436377]
本稿では,機械学習モデルの性能比較のための新しいフレームワークFirenzeを紹介する。
興味領域と呼ばれるサンプルの特定のサブセットに対して計算・結合されたマーカーは、実世界のパフォーマンスを頑健に見積もることができることを示す。
論文 参考訳(メタデータ) (2022-07-02T13:20:38Z) - A Study on the Evaluation of Generative Models [19.18642459565609]
潜在的生成モデルは、確率値を返さないが、近年は普及している。
本研究では,高品質な合成データセットの生成による生成モデルの評価指標について検討する。
FIDとISはいくつかのf-divergensと相関するが、クローズドモデルのランクは様々である。
論文 参考訳(メタデータ) (2022-06-22T09:27:31Z) - Leveraging the structure of dynamical systems for data-driven modeling [111.45324708884813]
トレーニングセットとその構造が長期予測の品質に与える影響を考察する。
トレーニングセットのインフォームドデザインは,システムの不変性と基盤となるアトラクションの構造に基づいて,結果のモデルを大幅に改善することを示す。
論文 参考訳(メタデータ) (2021-12-15T20:09:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。