論文の概要: CCE: Confidence-Consistency Evaluation for Time Series Anomaly Detection
- arxiv url: http://arxiv.org/abs/2509.01098v1
- Date: Mon, 01 Sep 2025 03:38:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.541188
- Title: CCE: Confidence-Consistency Evaluation for Time Series Anomaly Detection
- Title(参考訳): CCE:時系列異常検出のための信頼度評価
- Authors: Zhijie Zhong, Zhiwen Yu, Yiu-ming Cheung, Kaixiang Yang,
- Abstract要約: 本稿では,新しい評価指標である信頼性・一貫性評価(CCE)を紹介する。
CCEは同時に、予測の信頼性と不確実性を測定する。
RankEvalは、さまざまなメトリクスのランキング機能を比較するためのベンチマークです。
- 参考スコア(独自算出の注目度): 56.302586730134806
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Time Series Anomaly Detection metrics serve as crucial tools for model evaluation. However, existing metrics suffer from several limitations: insufficient discriminative power, strong hyperparameter dependency, sensitivity to perturbations, and high computational overhead. This paper introduces Confidence-Consistency Evaluation (CCE), a novel evaluation metric that simultaneously measures prediction confidence and uncertainty consistency. By employing Bayesian estimation to quantify the uncertainty of anomaly scores, we construct both global and event-level confidence and consistency scores for model predictions, resulting in a concise CCE metric. Theoretically and experimentally, we demonstrate that CCE possesses strict boundedness, Lipschitz robustness against score perturbations, and linear time complexity $\mathcal{O}(n)$. Furthermore, we establish RankEval, a benchmark for comparing the ranking capabilities of various metrics. RankEval represents the first standardized and reproducible evaluation pipeline that enables objective comparison of evaluation metrics. Both CCE and RankEval implementations are fully open-source.
- Abstract(参考訳): 時系列異常検出メトリクスは、モデル評価にとって重要なツールである。
しかし、既存のメトリクスには、識別力の不足、強いハイパーパラメータ依存性、摂動に対する感度、高い計算オーバーヘッドなど、いくつかの制限がある。
本稿では,信頼度と不確実性の評価を同時に行う新しい評価指標であるCCE(Confidence-Consistency Evaluation)を紹介する。
ベイズ推定を用いて異常スコアの不確かさを定量化することにより、モデル予測のための大域的および事象レベルの信頼度と整合性スコアの両方を構築し、簡潔なCCE測定結果を得る。
理論的、実験的に、CCE は厳密な有界性、スコア摂動に対するリプシッツの頑健性、線形時間複雑性 $\mathcal{O}(n)$ を持つことを示した。
さらに,様々な指標のランク付け能力を比較するためのベンチマークである RankEval を構築した。
RankEvalは、評価メトリクスの客観的比較を可能にする、最初の標準化された再現可能な評価パイプラインである。
CCE と RankEval の実装はいずれも完全にオープンソースである。
関連論文リスト
- Mind the Generation Process: Fine-Grained Confidence Estimation During LLM Generation [63.49409574310576]
大規模言語モデル(LLM)は自信過剰を示し、信頼度の高いスコアを誤った予測に割り当てる。
本研究では,テキスト生成中に高精度できめ細かな信頼スコアを提供する信頼度推定手法であるFineCEを紹介する。
論文で使用されたコードとすべてのベースラインはGitHubで公開されている。
論文 参考訳(メタデータ) (2025-08-16T13:29:35Z) - Trust, or Don't Predict: Introducing the CWSA Family for Confidence-Aware Model Evaluation [0.0]
信頼性重み付き選択精度(CWSA)と正規化変種CWSA+を紹介する。
CWSAは、信頼しきい値の下で予測モデルを評価するための原則的で解釈可能な方法を提供する。
CWSAとCWSA+は、信頼度の高いテストにおいて、ニュアンスド障害モードを効果的に検出し、古典的な指標より優れていることを示す。
論文 参考訳(メタデータ) (2025-05-24T10:07:48Z) - MCQA-Eval: Efficient Confidence Evaluation in NLG with Gold-Standard Correctness Labels [16.300463494913593]
大規模言語モデル (LLM) には堅牢な信頼度推定が必要である。
McQCA-Evalは、自然言語生成における信頼度を評価するための評価フレームワークである。
論文 参考訳(メタデータ) (2025-02-20T05:09:29Z) - The Certainty Ratio $C_ρ$: a novel metric for assessing the reliability of classifier predictions [0.0]
本稿では,任意の分類性能指標に対する信頼性(確実性)と不確実性(不確実性)の寄与を定量化する新しい尺度であるCertainty Ratio(C_rho$)を紹介する。
21のデータセットと複数の分類器(Decision Trees、Naive-Bayes、 3-Nearest Neighbors、Random Forestsなど)にまたがる実験の結果、$C_rho$rhoは従来のメトリクスがしばしば見落としているという重要な洞察を明らかにしている。
論文 参考訳(メタデータ) (2024-11-04T10:50:03Z) - Accurate and Reliable Confidence Estimation Based on Non-Autoregressive
End-to-End Speech Recognition System [42.569506907182706]
従来のエンドツーエンド(E2E)ベースの信頼度推定モデル(CEM)は、入力書き起こしと等しい長さのスコアシーケンスを予測する。
本稿では,新しい非自己回帰型E2E ASRモデル - Paraformer に基づく正確かつ信頼性の高い信頼度推定を実現するために,CIF-Aligned confidence Estimation Model (CA-CEM)を提案する。
論文 参考訳(メタデータ) (2023-05-18T03:34:50Z) - Evaluating Probabilistic Classifiers: The Triptych [62.997667081978825]
本稿では,予測性能の異なる相補的な側面に焦点をあてた診断グラフィックのトリチチを提案し,研究する。
信頼性図は校正に対処し、受信動作特性(ROC)曲線は識別能力を診断し、マーフィー図は全体的な予測性能と価値を視覚化する。
論文 参考訳(メタデータ) (2023-01-25T19:35:23Z) - REAM$\sharp$: An Enhancement Approach to Reference-based Evaluation
Metrics for Open-domain Dialog Generation [63.46331073232526]
オープンドメイン対話システムにおける参照ベースのEvAluation Metricsの拡張手法を提案する。
予測モデルは、与えられた基準セットの信頼性を推定するように設計されている。
本稿では,その予測結果が参照集合の増大にどのように役立つかを示し,測定値の信頼性を向上させる。
論文 参考訳(メタデータ) (2021-05-30T10:04:13Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。