論文の概要: Toward Interpretable Evaluation Measures for Time Series Segmentation
- arxiv url: http://arxiv.org/abs/2510.23261v1
- Date: Mon, 27 Oct 2025 12:23:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 19:54:32.606829
- Title: Toward Interpretable Evaluation Measures for Time Series Segmentation
- Title(参考訳): 時系列セグメンテーションの解釈的評価対策に向けて
- Authors: Félix Chavelli, Paul Boniol, Michaël Thomazo,
- Abstract要約: 本稿では,分割エラーの位置を考慮に入れたWARI(Weighted Adjusted Rand Index)と,分割エラーを識別・スコアするSMS(State Matching Score)を紹介する。
我々は、WARIとSMSを合成および実世界のベンチマークで実証的に検証し、より正確なセグメンテーション品質の評価を提供するだけでなく、従来の測定方法では利用できないエラーや型などの洞察も明らかにした。
- 参考スコア(独自算出の注目度): 3.726498599140168
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Time series segmentation is a fundamental task in analyzing temporal data across various domains, from human activity recognition to energy monitoring. While numerous state-of-the-art methods have been developed to tackle this problem, the evaluation of their performance remains critically limited. Existing measures predominantly focus on change point accuracy or rely on point-based measures such as Adjusted Rand Index (ARI), which fail to capture the quality of the detected segments, ignore the nature of errors, and offer limited interpretability. In this paper, we address these shortcomings by introducing two novel evaluation measures: WARI (Weighted Adjusted Rand Index), that accounts for the position of segmentation errors, and SMS (State Matching Score), a fine-grained measure that identifies and scores four fundamental types of segmentation errors while allowing error-specific weighting. We empirically validate WARI and SMS on synthetic and real-world benchmarks, showing that they not only provide a more accurate assessment of segmentation quality but also uncover insights, such as error provenance and type, that are inaccessible with traditional measures.
- Abstract(参考訳): 時系列セグメンテーションは、人間の活動認識からエネルギーモニタリングに至るまで、様々な領域にわたる時間データを解析するための基本的なタスクである。
この問題に対処するために数多くの最先端手法が開発されてきたが、その性能評価は依然として極めて限定的である。
既存の尺度は、変化点の精度に主にフォーカスするか、検出されたセグメントの品質を捉えず、エラーの性質を無視し、限定的な解釈性を提供する調整されたランダム指数(ARI)のような点ベースの指標に依存している。
本稿では,2つの新しい評価尺度であるWARI(Weighted Adjusted Rand Index)とSMS(State Matching Score)を導入することにより,これらの問題点に対処する。
我々は、WARIとSMSを、合成および実世界のベンチマークで実証的に検証し、より正確なセグメンテーション品質の評価を提供するだけでなく、従来の尺度ではアクセスできないエラーの発覚や型などの洞察も明らかにすることを示した。
関連論文リスト
- Rethinking Evaluation of Infrared Small Target Detection [105.59753496831739]
本稿では,画素レベルと目標レベルのパフォーマンスを取り入れたハイブリッドレベルのメトリクスを導入し,システム的エラー解析手法を提案し,クロスデータセット評価の重要性を強調した。
標準化されたベンチマークを容易にするオープンソースツールキットがリリースされた。
論文 参考訳(メタデータ) (2025-09-21T02:45:07Z) - OIPR: Evaluation for Time-series Anomaly Detection Inspired by Operator Interest [26.460594836601004]
我々は,OIPRと呼ばれる時系列異常検出評価指標を新たに提案する。
OIPRは、オペレーターが検出アラームを受信し、障害を処理し、オペレーターの関心曲線の下の領域を利用してTADアルゴリズムの性能を評価する過程をモデル化する。
ポイントパースペクティブとイベントパースペクティブのバランスを達成し、主要な制限を克服し、より広い状況に適用性を提供します。
論文 参考訳(メタデータ) (2025-03-03T07:37:24Z) - VUS: Effective and Efficient Accuracy Measures for Time-Series Anomaly Detection [17.751395424719167]
本稿では, ノイズ, 不一致, 異常濃度の異なる条件下での頑健さを評価するため, 時系列ADの品質指標を広範囲に評価する。
以上の結果から,基準値とは無関係に品質値を生成する尺度が時系列ADに適していることが示唆された。
論文 参考訳(メタデータ) (2025-02-18T22:19:52Z) - Towards Unbiased Evaluation of Time-series Anomaly Detector [6.521243384420707]
時系列異常検出(TSAD)は、その重要な応用に動機付けられた研究の進化する領域である。
本研究では,平衡点調整(BA)と呼ばれる代替調整プロトコルを提案する。
論文 参考訳(メタデータ) (2024-09-19T19:02:45Z) - OoDIS: Anomaly Instance Segmentation and Detection Benchmark [57.89836988990543]
この作業は、インスタンスセグメンテーションとオブジェクト検出タスクを含むために、よく使われる異常セグメンテーションベンチマークを拡張します。
異常セグメンテーションおよびオブジェクト検出手法の評価は,これらの課題が未解決問題のままであることを示す。
論文 参考訳(メタデータ) (2024-06-17T17:59:56Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - MISMATCH: Fine-grained Evaluation of Machine-generated Text with
Mismatch Error Types [68.76742370525234]
テキスト間のきめ細かいミスマッチに基づいて、7つのNLPタスクにおける人間の判断をモデル化する新しい評価手法を提案する。
細粒度評価のためのNLPタスクの最近の取り組みに触発されて,13種類のミスマッチエラータイプを紹介した。
7つのNLPタスクから得られた有意なデータセットの文対間のミスマッチ誤差は,人間の評価とよく一致している。
論文 参考訳(メタデータ) (2023-06-18T01:38:53Z) - SoftED: Metrics for Soft Evaluation of Time Series Event Detection [4.139895427110409]
時系列イベント検出法は,検出精度にのみ焦点をあてた標準分類基準によって評価される。
事象を検出する不正確さは、しばしば、隣り合う検出に反映される先行または遅延効果によって生じる。
本稿では,イベント検出手法のソフトアセスメントのために設計された,新しいメトリクスセットであるSoftEDメトリクスを紹介する。
論文 参考訳(メタデータ) (2023-04-02T03:27:31Z) - Uncertainty-aware Score Distribution Learning for Action Quality
Assessment [91.05846506274881]
行動品質評価(AQA)のための不確実性認識スコア分布学習(USDL)手法を提案する。
具体的には、異なる評価スコアの確率を記述したスコア分布に関連する事例として、アクションを考察する。
微粒なスコアラベルが利用できる状況下では、多パス不確実性を考慮したスコア分布学習法(MUSDL)を考案し、スコアの不整合成分を探索する。
論文 参考訳(メタデータ) (2020-06-13T15:41:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。