論文の概要: Anomaly Detection: How to Artificially Increase your F1-Score with a
Biased Evaluation Protocol
- arxiv url: http://arxiv.org/abs/2106.16020v1
- Date: Wed, 30 Jun 2021 12:36:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-01 19:55:49.093039
- Title: Anomaly Detection: How to Artificially Increase your F1-Score with a
Biased Evaluation Protocol
- Title(参考訳): 異常検出:バイアス評価プロトコルでF1スコアを人工的に向上する方法
- Authors: Damien Fourure, Muhammad Usama Javaid, Nicolas Posocco, Simon Tihon
- Abstract要約: 異常検出は機械学習において広く研究されている領域である。
パフォーマンスを比較するために使用される最も一般的なメトリクスは、F1スコア、AUC、AVPRである。
F1スコアとAVPRは汚染率に非常に敏感である。
- 参考スコア(独自算出の注目度): 0.11470070927586014
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Anomaly detection is a widely explored domain in machine learning. Many
models are proposed in the literature, and compared through different metrics
measured on various datasets. The most popular metrics used to compare
performances are F1-score, AUC and AVPR. In this paper, we show that F1-score
and AVPR are highly sensitive to the contamination rate. One consequence is
that it is possible to artificially increase their values by modifying the
train-test split procedure. This leads to misleading comparisons between
algorithms in the literature, especially when the evaluation protocol is not
well detailed. Moreover, we show that the F1-score and the AVPR cannot be used
to compare performances on different datasets as they do not reflect the
intrinsic difficulty of modeling such data. Based on these observations, we
claim that F1-score and AVPR should not be used as metrics for anomaly
detection. We recommend a generic evaluation procedure for unsupervised anomaly
detection, including the use of other metrics such as the AUC, which are more
robust to arbitrary choices in the evaluation protocol.
- Abstract(参考訳): 異常検出は機械学習において広く研究されている領域である。
多くのモデルが文献で提案され、様々なデータセットで測定された異なるメトリクスで比較される。
パフォーマンス比較に使用される最も一般的なメトリクスは、f1-score、auc、apprである。
本稿では,F1スコアとAVPRが汚染率に非常に敏感であることを示す。
その結果、列車とテストの分割手順を変更することで、人工的に値を増やすことができる。
これにより、特に評価プロトコルがあまり詳しくない場合に、文学におけるアルゴリズム間の比較を誤解を招くことになる。
さらに,F1スコアとAVPRは,本質的なデータモデリングの難しさを反映しないため,異なるデータセットのパフォーマンスを比較するには使用できないことを示す。
これらの結果から,F1スコアとAVPRは異常検出の指標として使用すべきでないと主張している。
評価プロトコルの任意の選択に対してより堅牢なAUCなど,他のメトリクスの使用を含む,教師なし異常検出のための汎用的な評価手順を推奨する。
関連論文リスト
- Are Anomaly Scores Telling the Whole Story? A Benchmark for Multilevel Anomaly Detection [46.244213695024]
異常検出(AD)は、通常のトレーニングデータからパターンを学習することで異常を識別する機械学習タスクである。
既存のモデルは、主にバイナリ環境で動作し、それらが生成する異常スコアは通常、通常のデータからのデータポイントのずれに基づいている。
本稿では,実世界のアプリケーションにおける異常の重症度を表す,新しい設定であるマルチレベルAD(MAD)を提案する。
第2に,新たなベンチマークMAD-Benchを導入する。このベンチマークでは,異常検出能力だけでなく,異常スコアが重大度をどの程度効果的に反映しているかをモデルとして評価する。
論文 参考訳(メタデータ) (2024-11-21T14:18:37Z) - Systematic Review: Anomaly Detection in Connected and Autonomous Vehicles [0.0]
この系統的なレビューは、連結車両と自律車両の異常検出に焦点を当てている。
異常検出に最もよく使用される人工知能(AI)アルゴリズムは、LSTM、CNN、オートエンコーダなどのニューラルネットワークと1クラスのSVMである。
自動車への異常検出の展開を調査し,道路上での性能評価を行うためには,今後の研究が必要である。
論文 参考訳(メタデータ) (2024-05-04T18:31:38Z) - Efficiency of Unsupervised Anomaly Detection Methods on Software Logs [0.0]
本稿では,異常検出のための教師なしおよび時間効率の手法について検討する。
モデルは4つのパブリックデータセットで評価される。
単語表現付きOOV検出器は高速では最適である。精度では、OOV検出器とトリグラム表現を組み合わせると、AUC-ROC(0.846)の最高値が得られる。
論文 参考訳(メタデータ) (2023-12-04T14:44:31Z) - Towards Multiple References Era -- Addressing Data Leakage and Limited
Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。
近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。
本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文 参考訳(メタデータ) (2023-08-06T14:49:26Z) - TRScore: A Novel GPT-based Readability Scorer for ASR Segmentation and
Punctuation model evaluation and selection [1.4720080476520687]
自動音声認識における読みやすさの鍵は、触覚と可読性である。
人間の評価は高価で時間がかかり、サーバ間の大きな変動に悩まされる。
本稿では,GPTモデルを用いた新しい可読性尺度 TRScore について述べる。
論文 参考訳(メタデータ) (2022-10-27T01:11:32Z) - A Study on the Evaluation of Generative Models [19.18642459565609]
潜在的生成モデルは、確率値を返さないが、近年は普及している。
本研究では,高品質な合成データセットの生成による生成モデルの評価指標について検討する。
FIDとISはいくつかのf-divergensと相関するが、クローズドモデルのランクは様々である。
論文 参考訳(メタデータ) (2022-06-22T09:27:31Z) - Self-Trained One-class Classification for Unsupervised Anomaly Detection [56.35424872736276]
異常検出(AD)は、製造から医療まで、さまざまな分野に応用されている。
本研究は、トレーニングデータ全体がラベル付けされておらず、正規サンプルと異常サンプルの両方を含む可能性のある、教師なしAD問題に焦点を当てる。
この問題に対処するため,データリファインメントによる堅牢な一級分類フレームワークを構築した。
本手法は6.3AUCと12.5AUCの平均精度で最先端の1クラス分類法より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-11T01:36:08Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z) - Federated Deep AUC Maximization for Heterogeneous Data with a Constant
Communication Complexity [77.78624443410216]
異種胸部データ検出のための改良型FDAMアルゴリズムを提案する。
本研究は,提案アルゴリズムの通信が機械数に強く依存し,精度レベルにも強く依存していることを示す。
FDAMアルゴリズムのベンチマークデータセットと、異なる組織の医療用胸部X線画像に対する効果を実験により実証した。
論文 参考訳(メタデータ) (2021-02-09T04:05:19Z) - Evaluating Large-Vocabulary Object Detectors: The Devil is in the
Details [107.2722027807328]
我々は、APのデフォルト実装はカテゴリー独立ではなく、適切に校正された検出器を直接報酬するものではないことを発見した。
既定の実装ではゲーム可能なメトリックが生成され、単純で非合理的な再ランクポリシーがAPを大きなマージンで改善できることが示される。
我々は,近年の大規模語彙検出の進歩をベンチマークし,新たなクラスごとの独立性評価において,多くの報告された利益が改善に結びついていないことを発見した。
論文 参考訳(メタデータ) (2021-02-01T18:56:02Z) - Learning with Out-of-Distribution Data for Audio Classification [60.48251022280506]
我々は,OODインスタンスを破棄するよりも,特定のOODインスタンスを検出・復号化することで,学習に肯定的な影響を及ぼすことを示す。
提案手法は,畳み込みニューラルネットワークの性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-02-11T21:08:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。