論文の概要: AUPIMO: Redefining Visual Anomaly Detection Benchmarks with High Speed
and Low Tolerance
- arxiv url: http://arxiv.org/abs/2401.01984v1
- Date: Wed, 3 Jan 2024 21:24:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-05 16:20:28.295766
- Title: AUPIMO: Redefining Visual Anomaly Detection Benchmarks with High Speed
and Low Tolerance
- Title(参考訳): AUPIMO:高速かつ低耐性で視覚異常検出ベンチマークを再定義する
- Authors: Joao P. C. Bertoldo and Dick Ameln and Ashwin Vaidya and Samet
Ak\c{c}ay
- Abstract要約: Per-IMage Overlap(PIMO)は、AUROCとAUPROの欠点に対処する新しいメトリクスである。
画像ごとのリコールの測定は、計算を単純化し、ノイズの多いアノテーションに対してより堅牢である。
実験の結果,PIMOは実用的優位性があり,性能の見識に乏しいことがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent advances in visual anomaly detection research have seen AUROC and
AUPRO scores on public benchmark datasets such as MVTec and VisA converge
towards perfect recall, giving the impression that these benchmarks are
near-solved. However, high AUROC and AUPRO scores do not always reflect
qualitative performance, which limits the validity of these metrics in
real-world applications. We argue that the artificial ceiling imposed by the
lack of an adequate evaluation metric restrains progression of the field, and
it is crucial that we revisit the evaluation metrics used to rate our
algorithms. In response, we introduce Per-IMage Overlap (PIMO), a novel metric
that addresses the shortcomings of AUROC and AUPRO. PIMO retains the
recall-based nature of the existing metrics but introduces two distinctions:
the assignment of curves (and respective area under the curve) is per-image,
and its X-axis relies solely on normal images. Measuring recall per image
simplifies instance score indexing and is more robust to noisy annotations. As
we show, it also accelerates computation and enables the usage of statistical
tests to compare models. By imposing low tolerance for false positives on
normal images, PIMO provides an enhanced model validation procedure and
highlights performance variations across datasets. Our experiments demonstrate
that PIMO offers practical advantages and nuanced performance insights that
redefine anomaly detection benchmarks -- notably challenging the perception
that MVTec AD and VisA datasets have been solved by contemporary models.
Available on GitHub: https://github.com/jpcbertoldo/aupimo.
- Abstract(参考訳): 視覚異常検出研究の最近の進歩は、MVTecやVisAのような公開ベンチマークデータセットにおけるAUROCとAUPROのスコアが完全なリコールへと収束し、これらのベンチマークがほぼ解決されているという印象を与えている。
しかしながら、aurocとauproスコアは必ずしも定性的なパフォーマンスを反映していないため、現実世界のアプリケーションにおけるこれらのメトリクスの妥当性が制限されている。
適切な評価基準の欠如によって課される人工天井は,フィールドの進行を抑えるものであり,我々のアルゴリズムを評価するために用いられる評価基準を再考することが重要である。
本稿では,AUROC と AUPRO の欠点に対処する新しい指標である Per-IMage Overlap (PIMO) を紹介する。
PIMOは既存のメトリクスのリコールベースの性質を保っているが、曲線の割り当て(および曲線の下の各領域)は画像ごとであり、X軸は通常の画像にのみ依存する。
イメージ毎のリコールの測定はインスタンススコアのインデックス化を単純化し、ノイズの多いアノテーションに対してより堅牢である。
我々が示すように、計算を加速し、統計テストを使ってモデルを比較することができる。
通常の画像に対する偽陽性に対する耐性を低くすることで、PIMOは強化されたモデル検証手順を提供し、データセット間のパフォーマンスのばらつきを強調する。
我々の実験では、PIMOは、異常検出ベンチマークを再定義する実用的な利点と、パフォーマンス上の見識を提供する。特にMVTec ADとVisAデータセットが現代のモデルによって解決されたという認識に挑戦する。
https://github.com/jpcbertoldo/aupimo。
関連論文リスト
- Beyond the Numbers: Transparency in Relation Extraction Benchmark Creation and Leaderboards [5.632231145349045]
本稿では,NLPにおけるベンチマーク作成の透明性と,NLPの進捗測定におけるリーダボードの利用について検討する。
既存の関係抽出ベンチマークは、ドキュメントが不十分で重要な詳細が欠如していることが多い。
議論の中心はREベンチマークとリーダボードの透明性ですが、議論する観察は他のNLPタスクにも広く適用できます。
論文 参考訳(メタデータ) (2024-11-07T22:36:19Z) - LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2024-10-14T17:51:23Z) - CableInspect-AD: An Expert-Annotated Anomaly Detection Dataset [14.246172794156987]
$textitCableInspect-AD$は、カナダの公共ユーティリティであるHydro-Qu'ebecのドメインエキスパートによって作成、注釈付けされた高品質なデータセットである。
このデータセットには、現実世界の異常に挑戦する高解像度の画像が含まれており、さまざまな重度レベルの欠陥をカバーしている。
モデルの性能を評価するために,クロスバリデーションに基づく包括的評価プロトコルを提案する。
論文 参考訳(メタデータ) (2024-09-30T14:50:13Z) - Weak Supervision Performance Evaluation via Partial Identification [46.73061437177238]
Programmatic Weak Supervision (PWS) は、地上の真理ラベルに直接アクセスすることなく、教師付きモデルトレーニングを可能にする。
本稿では,モデル評価を部分的同定問題としてフレーミングすることで,この問題に対処する新しい手法を提案する。
提案手法は,従来の弱監督評価手法において,ラベル付きデータを必要とせず,重要な指標に信頼性のあるバウンダリを導出する。
論文 参考訳(メタデータ) (2023-12-07T07:15:11Z) - Detecting Edit Failures In Large Language Models: An Improved
Specificity Benchmark [9.45927470587879]
既存のCounterFactベンチマークを動的コンポーネントを含むように拡張し、ベンチマークのCounterFact+をダブします。
この改良されたベンチマークを用いて、最近のモデル編集技術の評価を行い、それらが低特異性に悩まされていることを確認する。
論文 参考訳(メタデータ) (2023-05-27T19:08:04Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - Exploring validation metrics for offline model-based optimisation with
diffusion models [50.404829846182764]
モデルベース最適化(MBO)では、マシンラーニングを使用して、(基底真理)オラクルと呼ばれるブラックボックス関数に対する報酬の尺度を最大化する候補を設計することに興味があります。
モデル検証中に基底オラクルに対する近似をトレーニングし、その代わりに使用することができるが、その評価は近似的であり、敵の例に対して脆弱である。
本手法は,外挿量を測定するために提案した評価フレームワークにカプセル化されている。
論文 参考訳(メタデータ) (2022-11-19T16:57:37Z) - Be Your Own Neighborhood: Detecting Adversarial Example by the
Neighborhood Relations Built on Self-Supervised Learning [64.78972193105443]
本稿では,予測に有効な新しいAE検出フレームワークを提案する。
AEの異常な関係と拡張バージョンを区別して検出を行う。
表現を抽出し、ラベルを予測するために、既製の自己監視学習(SSL)モデルが使用される。
論文 参考訳(メタデータ) (2022-08-31T08:18:44Z) - No Shifted Augmentations (NSA): compact distributions for robust
self-supervised Anomaly Detection [4.243926243206826]
教師なし異常検出(AD)は正規化の概念を構築し、分布内(ID)と分布外(OOD)データを区別する必要がある。
我々は,ID特徴分布のエンフ幾何学的コンパクト性によって,外乱の分離や検出が容易になるかを検討する。
我々は,IDデータのコンパクトな分布を学習可能にする自己教師型特徴学習ステップに,新たなアーキテクチャ変更を提案する。
論文 参考訳(メタデータ) (2022-03-19T15:55:32Z) - Open-Set Recognition: A Good Closed-Set Classifier is All You Need [146.6814176602689]
分類器が「ゼロ・オブ・ア・ア・ア・ベ」決定を行う能力は、閉集合クラスにおける精度と高い相関関係があることが示される。
この相関を利用して、閉セット精度を向上させることにより、クロスエントロピーOSR'ベースライン'の性能を向上させる。
また、セマンティックノベルティを検出するタスクをより尊重する新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2021-10-12T17:58:59Z) - Dense Label Encoding for Boundary Discontinuity Free Rotation Detection [69.75559390700887]
本稿では,分類に基づく比較的研究の少ない方法論について検討する。
我々は2つの側面でフロンティアを推し進めるための新しい手法を提案する。
航空画像のための大規模公開データセットの実験と視覚解析は,我々のアプローチの有効性を示している。
論文 参考訳(メタデータ) (2020-11-19T05:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。