論文の概要: AnomalyCLIP: Object-agnostic Prompt Learning for Zero-shot Anomaly Detection
- arxiv url: http://arxiv.org/abs/2310.18961v7
- Date: Thu, 14 Mar 2024 14:08:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-16 02:22:46.586807
- Title: AnomalyCLIP: Object-agnostic Prompt Learning for Zero-shot Anomaly Detection
- Title(参考訳): AnomalyCLIP:ゼロショット異常検出のための物体認識型プロンプト学習
- Authors: Qihang Zhou, Guansong Pang, Yu Tian, Shibo He, Jiming Chen,
- Abstract要約: AnomalyCLIPはオブジェクトに依存しないテキストを学習し、画像の一般的な正規性と異常をキャプチャする。
非常に多様なクラスセマンティクスのデータセットにおける異常の検出とセグメンテーションにおいて、優れたゼロショット性能を実現する。
- 参考スコア(独自算出の注目度): 30.679012320439625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot anomaly detection (ZSAD) requires detection models trained using auxiliary data to detect anomalies without any training sample in a target dataset. It is a crucial task when training data is not accessible due to various concerns, eg, data privacy, yet it is challenging since the models need to generalize to anomalies across different domains where the appearance of foreground objects, abnormal regions, and background features, such as defects/tumors on different products/organs, can vary significantly. Recently large pre-trained vision-language models (VLMs), such as CLIP, have demonstrated strong zero-shot recognition ability in various vision tasks, including anomaly detection. However, their ZSAD performance is weak since the VLMs focus more on modeling the class semantics of the foreground objects rather than the abnormality/normality in the images. In this paper we introduce a novel approach, namely AnomalyCLIP, to adapt CLIP for accurate ZSAD across different domains. The key insight of AnomalyCLIP is to learn object-agnostic text prompts that capture generic normality and abnormality in an image regardless of its foreground objects. This allows our model to focus on the abnormal image regions rather than the object semantics, enabling generalized normality and abnormality recognition on diverse types of objects. Large-scale experiments on 17 real-world anomaly detection datasets show that AnomalyCLIP achieves superior zero-shot performance of detecting and segmenting anomalies in datasets of highly diverse class semantics from various defect inspection and medical imaging domains. Code will be made available at https://github.com/zqhang/AnomalyCLIP.
- Abstract(参考訳): ゼロショット異常検出(ZSAD)は、ターゲットデータセットのトレーニングサンプルなしで異常を検出するために補助データを使用してトレーニングされた検出モデルを必要とする。
さまざまな関心事,例えばデータのプライバシなどによって,トレーニングデータにアクセスできない場合には重要な課題だが,前景オブジェクトの出現や異常領域,さまざまな製品や組織の欠陥や腫瘍などのバックグラウンド機能など,さまざまな領域にわたる異常に一般化する必要があるため,大きな課題がある。
近年、CLIPのような大規模な事前学習された視覚言語モデル(VLM)は、異常検出を含む様々な視覚タスクにおいて強力なゼロショット認識能力を示している。
しかし、VLMは画像の異常や異常ではなく、前景オブジェクトのクラスセマンティクスをモデル化することに重点を置いているため、ZSAD性能は弱い。
本稿では、AnomalyCLIPと呼ばれる新しいアプローチを導入し、CLIPを異なるドメイン間で正確なZSADに適応させる。
AnomalyCLIPの重要な洞察は、オブジェクトに依存しないテキストのプロンプトを学習することであり、前景のオブジェクトに関係なく、画像の一般的な正規性と異常をキャプチャする。
これにより、オブジェクトのセマンティクスではなく、異常画像領域に焦点を合わせることができ、多種多様なオブジェクトに対する一般化された正規性と異常認識を可能にする。
17個の実世界の異常検出データセットに対する大規模な実験により、AnomalyCLIPは、様々な欠陥検査と医用画像領域からの高度に多様なクラスセマンティクスのデータセットにおいて、異常を検出し、セグメンテーションする優れたゼロショット性能を達成している。
コードはhttps://github.com/zqhang/AnomalyCLIPで公開される。
関連論文リスト
- Toward Generalist Anomaly Detection via In-context Residual Learning
with Few-shot Sample Prompts [30.278418852521344]
Generalist Anomaly Detection (GAD)は、ターゲットデータにさらなるトレーニングを加えることなく、異なるアプリケーションドメインからさまざまなデータセットの異常を検出するために一般化可能な、単一の検出モデルをトレーニングすることを目的としている。
InCTRLと呼ばれるGADのための文脈内残差学習モデルを学習する新しい手法を提案する。
クエリ画像と数発のサンプルプロンプト間の残差の全体的評価に基づいて、通常のサンプルから異常を識別する補助データセットを用いて訓練する。
論文 参考訳(メタデータ) (2024-03-11T08:07:46Z) - Learn Suspected Anomalies from Event Prompts for Video Anomaly Detection [49.91075101563298]
イベントプロンプトから疑わしい異常の学習を導くための新しい枠組みが提案されている。
これにより、新しいマルチプロンプト学習プロセスにより、すべてのビデオの視覚的セマンティックな特徴を制限できる。
提案手法はAPやAUCといった最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-03-02T10:42:47Z) - Self-supervised Feature Adaptation for 3D Industrial Anomaly Detection [59.41026558455904]
具体的には,大規模ビジュアルデータセット上で事前学習されたモデルを利用した初期のマルチモーダルアプローチについて検討する。
本研究では,アダプタを微調整し,異常検出に向けたタスク指向の表現を学習するためのLSFA法を提案する。
論文 参考訳(メタデータ) (2024-01-06T07:30:41Z) - Open-Vocabulary Video Anomaly Detection [57.552523669351636]
監視の弱いビデオ異常検出(VAD)は、ビデオフレームが正常であるか異常であるかを識別するためにビデオレベルラベルを利用する際、顕著な性能を達成した。
近年の研究は、より現実的な、オープンセットのVADに取り組み、異常や正常なビデオから見えない異常を検出することを目的としている。
本稿ではさらに一歩前進し、未確認および未確認の異常を検知・分類するために訓練済みの大規模モデルを活用することを目的とした、オープン語彙ビデオ異常検出(OVVAD)について検討する。
論文 参考訳(メタデータ) (2023-11-13T02:54:17Z) - PAD: A Dataset and Benchmark for Pose-agnostic Anomaly Detection [28.973078719467516]
我々は,多目的異常検出データセットとPose-Agnostic Anomaly Detectionベンチマークを開発する。
具体的には、さまざまなポーズと、シミュレーションと実環境の両方で高品質で多様な3D異常を持つ20個の複合形状のレゴ玩具を用いて、MADを構築します。
また,ポーズに依存しない異常検出のために,MADを用いて訓練した新しいOmniposeADを提案する。
論文 参考訳(メタデータ) (2023-10-11T17:59:56Z) - Self-Supervised Training with Autoencoders for Visual Anomaly Detection [55.52743265122446]
ディープオートエンコーダは視覚領域における異常検出のタスクに使われてきた。
我々は、訓練中に識別情報を使用することが可能な自己指導型学習体制を適用することで、この問題に対処する。
MVTec ADデータセットを用いた実験では,高い検出性能と局所化性能を示した。
論文 参考訳(メタデータ) (2022-06-23T14:16:30Z) - Domain-Generalized Textured Surface Anomaly Detection [29.88664324332402]
異常検出は、正常なデータから逸脱する異常なデータを特定することを目的としており、このタスクを実行するために十分な量の正常なデータを必要とする。
本稿では,ドメイン一般化型表面異常検出の課題に対処する。
我々のモデルは、テスト中にごく少数の正常なデータしか観測できない、見当たらないテクスチャ面に一般化されることが期待されている。
論文 参考訳(メタデータ) (2022-03-23T10:01:35Z) - Explainable Deep Few-shot Anomaly Detection with Deviation Networks [123.46611927225963]
本稿では,弱い教師付き異常検出フレームワークを導入し,検出モデルを訓練する。
提案手法は,ラベル付き異常と事前確率を活用することにより,識別正規性を学習する。
我々のモデルはサンプル効率が高く頑健であり、クローズドセットとオープンセットの両方の設定において最先端の競合手法よりもはるかに優れている。
論文 参考訳(メタデータ) (2021-08-01T14:33:17Z) - Constrained Contrastive Distribution Learning for Unsupervised Anomaly
Detection and Localisation in Medical Images [23.79184121052212]
UAD(Unsupervised Anomaly Detection)は、通常の(すなわち健康的な)画像でのみ1クラスの分類器を学習する。
異常検出のための制約コントラスト分布学習(Constrained Contrastive Distribution Learning for Anomaly Detection, CCD)を提案する。
本手法は,3種類の大腸内視鏡および底部検診データセットにおいて,最先端のUADアプローチよりも優れている。
論文 参考訳(メタデータ) (2021-03-05T01:56:58Z) - A Background-Agnostic Framework with Adversarial Training for Abnormal
Event Detection in Video [120.18562044084678]
近年,ビデオにおける異常事象検出は複雑なコンピュータビジョンの問題として注目されている。
通常のイベントのみを含むトレーニングビデオから学習するバックグラウンドに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-27T18:39:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。