論文の概要: Random Word Data Augmentation with CLIP for Zero-Shot Anomaly Detection
- arxiv url: http://arxiv.org/abs/2308.11119v2
- Date: Fri, 22 Sep 2023 18:08:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 01:07:50.987423
- Title: Random Word Data Augmentation with CLIP for Zero-Shot Anomaly Detection
- Title(参考訳): ゼロショット異常検出のためのクリップによるランダム単語データ拡張
- Authors: Masato Tamura
- Abstract要約: 本稿では,ゼロショット異常検出のためのデータソースとして,視覚言語モデルCLIPを利用する新しい手法を提案する。
生成された埋め込みをトレーニングデータとして使用することにより、フィードフォワードニューラルネットワークは、CLIPの埋め込みから正常および異常の特徴を抽出する。
実験により, ゼロショット設定において, 精巧なプロンプトアンサンブルを伴わずに, 最先端の性能を達成できることが実証された。
- 参考スコア(独自算出の注目度): 3.75292409381511
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a novel method that leverages a visual-language model,
CLIP, as a data source for zero-shot anomaly detection. Tremendous efforts have
been put towards developing anomaly detectors due to their potential industrial
applications. Considering the difficulty in acquiring various anomalous samples
for training, most existing methods train models with only normal samples and
measure discrepancies from the distribution of normal samples during inference,
which requires training a model for each object category. The problem of this
inefficient training requirement has been tackled by designing a CLIP-based
anomaly detector that applies prompt-guided classification to each part of an
image in a sliding window manner. However, the method still suffers from the
labor of careful prompt ensembling with known object categories. To overcome
the issues above, we propose leveraging CLIP as a data source for training. Our
method generates text embeddings with the text encoder in CLIP with typical
prompts that include words of normal and anomaly. In addition to these words,
we insert several randomly generated words into prompts, which enables the
encoder to generate a diverse set of normal and anomalous samples. Using the
generated embeddings as training data, a feed-forward neural network learns to
extract features of normal and anomaly from CLIP's embeddings, and as a result,
a category-agnostic anomaly detector can be obtained without any training
images. Experimental results demonstrate that our method achieves
state-of-the-art performance without laborious prompt ensembling in zero-shot
setups.
- Abstract(参考訳): 本稿では,ゼロショット異常検出のためのデータソースとして,視覚言語モデルCLIPを利用する新しい手法を提案する。
産業応用の可能性から異常検出器の開発に多大な努力が払われている。
トレーニングのための様々な異常なサンプルを取得することの難しさを考慮すると、既存の手法のほとんどは正常なサンプルのみを用いてモデルを訓練し、推論中の正常なサンプルの分布との差異を測定する。
この非効率なトレーニング要件の問題は、スライドウインドウ方式で画像の各部分に即時誘導分類を適用するCLIPベースの異常検出器を設計することで解決されている。
しかし、この方法はまだ既知のオブジェクトカテゴリを慎重にセンシングする作業に苦しむ。
上記の問題を克服するため、トレーニング用のデータソースとしてCLIPを活用することを提案する。
テキストエンコーダをCLIPのテキストエンコーダに埋め込み、正規語や異常語を含む典型的なプロンプトを生成する。
これらの単語に加えて、ランダムに生成された複数の単語をプロンプトに挿入することで、エンコーダは様々な正規および異常なサンプルを生成することができる。
生成された埋め込みをトレーニングデータとして、フィードフォワードニューラルネットワークは、クリップの埋め込みから正常および異常の特徴を抽出するように学習し、その結果、トレーニング画像なしでカテゴリ非依存の異常検出を行うことができる。
実験により, ゼロショットセットアップにおいて, 精巧なプロンプトアンサンブルを伴わずに, 最先端の性能を達成できることが実証された。
関連論文リスト
- Fine-grained Abnormality Prompt Learning for Zero-shot Anomaly Detection [88.34095233600719]
FAPromptは、より正確なZSADのためにきめ細かい異常プロンプトを学習するために設計された新しいフレームワークである。
画像レベルおよび画素レベルのZSADタスクにおいて、最先端の手法を少なくとも3%-5%のAUC/APで大幅に上回っている。
論文 参考訳(メタデータ) (2024-10-14T08:41:31Z) - Toward Generalist Anomaly Detection via In-context Residual Learning with Few-shot Sample Prompts [25.629973843455495]
Generalist Anomaly Detection (GAD)は、ターゲットデータにさらなるトレーニングを加えることなく、さまざまなアプリケーションドメインからさまざまなデータセットの異常を検出するために一般化可能な、単一の検出モデルをトレーニングすることを目的としている。
InCTRLと呼ばれるGADのための文脈内残差学習モデルを学習する新しい手法を提案する。
InCTRLは最高のパフォーマーであり、最先端の競合手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-03-11T08:07:46Z) - Video Anomaly Detection via Spatio-Temporal Pseudo-Anomaly Generation : A Unified Approach [49.995833831087175]
本研究は,画像のマスキング領域にペンキを塗布することにより,汎用的な映像時間PAを生成する手法を提案する。
さらに,OCC設定下での現実世界の異常を検出するための単純な統合フレームワークを提案する。
提案手法は,OCC設定下での既存のPAs生成および再構築手法と同等に動作する。
論文 参考訳(メタデータ) (2023-11-27T13:14:06Z) - Anomaly Detection in Automated Fibre Placement: Learning with Data
Limitations [3.103778949672542]
自動繊維配置における欠陥検出と局所化のための包括的枠組みを提案する。
我々のアプローチは教師なしのディープラーニングと古典的なコンピュータビジョンアルゴリズムを組み合わせる。
様々な表面の問題を効率よく検出し、訓練のために複合部品のイメージを少なくする。
論文 参考訳(メタデータ) (2023-07-15T22:13:36Z) - Self-Supervised Training with Autoencoders for Visual Anomaly Detection [61.62861063776813]
我々は, 正規サンプルの分布を低次元多様体で支持する異常検出において, 特定のユースケースに焦点を当てた。
我々は、訓練中に識別情報を活用する自己指導型学習体制に適応するが、通常の例のサブ多様体に焦点をあてる。
製造領域における視覚異常検出のための挑戦的なベンチマークであるMVTec ADデータセットで、最先端の新たな結果を達成する。
論文 参考訳(メタデータ) (2022-06-23T14:16:30Z) - Explainable Deep Few-shot Anomaly Detection with Deviation Networks [123.46611927225963]
本稿では,弱い教師付き異常検出フレームワークを導入し,検出モデルを訓練する。
提案手法は,ラベル付き異常と事前確率を活用することにより,識別正規性を学習する。
我々のモデルはサンプル効率が高く頑健であり、クローズドセットとオープンセットの両方の設定において最先端の競合手法よりもはるかに優れている。
論文 参考訳(メタデータ) (2021-08-01T14:33:17Z) - Understanding Classifier Mistakes with Generative Models [88.20470690631372]
ディープニューラルネットワークは教師付き学習タスクに有効であるが、脆弱であることが示されている。
本稿では、生成モデルを利用して、分類器が一般化に失敗するインスタンスを特定し、特徴付ける。
我々のアプローチは、トレーニングセットのクラスラベルに依存しないため、半教師付きでトレーニングされたモデルに適用できる。
論文 参考訳(メタデータ) (2020-10-05T22:13:21Z) - A Background-Agnostic Framework with Adversarial Training for Abnormal
Event Detection in Video [120.18562044084678]
近年,ビデオにおける異常事象検出は複雑なコンピュータビジョンの問題として注目されている。
通常のイベントのみを含むトレーニングビデオから学習するバックグラウンドに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-27T18:39:24Z) - G2D: Generate to Detect Anomaly [10.977404378308817]
我々は、通常のサンプルのみを用いて、GANスタイルの2つのディープニューラルネットワーク(ジェネレータと判別器)を学習する。
トレーニングフェーズでは、ジェネレータが正常なデータの生成に失敗した場合、不規則なジェネレータと見なすことができる。
生成した異常サンプルのバイナリ分類器と正常なインスタンスをトレーニングして不規則を検出する。
論文 参考訳(メタデータ) (2020-06-20T18:02:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。