論文の概要: MFP-CLIP: Exploring the Efficacy of Multi-Form Prompts for Zero-Shot Industrial Anomaly Detection
- arxiv url: http://arxiv.org/abs/2503.12910v1
- Date: Mon, 17 Mar 2025 08:18:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:30:34.091072
- Title: MFP-CLIP: Exploring the Efficacy of Multi-Form Prompts for Zero-Shot Industrial Anomaly Detection
- Title(参考訳): MFP-CLIP:ゼロショット産業異常検出のための多形プロンプトの有効性を探る
- Authors: Jingyi Yuan, Pengyu Jie, Junyin Zhang, Ziao Li, Chenqiang Gao,
- Abstract要約: ゼロショット異常検出のためのマルチフォームプロンプトの有効性を探索する新しいプロンプトベースのCLIPフレームワークを提案する。
画像中のオブジェクトをよりよく表現するために、画像からテキストへのプロンプト(I2TP)機構を用いる。
欠陥を正確に特定するために,マスクプロンプト(MP)モジュールを導入し,潜在的な異常領域に焦点をあてる。
- 参考スコア(独自算出の注目度): 7.814317197240596
- License:
- Abstract: Recently, zero-shot anomaly detection (ZSAD) has emerged as a pivotal paradigm for identifying defects in unseen categories without requiring target samples in training phase. However, existing ZSAD methods struggle with the boundary of small and complex defects due to insufficient representations. Most of them use the single manually designed prompts, failing to work for diverse objects and anomalies. In this paper, we propose MFP-CLIP, a novel prompt-based CLIP framework which explores the efficacy of multi-form prompts for zero-shot industrial anomaly detection. We employ an image to text prompting(I2TP) mechanism to better represent the object in the image. MFP-CLIP enhances perception to multi-scale and complex anomalies by self prompting(SP) and a multi-patch feature aggregation(MPFA) module. To precisely localize defects, we introduce the mask prompting(MP) module to guide model to focus on potential anomaly regions. Extensive experiments are conducted on two wildly used industrial anomaly detection benchmarks, MVTecAD and VisA, demonstrating MFP-CLIP's superiority in ZSAD.
- Abstract(参考訳): 近年、ゼロショット異常検出(ZSAD)は、トレーニングフェーズにおいてターゲットサンプルを必要とせず、目に見えないカテゴリの欠陥を識別するための重要なパラダイムとして出現している。
しかし、既存のZSAD法は、表現が不十分なため、小さな欠陥と複雑な欠陥の境界に苦しむ。
その多くは手動で設計したプロンプトを使用しており、多様なオブジェクトや異常に対して機能しない。
本稿では、ゼロショット産業異常検出のためのマルチフォームプロンプトの有効性を探求する新しいプロンプトベースのCLIPフレームワークであるMFP-CLIPを提案する。
画像中のオブジェクトをよりよく表現するために、画像からテキストへのプロンプト(I2TP)機構を用いる。
MFP-CLIPは、自己プロンプト(SP)とマルチパッチ機能アグリゲーション(MPFA)モジュールにより、マルチスケールおよび複雑な異常に対する知覚を高める。
欠陥を正確に特定するために,マスクプロンプト(MP)モジュールを導入し,潜在的な異常領域に焦点をあてる。
ZSADにおけるMFP-CLIPの優位性を示すために, MVTecAD と VisA の2つの産業異常検出ベンチマークを用いて広範囲な実験を行った。
関連論文リスト
- FiLo++: Zero-/Few-Shot Anomaly Detection by Fused Fine-Grained Descriptions and Deformable Localization [28.994585945398754]
異常検出法は通常、訓練のためにターゲットクラスからの広範な正常なサンプルを必要とする。
既存のゼロショットと少数ショットのアプローチは、しばしば強力なマルチモーダルモデルを利用して異常を検出し、ローカライズする。
本稿では,2つの鍵成分からなるFiLo++法を提案する。
論文 参考訳(メタデータ) (2025-01-17T09:38:43Z) - ForgeryGPT: Multimodal Large Language Model For Explainable Image Forgery Detection and Localization [49.12958154544838]
ForgeryGPTはImage Forgery DetectionとLocalizationタスクを進化させる新しいフレームワークである。
多様な言語的特徴空間からの偽画像の高次相関をキャプチャする。
新たにカスタマイズされたLarge Language Model (LLM)アーキテクチャを通じて、説明可能な生成と対話を可能にする。
論文 参考訳(メタデータ) (2024-10-14T07:56:51Z) - VMAD: Visual-enhanced Multimodal Large Language Model for Zero-Shot Anomaly Detection [19.79027968793026]
Zero-shot Anomaly Detection (ZSAD)は、未確認のオブジェクト内の異常を認識し、ローカライズする。
既存のZSADメソッドは、クローズドワールド設定によって制限され、事前に定義されたプロンプトで見つからない欠陥に苦労する。
我々は、視覚的IAD知識ときめ細かい知覚でMLLMを強化する新しいフレームワークVMAD(Visual-enhanced MLLM Anomaly Detection)を提案する。
論文 参考訳(メタデータ) (2024-09-30T09:51:29Z) - Mixture-of-Noises Enhanced Forgery-Aware Predictor for Multi-Face Manipulation Detection and Localization [52.87635234206178]
本稿では,多面的操作検出と局所化に適したMoNFAPという新しいフレームワークを提案する。
このフレームワークには2つの新しいモジュールが含まれている: Forgery-aware Unified Predictor (FUP) Module と Mixture-of-Noises Module (MNM)。
論文 参考訳(メタデータ) (2024-08-05T08:35:59Z) - Prior Normality Prompt Transformer for Multi-class Industrial Image Anomaly Detection [6.865429486202104]
マルチクラス異常検出のためのPNPT(Presideor Normality Prompt Transformer)を導入する。
PNPTは戦略的に通常の意味論を取り入れ、「アイデンティティマッピング」問題を緩和する。
これにより、事前の正規性プロンプトを再構築プロセスに統合し、二重ストリームモデルを生成する。
論文 参考訳(メタデータ) (2024-06-17T13:10:04Z) - PromptAD: Learning Prompts with only Normal Samples for Few-Shot Anomaly Detection [59.34973469354926]
本稿では,PromptADと呼ばれる,数発の異常検出のための一級プロンプト学習手法を提案する。
画像レベル/ピクセルレベルの異常検出のために、PromptADはMVTecとVisAで11/12のショット設定で1位を達成した。
論文 参考訳(メタデータ) (2024-04-08T06:53:30Z) - Toward Multi-class Anomaly Detection: Exploring Class-aware Unified Model against Inter-class Interference [67.36605226797887]
統一型異常検出(MINT-AD)のためのマルチクラスインプリシトニューラル表現変換器を提案する。
マルチクラス分布を学習することにより、モデルが変換器デコーダのクラス対応クエリ埋め込みを生成する。
MINT-ADは、カテゴリと位置情報を特徴埋め込み空間に投影することができ、さらに分類と事前確率損失関数によって監督される。
論文 参考訳(メタデータ) (2024-03-21T08:08:31Z) - Hard-normal Example-aware Template Mutual Matching for Industrial Anomaly Detection [78.734927709231]
異常検出器は、クエリー画像の未知の欠陥を検出し、ローカライズするために工業製造で広く使われている。
これらの検出器は異常のないサンプルで訓練され、ほとんどの通常のサンプルと区別された異常を成功させた。
しかし、ハードノーマルな例は、ほとんどの通常のサンプルから遠く離れており、しばしば既存の方法によって異常と誤認される。
論文 参考訳(メタデータ) (2023-03-28T17:54:56Z) - BatchFormerV2: Exploring Sample Relationships for Dense Representation
Learning [88.82371069668147]
BatchFormerV2はより一般的なバッチトランスフォーマーモジュールである。
BatchFormerV2は、現在のDETRベースの検出方法を1.3%以上改善している。
論文 参考訳(メタデータ) (2022-04-04T05:53:42Z) - UFPMP-Det: Toward Accurate and Efficient Object Detection on Drone
Imagery [26.27705791338182]
本稿では,UFPMP-Det(Unified Foreground Packing)を用いたマルチプロキシ検出ネットワーク(Multi-Proxy Detection Network)を提案する。
UFPMP-Detは、高解像度の入力画像をフォアグラウンド比の低いかなり多くのチップに分割して検出する一般的なソリューションとは異なる、非常に小さなスケールの多数のインスタンスを扱うように設計されている。
広く使われているVisDroneとUAVDTデータセットで実験が行われ、UFPMP-Detは新たな最先端スコアをはるかに高速で報告し、その利点を強調している。
論文 参考訳(メタデータ) (2021-12-20T09:28:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。