論文の概要: PromptMAD: Cross-Modal Prompting for Multi-Class Visual Anomaly Localization
- arxiv url: http://arxiv.org/abs/2601.22492v1
- Date: Fri, 30 Jan 2026 03:04:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.183599
- Title: PromptMAD: Cross-Modal Prompting for Multi-Class Visual Anomaly Localization
- Title(参考訳): PromptMAD: マルチクラス視覚異常ローカライゼーションのためのクロスモーダルプロンプト
- Authors: Duncan McCain, Hossein Kashiani, Fatemeh Afghah,
- Abstract要約: 本稿では,教師なし視覚異常検出と局所化のためのクロスモーダルプロンプトフレームワークPromptMADを提案する。
本手法は,意味的コンテキストによる視覚的再構成を強化し,微妙・テクスチュラルな異常の検出を改善する。
我々のアーキテクチャには、マルチスケールの畳み込み機能とトランスフォーマーに基づく空間的注意を融合させる教師付きセグメンタも含まれている。
- 参考スコア(独自算出の注目度): 9.018570847586878
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual anomaly detection in multi-class settings poses significant challenges due to the diversity of object categories, the scarcity of anomalous examples, and the presence of camouflaged defects. In this paper, we propose PromptMAD, a cross-modal prompting framework for unsupervised visual anomaly detection and localization that integrates semantic guidance through vision-language alignment. By leveraging CLIP-encoded text prompts describing both normal and anomalous class-specific characteristics, our method enriches visual reconstruction with semantic context, improving the detection of subtle and textural anomalies. To further address the challenge of class imbalance at the pixel level, we incorporate Focal loss function, which emphasizes hard-to-detect anomalous regions during training. Our architecture also includes a supervised segmentor that fuses multi-scale convolutional features with Transformer-based spatial attention and diffusion iterative refinement, yielding precise and high-resolution anomaly maps. Extensive experiments on the MVTec-AD dataset demonstrate that our method achieves state-of-the-art pixel-level performance, improving mean AUC to 98.35% and AP to 66.54%, while maintaining efficiency across diverse categories.
- Abstract(参考訳): 多クラス設定での視覚異常検出は、オブジェクトカテゴリの多様性、異常な例の不足、カモフラージュした欠陥の存在など、重大な課題を生じさせる。
本稿では,視覚言語アライメントによる意味指導を統合した,教師なし視覚異常検出と局所化のためのクロスモーダルプロンプトフレームワークであるPromptMADを提案する。
正規および異常なクラス固有の特徴を記述したCLIP符号化テキストのプロンプトを活用することにより、意味的コンテキストによる視覚的再構成を強化し、微妙かつテキスト的異常の検出を改善する。
画素レベルでのクラス不均衡の課題にさらに対処するため、トレーニング中に検出しにくい異常領域を強調するFocal loss関数を組み込んだ。
我々のアーキテクチャには、マルチスケールの畳み込み特徴とトランスフォーマーに基づく空間的注意と拡散反復的改善を融合し、高精度かつ高解像度の異常マップを生成する教師付きセグメンタも含まれている。
MVTec-ADデータセットの大規模な実験により、我々の手法は最先端のピクセルレベルの性能を達成し、平均AUCを98.35%、APを66.54%に改善し、多様なカテゴリで効率を維持できることを示した。
関連論文リスト
- Towards Fine-Grained Vision-Language Alignment for Few-Shot Anomaly Detection [65.29550320117526]
我々はFinGrainedADという新しいフレームワークを提案し、異常なローカライゼーション性能を改善する。
実験により、提案されたFinGrainedADは、数ショット設定で全体的なパフォーマンスが優れていることが示された。
論文 参考訳(メタデータ) (2025-10-30T13:09:00Z) - Saccadic Vision for Fine-Grained Visual Classification [10.681604440788854]
きめ細かい視覚分類(FGVC)は、微妙で局所的な特徴によって視覚的に類似したカテゴリーを区別する必要がある。
既存のパートベースの手法は、ピクセルからサンプル空間へのマッピングを学習する複雑なローカライゼーションネットワークに依存している。
本稿では,まず周辺特徴を抽出し,サンプルマップを生成する2段階プロセスを提案する。
我々は、周辺と焦点の表現を融合する前に、各固定パッチの影響を定量的に評価するために、文脈選択的注意を用いる。
論文 参考訳(メタデータ) (2025-09-19T07:03:37Z) - CLIP Meets Diffusion: A Synergistic Approach to Anomaly Detection [49.11819337853632]
異常検出は、異常の定義の曖昧さ、異常型の多様性、トレーニングデータの不足による複雑な問題である。
識別的基盤モデルと生成的基礎モデルの両方を活用するCLIPfusionを提案する。
本手法は, 異常検出の多面的課題に対処する上で, マルチモーダル・マルチモデル融合の有効性を裏付けるものである。
論文 参考訳(メタデータ) (2025-06-13T13:30:15Z) - Crane: Context-Guided Prompt Learning and Attention Refinement for Zero-Shot Anomaly Detection [50.343419243749054]
異常検出は、医学診断や工業的欠陥検出などの分野において重要である。
CLIPの粗粒化画像テキストアライメントは、微粒化異常に対する局所化と検出性能を制限する。
クレーンは最先端のZSADを2%から28%に改善し、画像レベルとピクセルレベルの両方で、推論速度では競争力を維持している。
論文 参考訳(メタデータ) (2025-04-15T10:42:25Z) - Patch-aware Vector Quantized Codebook Learning for Unsupervised Visual Defect Detection [4.081433571732692]
産業応用においては、教師なしの視覚欠陥検出が重要である。
教師なし欠陥検出に最適化された拡張VQ-VAEフレームワークを用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-15T22:26:26Z) - Change-Aware Siamese Network for Surface Defects Segmentation under Complex Background [0.6407952035735353]
変更検出フレームワークにおける欠陥セグメント化を解消する変更対応のSiameseネットワークを提案する。
トランスフォーマーベースのエンコーダを導くために,新しいマルチクラスのコントラスト損失を導入した。
距離マップで示される差分は、変更対応デコーダにスキップ接続され、クラス間およびクラス外の両方の欠陥の位置をアシストする。
論文 参考訳(メタデータ) (2024-09-01T02:48:11Z) - DiAD: A Diffusion-based Framework for Multi-class Anomaly Detection [55.48770333927732]
本稿では,拡散型異常検出(Difusion-based Anomaly Detection, DAD)フレームワークを提案する。
画素空間オートエンコーダ、安定拡散の復調ネットワークに接続する潜在空間セマンティックガイド(SG)ネットワーク、特徴空間事前学習機能抽出器から構成される。
MVTec-ADとVisAデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-12-11T18:38:28Z) - Improving Vision Anomaly Detection with the Guidance of Language
Modality [64.53005837237754]
本稿では,マルチモーダルの観点から視覚モダリティの課題に取り組む。
本稿では,冗長な情報問題とスパース空間問題に対処するために,クロスモーダルガイダンス(CMG)を提案する。
視覚異常検出のためのよりコンパクトな潜在空間を学習するために、CMLEは言語モダリティから相関構造行列を学習する。
論文 参考訳(メタデータ) (2023-10-04T13:44:56Z) - Learning Prompt-Enhanced Context Features for Weakly-Supervised Video
Anomaly Detection [37.99031842449251]
弱い監督下での映像異常検出は重大な課題を呈する。
本稿では,効率的なコンテキストモデリングとセマンティック識別性の向上に焦点をあてた,弱教師付き異常検出フレームワークを提案する。
提案手法は,特定の異常なサブクラスの検出精度を大幅に向上させ,その実用的価値と有効性を裏付けるものである。
論文 参考訳(メタデータ) (2023-06-26T06:45:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。