論文の概要: Crane: Context-Guided Prompt Learning and Attention Refinement for Zero-Shot Anomaly Detection
- arxiv url: http://arxiv.org/abs/2504.11055v2
- Date: Mon, 11 Aug 2025 09:35:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.260343
- Title: Crane: Context-Guided Prompt Learning and Attention Refinement for Zero-Shot Anomaly Detection
- Title(参考訳): Crane: ゼロショット異常検出のためのコンテキストガイド型プロンプト学習と注意保持
- Authors: Alireza Salehi, Mohammadreza Salehi, Reshad Hosseini, Cees G. M. Snoek, Makoto Yamada, Mohammad Sabokrou,
- Abstract要約: 異常検出は、医学診断や工業的欠陥検出などの分野において重要である。
CLIPの粗粒化画像テキストアライメントは、微粒化異常に対する局所化と検出性能を制限する。
クレーンは最先端のZSADを2%から28%に改善し、画像レベルとピクセルレベルの両方で、推論速度では競争力を維持している。
- 参考スコア(独自算出の注目度): 50.343419243749054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Anomaly Detection involves identifying deviations from normal data distributions and is critical in fields such as medical diagnostics and industrial defect detection. Traditional AD methods typically require the availability of normal training samples; however, this assumption is not always feasible. Recently, the rich pretraining knowledge of CLIP has shown promising zero-shot generalization in detecting anomalies without the need for training samples from target domains. However, CLIP's coarse-grained image-text alignment limits localization and detection performance for fine-grained anomalies due to: (1) spatial misalignment, and (2) the limited sensitivity of global features to local anomalous patterns. In this paper, we propose Crane which tackles both problems. First, we introduce a correlation-based attention module to retain spatial alignment more accurately. Second, to boost the model's awareness of fine-grained anomalies, we condition the learnable prompts of the text encoder on image context extracted from the vision encoder and perform a local-to-global representation fusion. Moreover, our method can incorporate vision foundation models such as DINOv2 to further enhance spatial understanding and localization. The key insight of Crane is to balance learnable adaptations for modeling anomalous concepts with non-learnable adaptations that preserve and exploit generalized pretrained knowledge, thereby minimizing in-domain overfitting and maximizing performance on unseen domains. Extensive evaluation across 14 diverse industrial and medical datasets demonstrates that Crane consistently improves the state-of-the-art ZSAD from 2% to 28%, at both image and pixel levels, while remaining competitive in inference speed. The code is available at https://github.com/AlirezaSalehy/Crane.
- Abstract(参考訳): 異常検出は、正常なデータ分布から逸脱を特定することを含み、医療診断や工業的欠陥検出などの分野において重要である。
従来のADメソッドは通常、通常のトレーニングサンプルの可用性を必要とするが、この仮定は必ずしも実現可能であるとは限らない。
近年、CLIPの豊富な事前学習知識は、ターゲットドメインからのサンプルのトレーニングを必要とせずに、異常の検出においてゼロショットの一般化を約束している。
しかし,CLIPの粗粒度画像・テキストアライメントは,(1)空間的不整合,(2)局所的異常パターンに対するグローバルな特徴の感度の制限による,微細な異常に対する局所化と検出性能を制限している。
本稿では,両問題に対処するCraneを提案する。
まず,空間的アライメントをより正確に維持するために,相関に基づくアテンションモジュールを導入する。
第二に、モデルの微粒化異常に対する認識を高めるために、視覚エンコーダから抽出した画像コンテキストに基づいてテキストエンコーダの学習可能なプロンプトを条件付け、局所-グローバル表現融合を行う。
さらに,DINOv2のような視覚基盤モデルを組み込むことで,空間理解と局所化をさらに促進することができる。
クレーンの重要な洞察は、異常な概念をモデル化するための学習可能な適応と、一般化された事前訓練された知識を保存し、活用する非学習可能な適応のバランスをとることである。
14の多様な産業・医療データセットにわたる広範囲な評価により、クレーンは画像とピクセルのレベルで最先端のZSADを2%から28%改善しつつ、推論速度の競争力を維持しながら一貫して改善していることが示された。
コードはhttps://github.com/AlirezaSalehy/Crane.comで入手できる。
関連論文リスト
- AF-CLIP: Zero-Shot Anomaly Detection via Anomaly-Focused CLIP Adaptation [8.252046294696585]
AF-CLIP(Anomaly-Focused CLIP)を提案する。
本稿では,視覚的特徴の異常関連パターンを強調する軽量アダプタを提案する。
また,余分なメモリバンクによる数ショットのシナリオにも拡張されている。
論文 参考訳(メタデータ) (2025-07-26T13:34:38Z) - MadCLIP: Few-shot Medical Anomaly Detection with CLIP [14.023527193608142]
医療データに事前訓練されたCLIPモデルを活用する,革新的な数発の異常検出手法を提案する。
学習可能なアダプタを用いて,正常な特徴と異常な特徴を別々に捉えるために,デュアルブランチ設計を提案する。
セマンティックアライメントを改善するために、学習可能なテキストプロンプトを使用して視覚的特徴をリンクする。
論文 参考訳(メタデータ) (2025-06-30T12:56:17Z) - Domain Adaptation of Attention Heads for Zero-shot Anomaly Detection [2.971139973290946]
本稿では,テキストエンコーダと画像エンコーダの両方を効果的にドメインに適応させることにより,制限を克服するHeadCLIPを提案する。
HeadCLIPはテキストエンコーダの学習可能なプロンプトを通じて正規性と異常の概念を一般化する。
HeadCLIPは、既存のZSAD技術よりもピクセルレベルと画像レベルで優れていることを示す。
論文 参考訳(メタデータ) (2025-05-28T11:45:51Z) - Fine-grained Abnormality Prompt Learning for Zero-shot Anomaly Detection [88.34095233600719]
FAPromptは、より正確なZSADのためにきめ細かい異常プロンプトを学習するために設計された新しいフレームワークである。
画像レベルおよび画素レベルのZSADタスクにおいて、最先端の手法を少なくとも3%-5%のAUC/APで大幅に上回っている。
論文 参考訳(メタデータ) (2024-10-14T08:41:31Z) - AnoPLe: Few-Shot Anomaly Detection via Bi-directional Prompt Learning with Only Normal Samples [6.260747047974035]
AnoPLeは、異常を事前に知ることなく、異常検出のために設計されたマルチモーダル・プロンプト学習手法である。
AnoPLe は MVTec-AD と VisA で 94.1% と 86.2% Image AUROC をそれぞれ記録した。
論文 参考訳(メタデータ) (2024-08-24T08:41:19Z) - GeneralAD: Anomaly Detection Across Domains by Attending to Distorted Features [68.14842693208465]
GeneralADは、意味的、ほぼ分布的、産業的設定で動作するように設計された異常検出フレームワークである。
本稿では,ノイズ付加やシャッフルなどの簡単な操作を施した自己教師付き異常生成モジュールを提案する。
提案手法を10のデータセットに対して広範囲に評価し,6つの実験結果と,残りの6つの実験結果を得た。
論文 参考訳(メタデータ) (2024-07-17T09:27:41Z) - Dual-Image Enhanced CLIP for Zero-Shot Anomaly Detection [58.228940066769596]
本稿では,統合視覚言語スコアリングシステムを活用したデュアルイメージ強化CLIP手法を提案する。
提案手法は,画像のペアを処理し,それぞれを視覚的参照として利用することにより,視覚的コンテキストによる推論プロセスを強化する。
提案手法は視覚言語による関節異常検出の可能性を大幅に活用し,従来のSOTA法と同等の性能を示す。
論文 参考訳(メタデータ) (2024-05-08T03:13:20Z) - Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。
提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。
医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-19T09:28:19Z) - Video Anomaly Detection via Spatio-Temporal Pseudo-Anomaly Generation : A Unified Approach [49.995833831087175]
本研究は,画像のマスキング領域にペンキを塗布することにより,汎用的な映像時間PAを生成する手法を提案する。
さらに,OCC設定下での現実世界の異常を検出するための単純な統合フレームワークを提案する。
提案手法は,OCC設定下での既存のPAs生成および再構築手法と同等に動作する。
論文 参考訳(メタデータ) (2023-11-27T13:14:06Z) - AnomalyCLIP: Object-agnostic Prompt Learning for Zero-shot Anomaly Detection [30.679012320439625]
AnomalyCLIPはオブジェクトに依存しないテキストを学習し、画像の一般的な正規性と異常をキャプチャする。
非常に多様なクラスセマンティクスのデータセットにおける異常の検出とセグメンテーションにおいて、優れたゼロショット性能を実現する。
論文 参考訳(メタデータ) (2023-10-29T10:03:49Z) - Self-Supervised Training with Autoencoders for Visual Anomaly Detection [61.62861063776813]
我々は, 正規サンプルの分布を低次元多様体で支持する異常検出において, 特定のユースケースに焦点を当てた。
我々は、訓練中に識別情報を活用する自己指導型学習体制に適応するが、通常の例のサブ多様体に焦点をあてる。
製造領域における視覚異常検出のための挑戦的なベンチマークであるMVTec ADデータセットで、最先端の新たな結果を達成する。
論文 参考訳(メタデータ) (2022-06-23T14:16:30Z) - AnoViT: Unsupervised Anomaly Detection and Localization with Vision
Transformer-based Encoder-Decoder [3.31490164885582]
我々は,画像パッチ間のグローバルな関係を学習することにより,通常の情報を反映する視覚変換器を用いたエンコーダデコーダモデルAnoViTを提案する。
提案モデルは,3つのベンチマークデータセット上での畳み込みモデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-03-21T09:01:37Z) - Contrastive Predictive Coding for Anomaly Detection [0.0]
対照的予測符号化モデル (arXiv:1807.03748) は異常検出とセグメンテーションに使用される。
パッチワイドのコントラスト損失を直接異常スコアと解釈できることを示す。
ModelはMVTec-ADデータセット上の異常検出とセグメンテーションの両方に対して有望な結果を達成する。
論文 参考訳(メタデータ) (2021-07-16T11:04:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。