論文の概要: Crane: Context-Guided Prompt Learning and Attention Refinement for Zero-Shot Anomaly Detection
- arxiv url: http://arxiv.org/abs/2504.11055v2
- Date: Mon, 11 Aug 2025 09:35:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.260343
- Title: Crane: Context-Guided Prompt Learning and Attention Refinement for Zero-Shot Anomaly Detection
- Title(参考訳): Crane: ゼロショット異常検出のためのコンテキストガイド型プロンプト学習と注意保持
- Authors: Alireza Salehi, Mohammadreza Salehi, Reshad Hosseini, Cees G. M. Snoek, Makoto Yamada, Mohammad Sabokrou,
- Abstract要約: 異常検出は、医学診断や工業的欠陥検出などの分野において重要である。
CLIPの粗粒化画像テキストアライメントは、微粒化異常に対する局所化と検出性能を制限する。
クレーンは最先端のZSADを2%から28%に改善し、画像レベルとピクセルレベルの両方で、推論速度では競争力を維持している。
- 参考スコア(独自算出の注目度): 50.343419243749054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Anomaly Detection involves identifying deviations from normal data distributions and is critical in fields such as medical diagnostics and industrial defect detection. Traditional AD methods typically require the availability of normal training samples; however, this assumption is not always feasible. Recently, the rich pretraining knowledge of CLIP has shown promising zero-shot generalization in detecting anomalies without the need for training samples from target domains. However, CLIP's coarse-grained image-text alignment limits localization and detection performance for fine-grained anomalies due to: (1) spatial misalignment, and (2) the limited sensitivity of global features to local anomalous patterns. In this paper, we propose Crane which tackles both problems. First, we introduce a correlation-based attention module to retain spatial alignment more accurately. Second, to boost the model's awareness of fine-grained anomalies, we condition the learnable prompts of the text encoder on image context extracted from the vision encoder and perform a local-to-global representation fusion. Moreover, our method can incorporate vision foundation models such as DINOv2 to further enhance spatial understanding and localization. The key insight of Crane is to balance learnable adaptations for modeling anomalous concepts with non-learnable adaptations that preserve and exploit generalized pretrained knowledge, thereby minimizing in-domain overfitting and maximizing performance on unseen domains. Extensive evaluation across 14 diverse industrial and medical datasets demonstrates that Crane consistently improves the state-of-the-art ZSAD from 2% to 28%, at both image and pixel levels, while remaining competitive in inference speed. The code is available at https://github.com/AlirezaSalehy/Crane.
- Abstract(参考訳): 異常検出は、正常なデータ分布から逸脱を特定することを含み、医療診断や工業的欠陥検出などの分野において重要である。
従来のADメソッドは通常、通常のトレーニングサンプルの可用性を必要とするが、この仮定は必ずしも実現可能であるとは限らない。
近年、CLIPの豊富な事前学習知識は、ターゲットドメインからのサンプルのトレーニングを必要とせずに、異常の検出においてゼロショットの一般化を約束している。
しかし,CLIPの粗粒度画像・テキストアライメントは,(1)空間的不整合,(2)局所的異常パターンに対するグローバルな特徴の感度の制限による,微細な異常に対する局所化と検出性能を制限している。
本稿では,両問題に対処するCraneを提案する。
まず,空間的アライメントをより正確に維持するために,相関に基づくアテンションモジュールを導入する。
第二に、モデルの微粒化異常に対する認識を高めるために、視覚エンコーダから抽出した画像コンテキストに基づいてテキストエンコーダの学習可能なプロンプトを条件付け、局所-グローバル表現融合を行う。
さらに,DINOv2のような視覚基盤モデルを組み込むことで,空間理解と局所化をさらに促進することができる。
クレーンの重要な洞察は、異常な概念をモデル化するための学習可能な適応と、一般化された事前訓練された知識を保存し、活用する非学習可能な適応のバランスをとることである。
14の多様な産業・医療データセットにわたる広範囲な評価により、クレーンは画像とピクセルのレベルで最先端のZSADを2%から28%改善しつつ、推論速度の競争力を維持しながら一貫して改善していることが示された。
コードはhttps://github.com/AlirezaSalehy/Crane.comで入手できる。
関連論文リスト
- Correcting False Alarms from Unseen: Adapting Graph Anomaly Detectors at Test Time [60.341117019125214]
グラフ異常検出(GAD)における未確認正規pattErnsの修正のための,軽量かつプラグアンドプレイなテスト時間適応フレームワークを提案する。
意味的混乱に対処するために、シフトしたデータと元のデータとをグラフ属性レベルで整合させるグラフ整合器を用いる。
10個の実世界のデータセットに対する大規模な実験により、TUNEは事前学習されたGADモデルの合成パターンと実際の見えない正常パターンの両方への一般化性を著しく向上することが示された。
論文 参考訳(メタデータ) (2025-11-10T12:10:05Z) - Learning local and global prototypes with optimal transport for unsupervised anomaly detection and localization [0.28647133890966986]
教師なし異常検出は、トレーニング中に正常なデータ、すなわち欠陥のない一連のデータにアクセスすることで、サンプルの欠陥部分を検出することを目的としている。
本稿では,プロトタイプ学習に基づく新しいUAD手法を提案する。
論文 参考訳(メタデータ) (2025-08-18T13:51:36Z) - Zero-Shot Anomaly Detection with Dual-Branch Prompt Selection [17.263625932911534]
Zero-shot Anomaly Detection (ZSAD) は、見えないカテゴリの欠陥を識別し、ローカライズする。
既存のZSADメソッドは、固定または学習プロンプトを使用しても、トレーニングデータが限られたトレーニングドメインから導出されるため、ドメインシフトの下で苦労する。
PILOTは2つの重要なイノベーションを通じてこれらの課題を克服するために設計されたフレームワークです。
論文 参考訳(メタデータ) (2025-08-01T17:00:12Z) - AF-CLIP: Zero-Shot Anomaly Detection via Anomaly-Focused CLIP Adaptation [8.252046294696585]
AF-CLIP(Anomaly-Focused CLIP)を提案する。
本稿では,視覚的特徴の異常関連パターンを強調する軽量アダプタを提案する。
また,余分なメモリバンクによる数ショットのシナリオにも拡張されている。
論文 参考訳(メタデータ) (2025-07-26T13:34:38Z) - Generate Aligned Anomaly: Region-Guided Few-Shot Anomaly Image-Mask Pair Synthesis for Industrial Inspection [53.137651284042434]
異常検査は製造業において重要な役割を担っているが、異常サンプルの不足は既存の方法の有効性を制限している。
本稿では,GAA (Generate grained Anomaly) を提案する。
GAAは少数のサンプルのみを用いて現実的で多様で意味的に整合した異常を発生させる。
論文 参考訳(メタデータ) (2025-07-13T12:56:59Z) - MadCLIP: Few-shot Medical Anomaly Detection with CLIP [14.023527193608142]
医療データに事前訓練されたCLIPモデルを活用する,革新的な数発の異常検出手法を提案する。
学習可能なアダプタを用いて,正常な特徴と異常な特徴を別々に捉えるために,デュアルブランチ設計を提案する。
セマンティックアライメントを改善するために、学習可能なテキストプロンプトを使用して視覚的特徴をリンクする。
論文 参考訳(メタデータ) (2025-06-30T12:56:17Z) - Domain Adaptation of Attention Heads for Zero-shot Anomaly Detection [2.971139973290946]
本稿では,テキストエンコーダと画像エンコーダの両方を効果的にドメインに適応させることにより,制限を克服するHeadCLIPを提案する。
HeadCLIPはテキストエンコーダの学習可能なプロンプトを通じて正規性と異常の概念を一般化する。
HeadCLIPは、既存のZSAD技術よりもピクセルレベルと画像レベルで優れていることを示す。
論文 参考訳(メタデータ) (2025-05-28T11:45:51Z) - Robust Distribution Alignment for Industrial Anomaly Detection under Distribution Shift [51.24522135151649]
異常検出は産業アプリケーションの品質管理において重要な役割を担っている。
既存の方法は、一般化可能なモデルをトレーニングすることで、ドメインシフトに対処しようとする。
提案手法は,最先端の異常検出法や領域適応法と比較して,優れた結果を示す。
論文 参考訳(メタデータ) (2025-03-19T05:25:52Z) - Breaking the Bias: Recalibrating the Attention of Industrial Anomaly Detection [20.651257973799527]
RAAD(Recalibrating Attention of Industrial Anomaly Detection)は、アテンションマップを系統的に分解・再分類するフレームワークである。
HQSは、アテンションマップの階層性に基づいてビット幅を動的に調整する。
一つの3090tiを用いて,32データセットに対するRAADの有効性を検証した。
論文 参考訳(メタデータ) (2024-12-11T08:31:47Z) - Fine-grained Abnormality Prompt Learning for Zero-shot Anomaly Detection [88.34095233600719]
FAPromptは、より正確なZSADのためにきめ細かい異常プロンプトを学習するために設計された新しいフレームワークである。
画像レベルおよび画素レベルのZSADタスクにおいて、最先端の手法を少なくとも3%-5%のAUC/APで大幅に上回っている。
論文 参考訳(メタデータ) (2024-10-14T08:41:31Z) - AnoPLe: Few-Shot Anomaly Detection via Bi-directional Prompt Learning with Only Normal Samples [6.260747047974035]
AnoPLeは、異常を事前に知ることなく、異常検出のために設計されたマルチモーダル・プロンプト学習手法である。
AnoPLe は MVTec-AD と VisA で 94.1% と 86.2% Image AUROC をそれぞれ記録した。
論文 参考訳(メタデータ) (2024-08-24T08:41:19Z) - GeneralAD: Anomaly Detection Across Domains by Attending to Distorted Features [68.14842693208465]
GeneralADは、意味的、ほぼ分布的、産業的設定で動作するように設計された異常検出フレームワークである。
本稿では,ノイズ付加やシャッフルなどの簡単な操作を施した自己教師付き異常生成モジュールを提案する。
提案手法を10のデータセットに対して広範囲に評価し,6つの実験結果と,残りの6つの実験結果を得た。
論文 参考訳(メタデータ) (2024-07-17T09:27:41Z) - Global-Regularized Neighborhood Regression for Efficient Zero-Shot Texture Anomaly Detection [7.2414696513135155]
本稿では,Global-Regularized Neighborhood Regression (GRNR) と呼ばれる新しいゼロショットテクスチャ異常検出手法を提案する。
GRNRはトレーニングデータやコストを使わずに任意のテクスチャ面上の異常を検出することができる。
8つのベンチマークデータセットを用いて, GRNRの有効性を検証した。
論文 参考訳(メタデータ) (2024-06-11T15:02:16Z) - Dual-Image Enhanced CLIP for Zero-Shot Anomaly Detection [58.228940066769596]
本稿では,統合視覚言語スコアリングシステムを活用したデュアルイメージ強化CLIP手法を提案する。
提案手法は,画像のペアを処理し,それぞれを視覚的参照として利用することにより,視覚的コンテキストによる推論プロセスを強化する。
提案手法は視覚言語による関節異常検出の可能性を大幅に活用し,従来のSOTA法と同等の性能を示す。
論文 参考訳(メタデータ) (2024-05-08T03:13:20Z) - Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。
提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。
医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-19T09:28:19Z) - Shifting Focus: From Global Semantics to Local Prominent Features in Swin-Transformer for Knee Osteoarthritis Severity Assessment [42.09313885494969]
我々はSwin Transformerの能力を利用して階層的な枠組みを通じて画像内の空間的依存関係を識別する。
我々の新しい貢献は、局所的な特徴表現を精細化し、分類器の最終的な分布に特化することにある。
Knee osteoArthritis (KOA) グレード分類のための2つの確立されたベンチマークを広範囲に検証した結果,本モデルは有意な堅牢性と精度を示した。
論文 参考訳(メタデータ) (2024-03-15T01:09:58Z) - Self-supervised Feature Adaptation for 3D Industrial Anomaly Detection [59.41026558455904]
具体的には,大規模ビジュアルデータセット上で事前学習されたモデルを利用した初期のマルチモーダルアプローチについて検討する。
本研究では,アダプタを微調整し,異常検出に向けたタスク指向の表現を学習するためのLSFA法を提案する。
論文 参考訳(メタデータ) (2024-01-06T07:30:41Z) - Video Anomaly Detection via Spatio-Temporal Pseudo-Anomaly Generation : A Unified Approach [49.995833831087175]
本研究は,画像のマスキング領域にペンキを塗布することにより,汎用的な映像時間PAを生成する手法を提案する。
さらに,OCC設定下での現実世界の異常を検出するための単純な統合フレームワークを提案する。
提案手法は,OCC設定下での既存のPAs生成および再構築手法と同等に動作する。
論文 参考訳(メタデータ) (2023-11-27T13:14:06Z) - AnomalyCLIP: Object-agnostic Prompt Learning for Zero-shot Anomaly Detection [30.679012320439625]
AnomalyCLIPはオブジェクトに依存しないテキストを学習し、画像の一般的な正規性と異常をキャプチャする。
非常に多様なクラスセマンティクスのデータセットにおける異常の検出とセグメンテーションにおいて、優れたゼロショット性能を実現する。
論文 参考訳(メタデータ) (2023-10-29T10:03:49Z) - Self-Supervised Training with Autoencoders for Visual Anomaly Detection [61.62861063776813]
我々は, 正規サンプルの分布を低次元多様体で支持する異常検出において, 特定のユースケースに焦点を当てた。
我々は、訓練中に識別情報を活用する自己指導型学習体制に適応するが、通常の例のサブ多様体に焦点をあてる。
製造領域における視覚異常検出のための挑戦的なベンチマークであるMVTec ADデータセットで、最先端の新たな結果を達成する。
論文 参考訳(メタデータ) (2022-06-23T14:16:30Z) - AnoViT: Unsupervised Anomaly Detection and Localization with Vision
Transformer-based Encoder-Decoder [3.31490164885582]
我々は,画像パッチ間のグローバルな関係を学習することにより,通常の情報を反映する視覚変換器を用いたエンコーダデコーダモデルAnoViTを提案する。
提案モデルは,3つのベンチマークデータセット上での畳み込みモデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-03-21T09:01:37Z) - Contrastive Predictive Coding for Anomaly Detection [0.0]
対照的予測符号化モデル (arXiv:1807.03748) は異常検出とセグメンテーションに使用される。
パッチワイドのコントラスト損失を直接異常スコアと解釈できることを示す。
ModelはMVTec-ADデータセット上の異常検出とセグメンテーションの両方に対して有望な結果を達成する。
論文 参考訳(メタデータ) (2021-07-16T11:04:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。