論文の概要: Crane: Context-Guided Prompt Learning and Attention Refinement for Zero-Shot Anomaly Detections
- arxiv url: http://arxiv.org/abs/2504.11055v1
- Date: Tue, 15 Apr 2025 10:42:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:09:49.478472
- Title: Crane: Context-Guided Prompt Learning and Attention Refinement for Zero-Shot Anomaly Detections
- Title(参考訳): Crane: ゼロショット異常検出のためのコンテキストガイド型プロンプト学習と注意保持
- Authors: Alireza Salehi, Mohammadreza Salehi, Reshad Hosseini, Cees G. M. Snoek, Makoto Yamada, Mohammad Sabokrou,
- Abstract要約: 異常検出(AD)は、通常のデータ分布から逸脱を識別する。
本稿では,視覚エンコーダから抽出した画像コンテキストに基づいて,テキストエンコーダのプロンプトを条件付ける手法を提案する。
提案手法は,14のデータセットにおいて,各メトリクスに対して2%から29%の性能向上を実現している。
- 参考スコア(独自算出の注目度): 50.343419243749054
- License:
- Abstract: Anomaly Detection (AD) involves identifying deviations from normal data distributions and is critical in fields such as medical diagnostics and industrial defect detection. Traditional AD methods typically require the availability of normal training samples; however, this assumption is not always feasible, as collecting such data can be impractical. Additionally, these methods often struggle to generalize across different domains. Recent advancements, such as AnomalyCLIP and AdaCLIP, utilize the zero-shot generalization capabilities of CLIP but still face a performance gap between image-level and pixel-level anomaly detection. To address this gap, we propose a novel approach that conditions the prompts of the text encoder based on image context extracted from the vision encoder. Also, to capture fine-grained variations more effectively, we have modified the CLIP vision encoder and altered the extraction of dense features. These changes ensure that the features retain richer spatial and structural information for both normal and anomalous prompts. Our method achieves state-of-the-art performance, improving performance by 2% to 29% across different metrics on 14 datasets. This demonstrates its effectiveness in both image-level and pixel-level anomaly detection.
- Abstract(参考訳): 異常検出(AD)は、正常なデータ分布からの逸脱を識別することを含み、医療診断や工業的欠陥検出などの分野において重要である。
従来のADメソッドは通常、通常のトレーニングサンプルの可用性を必要とするが、このようなデータを集めることは現実的ではないため、この仮定は必ずしも実現不可能であるとは限らない。
さらに、これらの手法は、しばしば異なる領域にまたがって一般化するのに苦労する。
AnomalyCLIPやAdaCLIPといった最近の進歩は、CLIPのゼロショットの一般化機能を利用しているが、画像レベルと画素レベルの異常検出のパフォーマンスギャップに直面している。
このギャップに対処するために、視覚エンコーダから抽出した画像コンテキストに基づいてテキストエンコーダのプロンプトを条件付ける新しいアプローチを提案する。
また、より効果的にきめ細かな変化を捉えるために、CLIPビジョンエンコーダを改良し、高密度な特徴の抽出を変更した。
これらの変更により、通常のプロンプトと異常なプロンプトの両方に対して、より豊かな空間情報と構造情報を保持できる。
提案手法は,14のデータセットにおいて,各メトリクスに対して2%から29%の性能向上を実現している。
これは画像レベルと画素レベルの異常検出において有効であることを示す。
関連論文リスト
- Fine-grained Abnormality Prompt Learning for Zero-shot Anomaly Detection [88.34095233600719]
FAPromptは、より正確なZSADのためにきめ細かい異常プロンプトを学習するために設計された新しいフレームワークである。
画像レベルおよび画素レベルのZSADタスクにおいて、最先端の手法を少なくとも3%-5%のAUC/APで大幅に上回っている。
論文 参考訳(メタデータ) (2024-10-14T08:41:31Z) - AnoPLe: Few-Shot Anomaly Detection via Bi-directional Prompt Learning with Only Normal Samples [6.260747047974035]
AnoPLeは、異常を事前に知ることなく、異常検出のために設計されたマルチモーダル・プロンプト学習手法である。
AnoPLe は MVTec-AD と VisA で 94.1% と 86.2% Image AUROC をそれぞれ記録した。
論文 参考訳(メタデータ) (2024-08-24T08:41:19Z) - GeneralAD: Anomaly Detection Across Domains by Attending to Distorted Features [68.14842693208465]
GeneralADは、意味的、ほぼ分布的、産業的設定で動作するように設計された異常検出フレームワークである。
本稿では,ノイズ付加やシャッフルなどの簡単な操作を施した自己教師付き異常生成モジュールを提案する。
提案手法を10のデータセットに対して広範囲に評価し,6つの実験結果と,残りの6つの実験結果を得た。
論文 参考訳(メタデータ) (2024-07-17T09:27:41Z) - View-Invariant Pixelwise Anomaly Detection in Multi-object Scenes with Adaptive View Synthesis [0.0]
異常検出アプローチは一般的に教師なしであり、期待状態から逸脱を検出することで機能する。
本稿では,2つの画像から異常を検出するScene Anomaly Detection (Scene AD)の問題を紹介する。
逆蒸留異常検出法を改良し,Scene ADに取り組む新しいネットワークOmniADを提案する。
論文 参考訳(メタデータ) (2024-06-26T01:54:10Z) - Dual-Image Enhanced CLIP for Zero-Shot Anomaly Detection [58.228940066769596]
本稿では,統合視覚言語スコアリングシステムを活用したデュアルイメージ強化CLIP手法を提案する。
提案手法は,画像のペアを処理し,それぞれを視覚的参照として利用することにより,視覚的コンテキストによる推論プロセスを強化する。
提案手法は視覚言語による関節異常検出の可能性を大幅に活用し,従来のSOTA法と同等の性能を示す。
論文 参考訳(メタデータ) (2024-05-08T03:13:20Z) - Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。
提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。
医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-19T09:28:19Z) - Video Anomaly Detection via Spatio-Temporal Pseudo-Anomaly Generation : A Unified Approach [49.995833831087175]
本研究は,画像のマスキング領域にペンキを塗布することにより,汎用的な映像時間PAを生成する手法を提案する。
さらに,OCC設定下での現実世界の異常を検出するための単純な統合フレームワークを提案する。
提案手法は,OCC設定下での既存のPAs生成および再構築手法と同等に動作する。
論文 参考訳(メタデータ) (2023-11-27T13:14:06Z) - AnomalyCLIP: Object-agnostic Prompt Learning for Zero-shot Anomaly Detection [30.679012320439625]
AnomalyCLIPはオブジェクトに依存しないテキストを学習し、画像の一般的な正規性と異常をキャプチャする。
非常に多様なクラスセマンティクスのデータセットにおける異常の検出とセグメンテーションにおいて、優れたゼロショット性能を実現する。
論文 参考訳(メタデータ) (2023-10-29T10:03:49Z) - AnoViT: Unsupervised Anomaly Detection and Localization with Vision
Transformer-based Encoder-Decoder [3.31490164885582]
我々は,画像パッチ間のグローバルな関係を学習することにより,通常の情報を反映する視覚変換器を用いたエンコーダデコーダモデルAnoViTを提案する。
提案モデルは,3つのベンチマークデータセット上での畳み込みモデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-03-21T09:01:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。