論文の概要: AF-CLIP: Zero-Shot Anomaly Detection via Anomaly-Focused CLIP Adaptation
- arxiv url: http://arxiv.org/abs/2507.19949v1
- Date: Sat, 26 Jul 2025 13:34:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:56.478598
- Title: AF-CLIP: Zero-Shot Anomaly Detection via Anomaly-Focused CLIP Adaptation
- Title(参考訳): AF-CLIP: Anomaly-ofocused CLIP Adaptationによるゼロショット異常検出
- Authors: Qingqing Fang, Wenxi Lv, Qinliang Su,
- Abstract要約: AF-CLIP(Anomaly-Focused CLIP)を提案する。
本稿では,視覚的特徴の異常関連パターンを強調する軽量アダプタを提案する。
また,余分なメモリバンクによる数ショットのシナリオにも拡張されている。
- 参考スコア(独自算出の注目度): 8.252046294696585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual anomaly detection has been widely used in industrial inspection and medical diagnosis. Existing methods typically demand substantial training samples, limiting their utility in zero-/few-shot scenarios. While recent efforts have leveraged CLIP's zero-shot recognition capability for this task, they often ignore optimizing visual features to focus on local anomalies, reducing their efficacy. In this work, we propose AF-CLIP (Anomaly-Focused CLIP) by dramatically enhancing its visual representations to focus on local defects. Our approach introduces a lightweight adapter that emphasizes anomaly-relevant patterns in visual features, simultaneously optimizing both class-level features for image classification and patch-level features for precise localization. To capture anomalies of different sizes and improve detection accuracy, prior to the adapter, we develop a multi-scale spatial aggregation mechanism to effectively consolidate neighborhood context. Complementing these visual enhancements, we design learnable textual prompts that generically characterize normal and abnormal states. After optimization on auxiliary datasets using a composite objective function, AF-CLIP demonstrates strong zero-shot detection capability. Our method is also extended to few-shot scenarios by extra memory banks. Experimental results across diverse industrial and medical datasets demonstrate the effectiveness and generalization of our proposed method. Code is available at https://github.com/Faustinaqq/AF-CLIP.
- Abstract(参考訳): 視覚異常検出は産業検査や診断に広く用いられている。
既存のメソッドは、通常、かなりのトレーニングサンプルを必要とし、ゼロショット/フェーショットのシナリオでそのユーティリティを制限します。
最近の取り組みでは、このタスクにCLIPのゼロショット認識機能を活用しているが、局所的な異常に注目する視覚的特徴の最適化を無視し、その効果を低減していることが多い。
本研究では,局所的な欠陥に焦点を当てた視覚表現を劇的に強化したAF-CLIP(Anomaly-Focused CLIP)を提案する。
本手法では,視覚特徴における異常関連パターンを強調する軽量なアダプタを導入し,画像分類のためのクラスレベルの特徴と,高精度なローカライゼーションのためのパッチレベルの特徴を同時に最適化する。
異なる大きさの異常を捕捉し,検出精度を向上させるため,周辺環境を効果的に統合するマルチスケール空間凝集機構を開発した。
これらの視覚的強化を補完し、正常な状態と異常な状態を包括的に特徴付ける学習可能なテキストプロンプトを設計する。
AF-CLIPは、合成目的関数を用いて補助的データセットを最適化した後、強いゼロショット検出能力を示す。
また,余分なメモリバンクによる数ショットのシナリオにも拡張されている。
各種産業用および医療用データセットを対象とした実験結果から,提案手法の有効性と一般化が示された。
コードはhttps://github.com/Faustinaqq/AF-CLIPで入手できる。
関連論文リスト
- MadCLIP: Few-shot Medical Anomaly Detection with CLIP [14.023527193608142]
医療データに事前訓練されたCLIPモデルを活用する,革新的な数発の異常検出手法を提案する。
学習可能なアダプタを用いて,正常な特徴と異常な特徴を別々に捉えるために,デュアルブランチ設計を提案する。
セマンティックアライメントを改善するために、学習可能なテキストプロンプトを使用して視覚的特徴をリンクする。
論文 参考訳(メタデータ) (2025-06-30T12:56:17Z) - Context-aware TFL: A Universal Context-aware Contrastive Learning Framework for Temporal Forgery Localization [60.73623588349311]
本研究では,時間的フォージェリーローカライゼーションのための共通文脈対応コントラスト学習フレームワーク (UniCaCLF) を提案する。
提案手法は教師付きコントラスト学習を利用して,異常検出による偽造瞬間の検出と同定を行う。
実物と偽物との間における特徴の識別可能性の限界をさらに押し上げるために、効率的な文脈対応コントラスト符号化を導入する。
論文 参考訳(メタデータ) (2025-06-10T06:40:43Z) - Crane: Context-Guided Prompt Learning and Attention Refinement for Zero-Shot Anomaly Detections [50.343419243749054]
異常検出(AD)は、通常のデータ分布から逸脱を識別する。
本稿では,視覚エンコーダから抽出した画像コンテキストに基づいて,テキストエンコーダのプロンプトを条件付ける手法を提案する。
提案手法は,14のデータセットにおいて,各メトリクスに対して2%から29%の性能向上を実現している。
論文 参考訳(メタデータ) (2025-04-15T10:42:25Z) - AA-CLIP: Enhancing Zero-shot Anomaly Detection via Anomaly-Aware CLIP [33.213400694016]
異常検出(AD)は、欠陥検出や病変検出などの応用における異常値を特定する。
テキストおよび視覚空間におけるCLIPの異常識別能力を向上するAnomaly-Aware CLIP (AA-CLIP)を提案する。
AA-CLIPは単純だが効果的な2段階アプローチによって実現される。
論文 参考訳(メタデータ) (2025-03-09T15:22:52Z) - GlocalCLIP: Object-agnostic Global-Local Prompt Learning for Zero-shot Anomaly Detection [5.530212768657544]
グローバルプロンプトとローカルプロンプトの相補的学習を改善するために,局所的コントラスト学習を導入する。
ZSADにおけるGlocalCLIPの一般化性能を実世界の15のデータセットで実証した。
論文 参考訳(メタデータ) (2024-11-09T05:22:13Z) - Dual-Image Enhanced CLIP for Zero-Shot Anomaly Detection [58.228940066769596]
本稿では,統合視覚言語スコアリングシステムを活用したデュアルイメージ強化CLIP手法を提案する。
提案手法は,画像のペアを処理し,それぞれを視覚的参照として利用することにより,視覚的コンテキストによる推論プロセスを強化する。
提案手法は視覚言語による関節異常検出の可能性を大幅に活用し,従来のSOTA法と同等の性能を示す。
論文 参考訳(メタデータ) (2024-05-08T03:13:20Z) - Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。
提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。
医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-19T09:28:19Z) - Bootstrap Fine-Grained Vision-Language Alignment for Unified Zero-Shot
Anomaly Localization [63.61093388441298]
対照的な言語-画像事前学習モデルは、ゼロショット視覚認識タスクで有望なパフォーマンスを示した。
本研究では,ゼロショット異常局所化のためのAnoCLIPを提案する。
論文 参考訳(メタデータ) (2023-08-30T10:35:36Z) - Self-Supervised Training with Autoencoders for Visual Anomaly Detection [61.62861063776813]
我々は, 正規サンプルの分布を低次元多様体で支持する異常検出において, 特定のユースケースに焦点を当てた。
我々は、訓練中に識別情報を活用する自己指導型学習体制に適応するが、通常の例のサブ多様体に焦点をあてる。
製造領域における視覚異常検出のための挑戦的なベンチマークであるMVTec ADデータセットで、最先端の新たな結果を達成する。
論文 参考訳(メタデータ) (2022-06-23T14:16:30Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。