論文の概要: ViP$^2$-CLIP: Visual-Perception Prompting with Unified Alignment for Zero-Shot Anomaly Detection
- arxiv url: http://arxiv.org/abs/2505.17692v1
- Date: Fri, 23 May 2025 10:01:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.98122
- Title: ViP$^2$-CLIP: Visual-Perception Prompting with Unified Alignment for Zero-Shot Anomaly Detection
- Title(参考訳): ViP$^2$-CLIP:ゼロショット異常検出のための統一アライメントによる視覚知覚プロンプト
- Authors: Ziteng Yang, Jingzehua Xu, Yanshu Li, Zepeng Li, Yeqiang Wang, Xinghui Li,
- Abstract要約: ゼロショット異常検出(ZSAD)は、外部補助データのみに依存するため、ターゲットドメインのトレーニングサンプルを使わずに異常を検出することを目的としている。
既存のCLIPベースのメソッドは、手作りまたは静的学習可能なプロンプトを介してモデルのZSAD電位を活性化しようとする。
ViP$2$-CLIPは、グローバルおよびマルチスケールのローカルビジュアルコンテキストを融合させ、微粒なテキストプロンプトを適応的に生成する。
- 参考スコア(独自算出の注目度): 2.622385361961154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot anomaly detection (ZSAD) aims to detect anomalies without any target domain training samples, relying solely on external auxiliary data. Existing CLIP-based methods attempt to activate the model's ZSAD potential via handcrafted or static learnable prompts. The former incur high engineering costs and limited semantic coverage, whereas the latter apply identical descriptions across diverse anomaly types, thus fail to adapt to complex variations. Furthermore, since CLIP is originally pretrained on large-scale classification tasks, its anomaly segmentation quality is highly sensitive to the exact wording of class names, severely constraining prompting strategies that depend on class labels. To address these challenges, we introduce ViP$^{2}$-CLIP. The key insight of ViP$^{2}$-CLIP is a Visual-Perception Prompting (ViP-Prompt) mechanism, which fuses global and multi-scale local visual context to adaptively generate fine-grained textual prompts, eliminating manual templates and class-name priors. This design enables our model to focus on precise abnormal regions, making it particularly valuable when category labels are ambiguous or privacy-constrained. Extensive experiments on 15 industrial and medical benchmarks demonstrate that ViP$^{2}$-CLIP achieves state-of-the-art performance and robust cross-domain generalization.
- Abstract(参考訳): ゼロショット異常検出(ZSAD)は、外部補助データのみに依存するため、ターゲットドメインのトレーニングサンプルを使わずに異常を検出することを目的としている。
既存のCLIPベースのメソッドは、手作りまたは静的学習可能なプロンプトを介してモデルのZSAD電位を活性化しようとする。
前者は高いエンジニアリングコストと限定的なセマンティックカバレッジを持ち、後者は様々な異常なタイプに同じ記述を適用するため、複雑なバリエーションに適応できない。
さらに、CLIPはもともと大規模な分類タスクで事前訓練されているため、その異常セグメンテーションの品質は、クラス名の正確な単語化に非常に敏感であり、クラスラベルに依存する戦略を厳しく制約している。
これらの課題に対処するために、ViP$^{2}$-CLIPを紹介する。
ViP$^{2}$-CLIPの主な洞察は、グローバルおよびマルチスケールのローカルビジュアルコンテキストを融合させ、微粒なテキストプロンプトを適応的に生成し、手動のテンプレートやクラス名前処理をなくす視覚知覚プロンプト(ViP-Prompt)メカニズムである。
この設計により,カテゴリラベルが曖昧であったり,プライバシーに制約のある場合に,精度の高い異常領域に集中することが可能となる。
15の産業用および医療用ベンチマークにおいて、ViP$^{2}$-CLIPは最先端の性能と堅牢なクロスドメインの一般化を達成することを示した。
関連論文リスト
- Benchmarking Unified Face Attack Detection via Hierarchical Prompt Tuning [58.16354555208417]
提示攻撃検出と顔偽造検出は、それぞれ物理メディアベースの提示攻撃とデジタル編集ベースのDeepFakeから顔データを保護するように設計されている。
これら2つのモデルの個別のトレーニングは、未知の攻撃やデプロイ環境への脆弱性を生じさせる。
本稿では,視覚言語モデルに基づく階層型プロンプトチューニングフレームワーク (HiPTune) を提案する。
論文 参考訳(メタデータ) (2025-05-19T16:35:45Z) - GenCLIP: Generalizing CLIP Prompts for Zero-shot Anomaly Detection [13.67800822455087]
ZSADの重要な課題は、一般的なプロンプトを安定して学び、効果的に活用することである。
我々は,ジェネラルプロンプトをより効果的に学習し活用する新しいフレームワークであるGenCLIPを提案する。
本稿では、視覚強調分岐が細粒度のカテゴリ特化特徴を捉え、クエリ専用分岐が一般化を優先するデュアルブランチ推論戦略を提案する。
論文 参考訳(メタデータ) (2025-04-21T07:38:25Z) - GlocalCLIP: Object-agnostic Global-Local Prompt Learning for Zero-shot Anomaly Detection [5.530212768657544]
グローバルプロンプトとローカルプロンプトの相補的学習を改善するために,局所的コントラスト学習を導入する。
ZSADにおけるGlocalCLIPの一般化性能を実世界の15のデータセットで実証した。
論文 参考訳(メタデータ) (2024-11-09T05:22:13Z) - AdaCLIP: Adapting CLIP with Hybrid Learnable Prompts for Zero-Shot Anomaly Detection [14.916862007773341]
本研究では,事前学習型視覚言語モデル(VLM)であるCLIPを利用して,ZSADタスクのためのAdaCLIPを提案する。
AdaCLIPは学習可能なプロンプトをCLIPに組み込み、補助的な注釈付き異常検出データのトレーニングを通じて最適化する。
AdaCLIPは他のZSAD法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-07-22T16:52:37Z) - Bootstrap Fine-Grained Vision-Language Alignment for Unified Zero-Shot
Anomaly Localization [63.61093388441298]
対照的な言語-画像事前学習モデルは、ゼロショット視覚認識タスクで有望なパフォーマンスを示した。
本研究では,ゼロショット異常局所化のためのAnoCLIPを提案する。
論文 参考訳(メタデータ) (2023-08-30T10:35:36Z) - Realistic Unsupervised CLIP Fine-tuning with Universal Entropy Optimization [101.08992036691673]
本稿では,未知のクラスにおける配布外サンプルの存在を考慮し,教師なしの微調整シナリオについて考察する。
特に,分布外検出と既知のクラスに関連するインスタンスの認識を同時に強化することに注力する。
我々はUniversal Entropy Optimization(UEO)と呼ばれるシンプルで効率的で効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-24T16:47:17Z) - Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary
Object Detection [87.39089806069707]
オープン語彙検出(VTP-OVD)のための微粒なビジュアルテキストプロンプト駆動型自己学習パラダイムを提案する。
適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。
実験の結果,COCO の未確認クラスでは,31.5% mAP など,オープン語彙オブジェクト検出の最先端性能が得られた。
論文 参考訳(メタデータ) (2022-11-02T03:38:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。