論文の概要: VCP-CLIP: A visual context prompting model for zero-shot anomaly segmentation
- arxiv url: http://arxiv.org/abs/2407.12276v1
- Date: Wed, 17 Jul 2024 02:54:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 18:38:37.223188
- Title: VCP-CLIP: A visual context prompting model for zero-shot anomaly segmentation
- Title(参考訳): VCP-CLIP:ゼロショット異常セグメンテーションのための視覚的コンテキストプロンプトモデル
- Authors: Zhen Qu, Xian Tao, Mukesh Prasad, Fei Shen, Zhengtao Zhang, Xinyi Gong, Guiguang Ding,
- Abstract要約: CLIPに基づくZSASタスクのための視覚的コンテキストプロンプトモデル(VCP-CLIP)を提案する。
具体的には、まず、グローバルな視覚情報をテキストプロンプトに埋め込むためのPre-VCPモジュールを設計する。
そこで我々は,画像のきめ細かい特徴を利用してテキスト埋め込みを調整する新しいポストVCPモジュールを提案する。
- 参考スコア(独自算出の注目度): 19.83954061346437
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, large-scale vision-language models such as CLIP have demonstrated immense potential in zero-shot anomaly segmentation (ZSAS) task, utilizing a unified model to directly detect anomalies on any unseen product with painstakingly crafted text prompts. However, existing methods often assume that the product category to be inspected is known, thus setting product-specific text prompts, which is difficult to achieve in the data privacy scenarios. Moreover, even the same type of product exhibits significant differences due to specific components and variations in the production process, posing significant challenges to the design of text prompts. In this end, we propose a visual context prompting model (VCP-CLIP) for ZSAS task based on CLIP. The insight behind VCP-CLIP is to employ visual context prompting to activate CLIP's anomalous semantic perception ability. In specific, we first design a Pre-VCP module to embed global visual information into the text prompt, thus eliminating the necessity for product-specific prompts. Then, we propose a novel Post-VCP module, that adjusts the text embeddings utilizing the fine-grained features of the images. In extensive experiments conducted on 10 real-world industrial anomaly segmentation datasets, VCP-CLIP achieved state-of-the-art performance in ZSAS task. The code is available at https://github.com/xiaozhen228/VCP-CLIP.
- Abstract(参考訳): 近年、CLIPのような大規模視覚言語モデルは、ゼロショット異常セグメンテーション(ZSAS)タスクにおいて大きな可能性を示しており、統一されたモデルを用いて、目に見えない商品の異常を直接検出する。
しかし、既存の手法では検査対象の製品カテゴリが知られていると仮定し、データプライバシのシナリオでは達成が難しい製品固有のテキストプロンプトを設定する。
さらに、同じタイプの製品であっても、特定のコンポーネントや生産プロセスのバリエーションによって大きな違いがあり、テキストプロンプトの設計に重大な課題が生じる。
そこで本研究では,CLIPに基づくZSASタスクのための視覚的コンテキストプロンプトモデル(VCP-CLIP)を提案する。
VCP-CLIPの背後にある洞察は、視覚的コンテキストを使ってCLIPの異常な意味認識能力を活性化することである。
具体的には、まず、グローバルな視覚情報をテキストプロンプトに埋め込むためのPre-VCPモジュールを設計し、製品固有のプロンプトの必要性を排除する。
そこで我々は,画像のきめ細かい特徴を利用してテキスト埋め込みを調整する新しいポストVCPモジュールを提案する。
10個の実世界の産業異常セグメンテーションデータセットで実施された広範囲な実験で、VCP-CLIPはZSASタスクで最先端のパフォーマンスを達成した。
コードはhttps://github.com/xiaozhen228/VCP-CLIPで入手できる。
関連論文リスト
- GlocalCLIP: Object-agnostic Global-Local Prompt Learning for Zero-shot Anomaly Detection [5.530212768657544]
本研究では,グローバルおよびローカルなプロンプトの学習を改善するために,局所的なコントラスト学習を導入し,各領域の異常パターンを効果的に検出する。
The generalization performance of GlocalCLIP in ZSAD were demonstrated on 15 real-world datasets from the industrial and medical domain。
論文 参考訳(メタデータ) (2024-11-09T05:22:13Z) - DetailCLIP: Detail-Oriented CLIP for Fine-Grained Tasks [31.850184662606562]
DetailCLIP(Detail-Oriented CLIP)を導入し、対照的な学習に基づく視覚言語モデルの限界に対処する。
DetailCLIPは,既存のCLIPベースおよび従来の自己教師付き学習(SSL)モデルを上回るセグメンテーション精度を示し,多様なデータセットにまたがる優れた一般化を示す。
論文 参考訳(メタデータ) (2024-09-10T18:27:36Z) - Cascade-CLIP: Cascaded Vision-Language Embeddings Alignment for Zero-Shot Semantic Segmentation [72.47110803885235]
ゼロショットセマンティックセグメンテーションのための新しいフレームワークCascade-CLIPを提案する。
このフレームワークはCOCO-Stuff, Pascal-VOC, Pascal-Contextといったセグメンテーションベンチマークにおいて優れたゼロショット性能を実現する。
論文 参考訳(メタデータ) (2024-06-02T08:32:51Z) - Fine-tuning CLIP Text Encoders with Two-step Paraphrasing [83.3736789315201]
パラフレーズに対するCLIPモデルの表現を強化するための簡単な微調整手法を提案する。
ParaCLIPと呼ばれる我々のモデルは、様々なタスクでベースラインCLIPモデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-02-23T06:11:50Z) - TF-CLIP: Learning Text-free CLIP for Video-based Person
Re-Identification [60.5843635938469]
ビデオベースのReIDのための一段階のテキストフリーCLIP学習フレームワークTF-CLIPを提案する。
より具体的には、テキスト機能を置き換えるために、アイデンティティ固有のシーケンス機能をCLIPメモリとして抽出する。
提案手法は,MARS,LS-VID,iLIDS-VIDの他の最先端手法よりも優れた結果を示す。
論文 参考訳(メタデータ) (2023-12-15T09:10:05Z) - Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - Bootstrap Fine-Grained Vision-Language Alignment for Unified Zero-Shot
Anomaly Localization [63.61093388441298]
対照的な言語-画像事前学習モデルは、ゼロショット視覚認識タスクで有望なパフォーマンスを示した。
本研究では,ゼロショット異常局所化のためのAnoCLIPを提案する。
論文 参考訳(メタデータ) (2023-08-30T10:35:36Z) - CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model [55.321010757641524]
CLIP4STRは,CLIPのイメージエンコーダとテキストエンコーダ上に構築された,シンプルで効果的なSTRメソッドである。
モデルサイズ、事前トレーニングデータ、トレーニングデータの観点からCLIP4STRをスケールし、11のSTRベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-05-23T12:51:20Z) - WinCLIP: Zero-/Few-Shot Anomaly Classification and Segmentation [26.405789621523137]
ゼロショットと少数ノーマルショットの異常分類とセグメンテーションに対処する。
状態語とプロンプトテンプレートに合成アンサンブルを付加したウィンドウベースCLIP(WinCLIP)を提案する。
また,通常の画像からの補完情報を利用する,少数正規ショット拡張WinCLIP+を提案する。
論文 参考訳(メタデータ) (2023-03-26T20:41:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。