論文の概要: WinCLIP: Zero-/Few-Shot Anomaly Classification and Segmentation
- arxiv url: http://arxiv.org/abs/2303.14814v1
- Date: Sun, 26 Mar 2023 20:41:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 17:34:01.132119
- Title: WinCLIP: Zero-/Few-Shot Anomaly Classification and Segmentation
- Title(参考訳): WinCLIP: Zero-/Few-Shot 異常分類とセグメンテーション
- Authors: Jongheon Jeong, Yang Zou, Taewan Kim, Dongqing Zhang, Avinash
Ravichandran, Onkar Dabeer
- Abstract要約: ゼロショットと少数ノーマルショットの異常分類とセグメンテーションに対処する。
状態語とプロンプトテンプレートに合成アンサンブルを付加したウィンドウベースCLIP(WinCLIP)を提案する。
また,通常の画像からの補完情報を利用する,少数正規ショット拡張WinCLIP+を提案する。
- 参考スコア(独自算出の注目度): 26.405789621523137
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual anomaly classification and segmentation are vital for automating
industrial quality inspection. The focus of prior research in the field has
been on training custom models for each quality inspection task, which requires
task-specific images and annotation. In this paper we move away from this
regime, addressing zero-shot and few-normal-shot anomaly classification and
segmentation. Recently CLIP, a vision-language model, has shown revolutionary
generality with competitive zero-/few-shot performance in comparison to
full-supervision. But CLIP falls short on anomaly classification and
segmentation tasks. Hence, we propose window-based CLIP (WinCLIP) with (1) a
compositional ensemble on state words and prompt templates and (2) efficient
extraction and aggregation of window/patch/image-level features aligned with
text. We also propose its few-normal-shot extension WinCLIP+, which uses
complementary information from normal images. In MVTec-AD (and VisA), without
further tuning, WinCLIP achieves 91.8%/85.1% (78.1%/79.6%) AUROC in zero-shot
anomaly classification and segmentation while WinCLIP+ does 93.1%/95.2%
(83.8%/96.4%) in 1-normal-shot, surpassing state-of-the-art by large margins.
- Abstract(参考訳): 視覚異常分類とセグメンテーションは産業品質検査の自動化に不可欠である。
この分野における先行研究の焦点は、タスク固有のイメージとアノテーションを必要とする品質検査タスクごとにカスタムモデルをトレーニングすることであった。
本稿では,ゼロショットと少数ノーマルショットの異常分類とセグメンテーションに対処して,この手法から脱却する。
最近のビジョン言語モデルであるCLIPは、フルスーパービジョンと比較して、競合するゼロショット/フェーショットのパフォーマンスで革命的な一般性を示している。
しかし、CLIPは異常分類とセグメンテーションタスクでは不足している。
そこで我々は,(1)状態語とプロンプトテンプレートに合成アンサンブルを付加したウィンドウベースCLIP(WinCLIP)を提案し,(2)テキストに整合したウィンドウ/パッチ/イメージレベルの特徴の効率的な抽出と集約を行う。
また,通常の画像からの補完情報を利用する,少数正規ショット拡張WinCLIP+を提案する。
MVTec-AD(およびVisA)では、WinCLIPは91.8%/85.1% (78.1%/79.6%)を達成し、WinCLIP+は93.1%/95.2% (83.8%/96.4%)を1ノーマルショットで達成し、最先端の技術をはるかに上回っている。
関連論文リスト
- Self-Calibrated CLIP for Training-Free Open-Vocabulary Segmentation [19.749490092520006]
Self-Calibrated CLIP (SC-CLIP) は、CLIPを校正してより微細な言語表現を生成する訓練不要の手法である。
SC-CLIPはバニラCLIP ViT-L/14の性能を6.8倍向上させる。
論文 参考訳(メタデータ) (2024-11-24T15:14:05Z) - Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification [54.96876797812238]
画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。
高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。
さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。
論文 参考訳(メタデータ) (2024-04-27T02:04:36Z) - Transductive Zero-Shot and Few-Shot CLIP [24.592841797020203]
本稿では,トランスダクティブなゼロショットと少数ショットのCLIP分類問題に対処する。
推論は、各インスタンスを独立して扱うのではなく、ラベルのないクエリサンプルのミニバッチで共同で実行される。
提案手法は,CLIPのゼロショット性能に対して,画像ネットの精度を約20%向上させる。
論文 参考訳(メタデータ) (2024-04-08T12:44:31Z) - Investigating the Limitation of CLIP Models: The Worst-Performing
Categories [53.360239882501325]
コントラスト言語-画像事前学習(CLIP)は、自然言語を視覚概念に統合する基礎モデルを提供する。
通常、十分に設計されたテキストプロンプトによって、多くの領域で満足な全体的な精度が達成できると期待されている。
しかし、最悪のカテゴリにおけるパフォーマンスは、全体的なパフォーマンスよりも著しく劣っていることがわかった。
論文 参考訳(メタデータ) (2023-10-05T05:37:33Z) - Zero-Shot Visual Classification with Guided Cropping [9.321383320998262]
対象物に対するゼロショット分類器の焦点を増大させるため,既処理段階におけるオフザシェルフゼロショットオブジェクト検出モデルを提案する。
提案手法はアーキテクチャやデータセット間のゼロショット分類を改良し,小型オブジェクトに好適に適用できることを実証的に示す。
論文 参考訳(メタデータ) (2023-09-12T20:09:12Z) - CLIP Itself is a Strong Fine-tuner: Achieving 85.7% and 88.0% Top-1
Accuracy with ViT-B and ViT-L on ImageNet [139.56863124214905]
CLIPの微調整性能はかなり過小評価されている。
具体的には、CLIP ViT-Base/16とCLIP ViT-Large/14は、ImageNet-1KデータセットのTop-1精度を85.7%、88.0%微調整することができる。
論文 参考訳(メタデータ) (2022-12-12T18:59:59Z) - ZegCLIP: Towards Adapting CLIP for Zero-shot Semantic Segmentation [35.60888272729273]
近年、CLIPは2段階のスキームを用いて画素レベルのゼロショット学習タスクに適用されている。
このような方式は有効であるが、2つの画像エンコーダが必要であり、1つは提案生成用、もう1つはCLIP用であり、複雑なパイプラインと高い計算コストをもたらす。
本稿では,CLIPのゼロショット予測能力を画像からピクセルレベルまで直接拡張する,シンプルかつ効率的なワンステージソリューションを提案する。
論文 参考訳(メタデータ) (2022-12-07T12:05:00Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - CLIP-TD: CLIP Targeted Distillation for Vision-Language Tasks [85.37552507367175]
対照的に、CLIP (Contrastive Language-image Pretraining) は、視覚と言語モダリティを統合埋め込み空間にリンクする。
本稿では,CLIP-TD (CLIP Targeted Distillation) という手法を提案する。
論文 参考訳(メタデータ) (2022-01-15T01:54:01Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。