論文の概要: AdaCLIP: Adapting CLIP with Hybrid Learnable Prompts for Zero-Shot Anomaly Detection
- arxiv url: http://arxiv.org/abs/2407.15795v1
- Date: Mon, 22 Jul 2024 16:52:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 14:00:56.258419
- Title: AdaCLIP: Adapting CLIP with Hybrid Learnable Prompts for Zero-Shot Anomaly Detection
- Title(参考訳): AdaCLIP: ゼロショット異常検出のためのハイブリッド学習型プロンプトによるCLIP適応
- Authors: Yunkang Cao, Jiangning Zhang, Luca Frittoli, Yuqi Cheng, Weiming Shen, Giacomo Boracchi,
- Abstract要約: 本研究では,事前学習型視覚言語モデル(VLM)であるCLIPを利用して,ZSADタスクのためのAdaCLIPを提案する。
AdaCLIPは学習可能なプロンプトをCLIPに組み込み、補助的な注釈付き異常検出データのトレーニングを通じて最適化する。
AdaCLIPは他のZSAD法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 14.916862007773341
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Zero-shot anomaly detection (ZSAD) targets the identification of anomalies within images from arbitrary novel categories. This study introduces AdaCLIP for the ZSAD task, leveraging a pre-trained vision-language model (VLM), CLIP. AdaCLIP incorporates learnable prompts into CLIP and optimizes them through training on auxiliary annotated anomaly detection data. Two types of learnable prompts are proposed: static and dynamic. Static prompts are shared across all images, serving to preliminarily adapt CLIP for ZSAD. In contrast, dynamic prompts are generated for each test image, providing CLIP with dynamic adaptation capabilities. The combination of static and dynamic prompts is referred to as hybrid prompts, and yields enhanced ZSAD performance. Extensive experiments conducted across 14 real-world anomaly detection datasets from industrial and medical domains indicate that AdaCLIP outperforms other ZSAD methods and can generalize better to different categories and even domains. Finally, our analysis highlights the importance of diverse auxiliary data and optimized prompts for enhanced generalization capacity. Code is available at https://github.com/caoyunkang/AdaCLIP.
- Abstract(参考訳): ゼロショット異常検出(ZSAD)は、任意の新しいカテゴリから画像内の異常を識別することを目的としている。
本研究では,事前学習型視覚言語モデル(VLM)であるCLIPを利用して,ZSADタスクのためのAdaCLIPを提案する。
AdaCLIPは学習可能なプロンプトをCLIPに組み込み、補助的な注釈付き異常検出データのトレーニングを通じて最適化する。
静的と動的の2種類の学習可能なプロンプトが提案されている。
静的プロンプトはすべての画像間で共有され、ZSADにCLIPをプリミティブに適応させるのに役立つ。
対照的に、テストイメージ毎に動的プロンプトが生成され、動的適応機能を備えたCLIPが提供される。
静的プロンプトと動的プロンプトの組み合わせはハイブリッドプロンプトと呼ばれ、ZSAD性能が向上する。
AdaCLIPは他のZSAD法よりも優れており、異なるカテゴリやドメインに最適化できることを示している。
最後に,多種多様な補助データの重要性と,一般化能力の向上のために最適化されたプロンプトに注目した。
コードはhttps://github.com/caoyunkang/AdaCLIPで入手できる。
関連論文リスト
- WATT: Weight Average Test-Time Adaptation of CLIP [17.74824534094739]
完全テスト時間適応の先駆的アプローチであるCLIPのウェイト平均テスト時間適応(WATT)について述べる。
提案手法では,CLIPの既存のフレームワークを拡張し,テキストプロンプトに多種多様なテンプレートを用いる。
本研究は,WATTが多様なデータセットにまたがる性能向上に有効であることを示すものである。
論文 参考訳(メタデータ) (2024-06-19T22:37:42Z) - CapS-Adapter: Caption-based MultiModal Adapter in Zero-Shot Classification [3.594351309950969]
CapS-Adapterは、イメージとキャプションの両方の機能を活用して、トレーニング不要シナリオにおける既存の最先端技術を超える革新的な方法である。
提案手法は,19個のベンチマークデータセットのゼロショット分類結果に優れており,従来の先行手法よりも2.19%精度が向上している。
論文 参考訳(メタデータ) (2024-05-26T14:50:40Z) - CLIPArTT: Light-weight Adaptation of CLIP to New Domains at Test Time [19.0284321951354]
CLIP Adaptation duRing Test-Time(CLIPArTT)を導入する。これは、事前学習された視覚言語モデル(VLM)に対する完全なテスト時間適応(TTA)アプローチである。
提案手法では,複数の予測クラスを1つの新しいテキストプロンプトに集約し,擬似ラベルとして入力を再分類する。
以上の結果から,新たなトランスフォーメーションやトレーニング可能なモジュールを必要とせずに,CLIPArTTは非破損データセット間で動的にパフォーマンスを向上することがわかった。
論文 参考訳(メタデータ) (2024-05-01T07:24:30Z) - Spectral Prompt Tuning:Unveiling Unseen Classes for Zero-Shot Semantic Segmentation [20.880942041889444]
画像からピクセルへのCLIPの適応性を改善する一段階アプローチであるSPT-SEGを提案する。
具体的には、スペクトルプロンプトチューニング(SPT)を導入し、CLIP視覚エンコーダの浅い層にスペクトルプロンプトを組み込む。
我々は、最先端のアプローチよりもメソッドが優れていることを実証し、すべてのクラスでうまく機能し、特に目に見えないクラスを扱うのに優れています。
論文 参考訳(メタデータ) (2023-12-20T04:27:13Z) - Meta-Adapter: An Online Few-shot Learner for Vision-Language Model [64.21017759533474]
CLIPとして知られる対照的な視覚言語事前学習は、オープンワールドの視覚概念を知覚する大きな可能性を実証している。
CLIPに基づくほとんどショットの学習方法は、通常、少数のサンプルでパラメータをオフラインで微調整する必要がある。
少数のサンプルから導かれるCLIP機能をオンライン的に洗練するための,軽量な残差型アダプタであるMeta-Adapterを提案する。
論文 参考訳(メタデータ) (2023-11-07T07:27:16Z) - VadCLIP: Adapting Vision-Language Models for Weakly Supervised Video
Anomaly Detection [58.47940430618352]
弱教師付きビデオ異常検出(WSVAD)のための新しいパラダイムであるVadCLIPを提案する。
VadCLIPは、CLIPの強度に関する視覚と言語の間のきめ細かい関連をフル活用している。
本稿では,VadCLIPが粗粒度および細粒度 WSVAD の両面において最高の性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-08-22T14:58:36Z) - GridCLIP: One-Stage Object Detection by Grid-Level CLIP Representation
Learning [55.77244064907146]
一段階検出器GridCLIPはグリッドレベルの表現を学習し、一段階検出学習の本質的な原理に適応する。
実験により、学習したCLIPベースのグリッドレベル表現は、アンダーサンプリングされた(稀で新しい)カテゴリのパフォーマンスを高めることが示された。
論文 参考訳(メタデータ) (2023-03-16T12:06:02Z) - Generalized Few-Shot Continual Learning with Contrastive Mixture of
Adapters [59.82088750033897]
我々は,クラスおよびドメインインクリメンタルな状況を含む汎用FSCL (GFSCL) プロトコルを構築した。
一般的な連続学習手法は、目に見えない領域に一般化能力が乏しいことが判明した。
このようにして、視覚変換器(ViT)に基づくリハーサルフリーフレームワークであるContrastive Mixture of Adapters(CMoA)を提案する。
論文 参考訳(メタデータ) (2023-02-12T15:18:14Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。