論文の概要: AdaCLIP: Adapting CLIP with Hybrid Learnable Prompts for Zero-Shot Anomaly Detection
- arxiv url: http://arxiv.org/abs/2407.15795v1
- Date: Mon, 22 Jul 2024 16:52:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-07-23 14:00:56.258419
- Title: AdaCLIP: Adapting CLIP with Hybrid Learnable Prompts for Zero-Shot Anomaly Detection
- Title(参考訳): AdaCLIP: ゼロショット異常検出のためのハイブリッド学習型プロンプトによるCLIP適応
- Authors: Yunkang Cao, Jiangning Zhang, Luca Frittoli, Yuqi Cheng, Weiming Shen, Giacomo Boracchi,
- Abstract要約: 本研究では,事前学習型視覚言語モデル(VLM)であるCLIPを利用して,ZSADタスクのためのAdaCLIPを提案する。
AdaCLIPは学習可能なプロンプトをCLIPに組み込み、補助的な注釈付き異常検出データのトレーニングを通じて最適化する。
AdaCLIPは他のZSAD法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 14.916862007773341
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Zero-shot anomaly detection (ZSAD) targets the identification of anomalies within images from arbitrary novel categories. This study introduces AdaCLIP for the ZSAD task, leveraging a pre-trained vision-language model (VLM), CLIP. AdaCLIP incorporates learnable prompts into CLIP and optimizes them through training on auxiliary annotated anomaly detection data. Two types of learnable prompts are proposed: static and dynamic. Static prompts are shared across all images, serving to preliminarily adapt CLIP for ZSAD. In contrast, dynamic prompts are generated for each test image, providing CLIP with dynamic adaptation capabilities. The combination of static and dynamic prompts is referred to as hybrid prompts, and yields enhanced ZSAD performance. Extensive experiments conducted across 14 real-world anomaly detection datasets from industrial and medical domains indicate that AdaCLIP outperforms other ZSAD methods and can generalize better to different categories and even domains. Finally, our analysis highlights the importance of diverse auxiliary data and optimized prompts for enhanced generalization capacity. Code is available at https://github.com/caoyunkang/AdaCLIP.
- Abstract(参考訳): ゼロショット異常検出(ZSAD)は、任意の新しいカテゴリから画像内の異常を識別することを目的としている。
本研究では,事前学習型視覚言語モデル(VLM)であるCLIPを利用して,ZSADタスクのためのAdaCLIPを提案する。
AdaCLIPは学習可能なプロンプトをCLIPに組み込み、補助的な注釈付き異常検出データのトレーニングを通じて最適化する。
静的と動的の2種類の学習可能なプロンプトが提案されている。
静的プロンプトはすべての画像間で共有され、ZSADにCLIPをプリミティブに適応させるのに役立つ。
対照的に、テストイメージ毎に動的プロンプトが生成され、動的適応機能を備えたCLIPが提供される。
静的プロンプトと動的プロンプトの組み合わせはハイブリッドプロンプトと呼ばれ、ZSAD性能が向上する。
AdaCLIPは他のZSAD法よりも優れており、異なるカテゴリやドメインに最適化できることを示している。
最後に,多種多様な補助データの重要性と,一般化能力の向上のために最適化されたプロンプトに注目した。
コードはhttps://github.com/caoyunkang/AdaCLIPで入手できる。
関連論文リスト
- SDVPT: Semantic-Driven Visual Prompt Tuning for Open-World Object Counting [70.49268117587562]
本稿では,トレーニングセットから未知のカテゴリに知識を伝達する,セマンティック駆動型ビジュアルプロンプトチューニングフレームワーク(SDVPT)を提案する。
推論中,見知らぬカテゴリと訓練カテゴリのセマンティックな相関に基づいて,見つからないカテゴリの視覚的プロンプトを動的に合成する。
論文 参考訳(メタデータ) (2025-04-24T09:31:08Z) - GenCLIP: Generalizing CLIP Prompts for Zero-shot Anomaly Detection [13.67800822455087]
ZSADの重要な課題は、一般的なプロンプトを安定して学び、効果的に活用することである。
我々は,ジェネラルプロンプトをより効果的に学習し活用する新しいフレームワークであるGenCLIPを提案する。
本稿では、視覚強調分岐が細粒度のカテゴリ特化特徴を捉え、クエリ専用分岐が一般化を優先するデュアルブランチ推論戦略を提案する。
論文 参考訳(メタデータ) (2025-04-21T07:38:25Z) - Crane: Context-Guided Prompt Learning and Attention Refinement for Zero-Shot Anomaly Detections [50.343419243749054]
異常検出(AD)は、通常のデータ分布から逸脱を識別する。
本稿では,視覚エンコーダから抽出した画像コンテキストに基づいて,テキストエンコーダのプロンプトを条件付ける手法を提案する。
提案手法は,14のデータセットにおいて,各メトリクスに対して2%から29%の性能向上を実現している。
論文 参考訳(メタデータ) (2025-04-15T10:42:25Z) - PE-CLIP: A Parameter-Efficient Fine-Tuning of Vision Language Models for Dynamic Facial Expression Recognition [7.966499123076283]
CLIPのような視覚言語モデル(VLM)は、動的表情認識(DFER)のための有望なソリューションを提供する
パラメータ効率の良い微調整フレームワークであるPE-CLIPを提案する。
効率と精度のバランスをとることで、PE-CLIPはリソース効率のDFERの新しいベンチマークを設定できる。
論文 参考訳(メタデータ) (2025-03-21T08:45:50Z) - AA-CLIP: Enhancing Zero-shot Anomaly Detection via Anomaly-Aware CLIP [33.213400694016]
異常検出(AD)は、欠陥検出や病変検出などの応用における異常値を特定する。
テキストおよび視覚空間におけるCLIPの異常識別能力を向上するAnomaly-Aware CLIP (AA-CLIP)を提案する。
AA-CLIPは単純だが効果的な2段階アプローチによって実現される。
論文 参考訳(メタデータ) (2025-03-09T15:22:52Z) - KAnoCLIP: Zero-Shot Anomaly Detection through Knowledge-Driven Prompt Learning and Enhanced Cross-Modal Integration [9.688664292809785]
ゼロショット異常検出(ZSAD)は、ターゲットデータセットからのトレーニングサンプルを必要とせずに、異常を識別する。
CLIPのようなビジョン言語モデルはZSADに潜在的な可能性を示すが、制限がある。
視覚言語モデルを活用した新しいZSADフレームワークであるKAnoCLIPを紹介する。
KAnoCLIPは、12の産業および医療データセットにわたるZSADの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-01-07T13:51:41Z) - GlocalCLIP: Object-agnostic Global-Local Prompt Learning for Zero-shot Anomaly Detection [5.530212768657544]
本研究では,グローバルおよびローカルなプロンプトの学習を改善するために,局所的なコントラスト学習を導入し,各領域の異常パターンを効果的に検出する。
The generalization performance of GlocalCLIP in ZSAD were demonstrated on 15 real-world datasets from the industrial and medical domain。
論文 参考訳(メタデータ) (2024-11-09T05:22:13Z) - C2P-CLIP: Injecting Category Common Prompt in CLIP to Enhance Generalization in Deepfake Detection [98.34703790782254]
本稿では、カテゴリ共通プロンプトCLIPを紹介し、カテゴリ共通プロンプトをテキストエンコーダに統合し、カテゴリ関連概念をイメージエンコーダに注入する。
提案手法は,テスト中に追加パラメータを導入することなく,元のCLIPと比較して検出精度が12.41%向上した。
論文 参考訳(メタデータ) (2024-08-19T02:14:25Z) - WATT: Weight Average Test-Time Adaptation of CLIP [17.74824534094739]
完全テスト時間適応の先駆的アプローチであるCLIPのウェイト平均テスト時間適応(WATT)について述べる。
提案手法では,CLIPの既存のフレームワークを拡張し,テキストプロンプトに多種多様なテンプレートを用いる。
本研究は,WATTが多様なデータセットにまたがる性能向上に有効であることを示すものである。
論文 参考訳(メタデータ) (2024-06-19T22:37:42Z) - CLIPArTT: Light-weight Adaptation of CLIP to New Domains at Test Time [19.0284321951354]
CLIP Adaptation duRing Test-Time(CLIPArTT)を導入する。これは、事前学習された視覚言語モデル(VLM)に対する完全なテスト時間適応(TTA)アプローチである。
提案手法では,複数の予測クラスを1つの新しいテキストプロンプトに集約し,擬似ラベルとして入力を再分類する。
以上の結果から,新たなトランスフォーメーションやトレーニング可能なモジュールを必要とせずに,CLIPArTTは非破損データセット間で動的にパフォーマンスを向上することがわかった。
論文 参考訳(メタデータ) (2024-05-01T07:24:30Z) - Spectral Prompt Tuning:Unveiling Unseen Classes for Zero-Shot Semantic Segmentation [20.880942041889444]
画像からピクセルへのCLIPの適応性を改善する一段階アプローチであるSPT-SEGを提案する。
具体的には、スペクトルプロンプトチューニング(SPT)を導入し、CLIP視覚エンコーダの浅い層にスペクトルプロンプトを組み込む。
我々は、最先端のアプローチよりもメソッドが優れていることを実証し、すべてのクラスでうまく機能し、特に目に見えないクラスを扱うのに優れています。
論文 参考訳(メタデータ) (2023-12-20T04:27:13Z) - Meta-Adapter: An Online Few-shot Learner for Vision-Language Model [64.21017759533474]
CLIPとして知られる対照的な視覚言語事前学習は、オープンワールドの視覚概念を知覚する大きな可能性を実証している。
CLIPに基づくほとんどショットの学習方法は、通常、少数のサンプルでパラメータをオフラインで微調整する必要がある。
少数のサンプルから導かれるCLIP機能をオンライン的に洗練するための,軽量な残差型アダプタであるMeta-Adapterを提案する。
論文 参考訳(メタデータ) (2023-11-07T07:27:16Z) - GridCLIP: One-Stage Object Detection by Grid-Level CLIP Representation
Learning [55.77244064907146]
一段階検出器GridCLIPはグリッドレベルの表現を学習し、一段階検出学習の本質的な原理に適応する。
実験により、学習したCLIPベースのグリッドレベル表現は、アンダーサンプリングされた(稀で新しい)カテゴリのパフォーマンスを高めることが示された。
論文 参考訳(メタデータ) (2023-03-16T12:06:02Z) - Generalized Few-Shot Continual Learning with Contrastive Mixture of
Adapters [59.82088750033897]
我々は,クラスおよびドメインインクリメンタルな状況を含む汎用FSCL (GFSCL) プロトコルを構築した。
一般的な連続学習手法は、目に見えない領域に一般化能力が乏しいことが判明した。
このようにして、視覚変換器(ViT)に基づくリハーサルフリーフレームワークであるContrastive Mixture of Adapters(CMoA)を提案する。
論文 参考訳(メタデータ) (2023-02-12T15:18:14Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。