論文の概要: AdaptCLIP: Adapting CLIP for Universal Visual Anomaly Detection
- arxiv url: http://arxiv.org/abs/2505.09926v2
- Date: Mon, 19 May 2025 03:02:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 12:45:56.151784
- Title: AdaptCLIP: Adapting CLIP for Universal Visual Anomaly Detection
- Title(参考訳): AdaptCLIP: ユニバーサル視覚異常検出のためのCLIP適応
- Authors: Bin-Bin Gao, Yue Zhou, Jiangtao Yan, Yuezhi Cai, Weixi Zhang, Meng Wang, Jun Liu, Yong Liu, Lei Wang, Chengjie Wang,
- Abstract要約: 普遍的な視覚異常検出は、新しい視覚領域や見えない視覚領域からの異常を、追加の微調整なしで識別することを目的としている。
近年の研究では、CLIPのような事前学習された視覚言語モデルは、ゼロまたは少数の正常な画像で強力な一般化を示すことが示されている。
本稿では2つの重要な洞察に基づいて,AdaptCLIPと呼ばれるシンプルで効果的な手法を提案する。
- 参考スコア(独自算出の注目度): 39.72202031440292
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Universal visual anomaly detection aims to identify anomalies from novel or unseen vision domains without additional fine-tuning, which is critical in open scenarios. Recent studies have demonstrated that pre-trained vision-language models like CLIP exhibit strong generalization with just zero or a few normal images. However, existing methods struggle with designing prompt templates, complex token interactions, or requiring additional fine-tuning, resulting in limited flexibility. In this work, we present a simple yet effective method called AdaptCLIP based on two key insights. First, adaptive visual and textual representations should be learned alternately rather than jointly. Second, comparative learning between query and normal image prompt should incorporate both contextual and aligned residual features, rather than relying solely on residual features. AdaptCLIP treats CLIP models as a foundational service, adding only three simple adapters, visual adapter, textual adapter, and prompt-query adapter, at its input or output ends. AdaptCLIP supports zero-/few-shot generalization across domains and possesses a training-free manner on target domains once trained on a base dataset. AdaptCLIP achieves state-of-the-art performance on 12 anomaly detection benchmarks from industrial and medical domains, significantly outperforming existing competitive methods. We will make the code and model of AdaptCLIP available at https://github.com/gaobb/AdaptCLIP.
- Abstract(参考訳): 普遍的な視覚異常検出は、オープンシナリオにおいて重要な追加の微調整なしで、新規または未確認の視覚領域から異常を識別することを目的としている。
近年の研究では、CLIPのような事前学習された視覚言語モデルは、ゼロまたは少数の正常な画像で強力な一般化を示すことが示されている。
しかし、既存のメソッドは、プロンプトテンプレート、複雑なトークンのインタラクション、あるいは追加の微調整を必要とするため、柔軟性が制限される。
本研究では,2つの重要な洞察に基づいて,AdaptCLIPと呼ばれるシンプルで効果的な手法を提案する。
第一に、適応的な視覚的表現とテキスト的表現は、共同でではなく交互に学習すべきである。
第二に、クエリと通常のイメージプロンプトの比較学習は、残留機能のみに依存するのではなく、コンテキストとアライメントされた残留機能の両方を取り入れるべきである。
AdaptCLIPはCLIPモデルを基本サービスとして扱い、入力または出力終了時に3つの単純なアダプタ、ビジュアルアダプタ、テキストアダプタ、プロンプトクエリアダプタを追加する。
AdaptCLIPは、ドメイン間のゼロ/フェーショットの一般化をサポートし、ベースデータセットでトレーニングされたばかりのターゲットドメインに対して、トレーニングなしの方法を持つ。
AdaptCLIPは、産業ドメインと医療ドメインの12の異常検出ベンチマークにおける最先端のパフォーマンスを達成し、既存の競合手法よりも大幅に優れています。
AdaptCLIPのコードとモデルはhttps://github.com/gaobb/AdaptCLIPで公開します。
関連論文リスト
- PE-CLIP: A Parameter-Efficient Fine-Tuning of Vision Language Models for Dynamic Facial Expression Recognition [7.966499123076283]
CLIPのような視覚言語モデル(VLM)は、動的表情認識(DFER)のための有望なソリューションを提供する
パラメータ効率の良い微調整フレームワークであるPE-CLIPを提案する。
効率と精度のバランスをとることで、PE-CLIPはリソース効率のDFERの新しいベンチマークを設定できる。
論文 参考訳(メタデータ) (2025-03-21T08:45:50Z) - CLIP's Visual Embedding Projector is a Few-shot Cornucopia [45.93202559299953]
最適化のために'external'パラメータを追加することなく、数ショットのCLIP適応のための代替手法を導入する。
視覚の埋め込みプロジェクション行列を微調整するだけで、すべてのベースラインよりも優れたパフォーマンスが得られることが分かりました。
この単純なアプローチはProLIPと呼ばれ、11個の数ショットの分類ベンチマーク、数ショットのクロスデータセットエンコーダ転送、ドメインの一般化、ベース・ツー・ニューなクラス一般化に最先端のパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2024-10-07T17:59:59Z) - Multi-Modal Adapter for Vision-Language Models [5.040884755454258]
CLIPのマルチモーダル適応手法であるMulti-Modal Adapterを提案する。
テキストと画像の特徴を組み合わせたトレーニング可能なマルチヘッドアテンションレイヤを追加し、両方の追加適応を生成します。
論文 参考訳(メタデータ) (2024-09-03T12:47:08Z) - Meta-Adapter: An Online Few-shot Learner for Vision-Language Model [64.21017759533474]
CLIPとして知られる対照的な視覚言語事前学習は、オープンワールドの視覚概念を知覚する大きな可能性を実証している。
CLIPに基づくほとんどショットの学習方法は、通常、少数のサンプルでパラメータをオフラインで微調整する必要がある。
少数のサンプルから導かれるCLIP機能をオンライン的に洗練するための,軽量な残差型アダプタであるMeta-Adapterを提案する。
論文 参考訳(メタデータ) (2023-11-07T07:27:16Z) - VadCLIP: Adapting Vision-Language Models for Weakly Supervised Video
Anomaly Detection [58.47940430618352]
弱教師付きビデオ異常検出(WSVAD)のための新しいパラダイムであるVadCLIPを提案する。
VadCLIPは、CLIPの強度に関する視覚と言語の間のきめ細かい関連をフル活用している。
本稿では,VadCLIPが粗粒度および細粒度 WSVAD の両面において最高の性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-08-22T14:58:36Z) - CLIP-Adapter: Better Vision-Language Models with Feature Adapters [84.88106370842883]
即時チューニング以外に、より良い視覚言語モデルを実現するための代替経路があることが示される。
CLIP-Adapterは新たなボトルネックレイヤを採用して、新機能を学び、残留スタイルの機能ブレンディングを実行する。
様々な視覚的分類タスクの実験および広範囲なアブレーション研究は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2021-10-09T11:39:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。