論文の概要: GenCLIP: Generalizing CLIP Prompts for Zero-shot Anomaly Detection
- arxiv url: http://arxiv.org/abs/2504.14919v1
- Date: Mon, 21 Apr 2025 07:38:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 19:06:26.529373
- Title: GenCLIP: Generalizing CLIP Prompts for Zero-shot Anomaly Detection
- Title(参考訳): GenCLIP: ゼロショット異常検出のためのCLIPプロンプトの一般化
- Authors: Donghyeong Kim, Chaewon Park, Suhwan Cho, Hyeonjeong Lim, Minseok Kang, Jungho Lee, Sangyoun Lee,
- Abstract要約: ZSADの重要な課題は、一般的なプロンプトを安定して学び、効果的に活用することである。
我々は,ジェネラルプロンプトをより効果的に学習し活用する新しいフレームワークであるGenCLIPを提案する。
本稿では、視覚強調分岐が細粒度のカテゴリ特化特徴を捉え、クエリ専用分岐が一般化を優先するデュアルブランチ推論戦略を提案する。
- 参考スコア(独自算出の注目度): 13.67800822455087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot anomaly detection (ZSAD) aims to identify anomalies in unseen categories by leveraging CLIP's zero-shot capabilities to match text prompts with visual features. A key challenge in ZSAD is learning general prompts stably and utilizing them effectively, while maintaining both generalizability and category specificity. Although general prompts have been explored in prior works, achieving their stable optimization and effective deployment remains a significant challenge. In this work, we propose GenCLIP, a novel framework that learns and leverages general prompts more effectively through multi-layer prompting and dual-branch inference. Multi-layer prompting integrates category-specific visual cues from different CLIP layers, enriching general prompts with more comprehensive and robust feature representations. By combining general prompts with multi-layer visual features, our method further enhances its generalization capability. To balance specificity and generalization, we introduce a dual-branch inference strategy, where a vision-enhanced branch captures fine-grained category-specific features, while a query-only branch prioritizes generalization. The complementary outputs from both branches improve the stability and reliability of anomaly detection across unseen categories. Additionally, we propose an adaptive text prompt filtering mechanism, which removes irrelevant or atypical class names not encountered during CLIP's training, ensuring that only meaningful textual inputs contribute to the final vision-language alignment.
- Abstract(参考訳): ゼロショット異常検出(ZSAD)は、CLIPのゼロショット機能を活用して、テキストプロンプトと視覚的特徴を一致させることによって、見えないカテゴリの異常を識別することを目的としている。
ZSADの重要な課題は、一般化可能性とカテゴリ特異性の両方を維持しながら、安定してそれらを効果的に活用する一般性を学ぶことである。
従来の作業では一般的なプロンプトが検討されてきたが、安定した最適化と効果的なデプロイメントを実現することは依然として大きな課題である。
本稿では,汎用的なプロンプトを学習し,活用する新しいフレームワークであるGenCLIPを提案する。
マルチレイヤプロンプトは、さまざまなCLIPレイヤからのカテゴリ固有の視覚的キューを統合し、より包括的で堅牢な特徴表現で一般的なプロンプトを強化する。
一般的なプロンプトと多層視覚特徴を組み合わせることで,その一般化能力をさらに強化する。
具体性と一般化のバランスをとるために、視覚強調分岐が細粒度のカテゴリ特化特徴を捉え、クエリ専用分岐が一般化を優先するデュアルブランチ推論戦略を導入する。
両枝の相補的な出力は、目に見えないカテゴリーにわたる異常検出の安定性と信頼性を向上させる。
さらに,CLIPのトレーニング中に遭遇しない無関係なクラス名や非定型クラス名を除去し,意味のあるテキスト入力だけが最終的な視覚言語アライメントに寄与することを保証する適応型テキストプロンプトフィルタリング機構を提案する。
関連論文リスト
- SDVPT: Semantic-Driven Visual Prompt Tuning for Open-World Object Counting [70.49268117587562]
本稿では,トレーニングセットから未知のカテゴリに知識を伝達する,セマンティック駆動型ビジュアルプロンプトチューニングフレームワーク(SDVPT)を提案する。
推論中,見知らぬカテゴリと訓練カテゴリのセマンティックな相関に基づいて,見つからないカテゴリの視覚的プロンプトを動的に合成する。
論文 参考訳(メタデータ) (2025-04-24T09:31:08Z) - AdaCLIP: Adapting CLIP with Hybrid Learnable Prompts for Zero-Shot Anomaly Detection [14.916862007773341]
本研究では,事前学習型視覚言語モデル(VLM)であるCLIPを利用して,ZSADタスクのためのAdaCLIPを提案する。
AdaCLIPは学習可能なプロンプトをCLIPに組み込み、補助的な注釈付き異常検出データのトレーニングを通じて最適化する。
AdaCLIPは他のZSAD法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-07-22T16:52:37Z) - Beyond Mask: Rethinking Guidance Types in Few-shot Segmentation [67.35274834837064]
我々は、テキスト、マスク、ボックス、画像からのプロンプトを統合するユニバーサルビジョン言語フレームワーク(UniFSS)を開発した。
UniFSSは最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2024-07-16T08:41:01Z) - Unknown Prompt, the only Lacuna: Unveiling CLIP's Potential for Open Domain Generalization [12.126495847808803]
本稿では、視覚言語モデルCLIPのセマンティックな長所を生かしたODG-CLIPを紹介する。
我々はODGを、既知のカテゴリと新しいカテゴリの両方を包含する多クラス分類課題として概念化している。
我々は,CLIPの視覚的埋め込みの忠実度を高めるために,プロンプト空間から派生したクラス識別的知識で画像を注入する。
論文 参考訳(メタデータ) (2024-03-31T15:03:31Z) - CFPL-FAS: Class Free Prompt Learning for Generalizable Face Anti-spoofing [66.6712018832575]
ドメイン一般化 (DG) ベースの Face Anti-Spoofing (FAS) は、目に見えないドメインにおけるモデルの性能を改善することを目的としている。
私たちはCLIPのような大規模VLMを利用し、テキスト機能を利用して分類器の重みを動的に調整し、一般化可能な視覚的特徴を探索する。
論文 参考訳(メタデータ) (2024-03-21T11:58:50Z) - Knowledge-Aware Prompt Tuning for Generalizable Vision-Language Models [64.24227572048075]
本稿では,視覚言語モデルのためのKnowledge-Aware Prompt Tuning(KAPT)フレームワークを提案する。
我々のアプローチは、人間の知性からインスピレーションを得ており、外部知識は、通常、オブジェクトの新たなカテゴリを認識するために組み込まれています。
論文 参考訳(メタデータ) (2023-08-22T04:24:45Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - Global Knowledge Calibration for Fast Open-Vocabulary Segmentation [124.74256749281625]
本稿では,各学習カテゴリの同義語群を生成するテキスト多様化戦略を提案する。
また,CLIPの汎用的な知識を維持するために,テキスト誘導型知識蒸留法を用いている。
提案手法は, 各種データセットに対して頑健な一般化性能を実現する。
論文 参考訳(メタデータ) (2023-03-16T09:51:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。