論文の概要: GlocalCLIP: Object-agnostic Global-Local Prompt Learning for Zero-shot Anomaly Detection
- arxiv url: http://arxiv.org/abs/2411.06071v1
- Date: Sat, 09 Nov 2024 05:22:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:09:29.807821
- Title: GlocalCLIP: Object-agnostic Global-Local Prompt Learning for Zero-shot Anomaly Detection
- Title(参考訳): GlocalCLIP:ゼロショット異常検出のためのオブジェクト指向グローバルローカルプロンプト学習
- Authors: Jiyul Ham, Yonggon Jung, Jun-Geol Baek,
- Abstract要約: 本研究では,グローバルおよびローカルなプロンプトの学習を改善するために,局所的なコントラスト学習を導入し,各領域の異常パターンを効果的に検出する。
The generalization performance of GlocalCLIP in ZSAD were demonstrated on 15 real-world datasets from the industrial and medical domain。
- 参考スコア(独自算出の注目度): 5.530212768657544
- License:
- Abstract: Zero-shot anomaly detection (ZSAD) is crucial for detecting abnormal patterns in target datasets without using training samples, specifically in scenarios where there are distributional differences between the target domain and training data or where data scarcity arises because of restricted access. Although recently pretrained vision-language models demonstrate strong zero-shot performance across various visual tasks, they focus on learning class semantics, which makes their direct application to ZSAD challenging. To address this scenario, we propose GlocalCLIP, which uniquely separates global and local prompts and jointly optimizes them. This approach enables the object-agnostic glocal semantic prompt design to effectively capture general normal and anomalous patterns without dependency on specific objects in the image. We refine the text prompts for more precise adjustments by utilizing deep-text prompt tuning in the text encoder. In the vision encoder, we apply V-V attention layers to capture detailed local image features. Finally, we introduce glocal contrastive learning to improve the complementary learning of global and local prompts, effectively detecting abnormal patterns across various domains. The generalization performance of GlocalCLIP in ZSAD was demonstrated on 15 real-world datasets from both the industrial and medical domains, achieving superior performance compared to existing methods.
- Abstract(参考訳): ゼロショット異常検出(ZSAD)は、トレーニングサンプルを使用せずにターゲットデータセットの異常パターンを検出するために不可欠である。
近年、事前訓練された視覚言語モデルは、様々な視覚的タスクにまたがる強力なゼロショット性能を示すが、クラスセマンティクスの学習に重点を置いており、ZSADへの直接適用は困難である。
このシナリオに対処するため,グローバルなプロンプトとローカルなプロンプトを一意に分離し,共同で最適化するGlocalCLIPを提案する。
このアプローチにより、オブジェクトに依存しない局所的セマンティックプロンプト設計により、画像内の特定のオブジェクトに依存することなく、一般的な正規および異常パターンを効果的にキャプチャできる。
我々は、テキストエンコーダの深層テキストプロンプトチューニングを利用して、テキストプロンプトをより精密に調整するために、テキストプロンプトを洗練する。
ビジョンエンコーダでは、V-Vアテンション層を適用して、詳細なローカル画像の特徴をキャプチャする。
最後に,グローバルプロンプトとローカルプロンプトの相補的学習を改善するために,局所的コントラスト学習を導入し,各領域の異常パターンを効果的に検出する。
ZSADにおけるGlocalCLIPの一般化性能を,産業領域および医療領域の15の実世界のデータセットで実証し,既存手法と比較して優れた性能を示した。
関連論文リスト
- Do LLMs Understand Visual Anomalies? Uncovering LLM's Capabilities in Zero-shot Anomaly Detection [18.414762007525137]
大規模視覚言語モデル(LVLM)は、自然言語で導かれる視覚表現の導出に長けている。
近年の研究では、ゼロショット視覚異常検出(VAD)の課題に取り組むためにLVLMを用いている。
統一モデルを用いてこれらの課題に対処するために設計された、トレーニング不要のアプローチであるALFAを提案する。
論文 参考訳(メタデータ) (2024-04-15T10:42:22Z) - Domain-Controlled Prompt Learning [49.45309818782329]
既存の素早い学習方法はドメイン認識やドメイン転送機構を欠いていることが多い。
特定のドメインに対するtextbfDomain-Controlled Prompt Learningを提案する。
本手法は,特定の領域画像認識データセットにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-09-30T02:59:49Z) - Bootstrap Fine-Grained Vision-Language Alignment for Unified Zero-Shot
Anomaly Localization [63.61093388441298]
対照的な言語-画像事前学習モデルは、ゼロショット視覚認識タスクで有望なパフォーマンスを示した。
本研究では,ゼロショット異常局所化のためのAnoCLIPを提案する。
論文 参考訳(メタデータ) (2023-08-30T10:35:36Z) - CLIP the Gap: A Single Domain Generalization Approach for Object
Detection [60.20931827772482]
単一ドメインの一般化(Single Domain Generalization)は、単一のソースドメイン上でモデルをトレーニングすることで、目に見えないターゲットドメインに一般化する問題に取り組む。
本稿では、事前学習された視覚言語モデルを用いて、テキストプロンプトを介して意味領域の概念を導入することを提案する。
本手法は,検出器のバックボーンから抽出した特徴に作用する意味的拡張戦略と,テキストに基づく分類損失によって実現される。
論文 参考訳(メタデータ) (2023-01-13T12:01:18Z) - P{\O}DA: Prompt-driven Zero-shot Domain Adaptation [27.524962843495366]
我々は,対象領域の自然言語,すなわちプロンプトの一般的な記述のみを用いて,ソースドメイン上で訓練されたモデルを適用する。
本稿では,これらのプロンプト駆動による拡張が,セマンティックセグメンテーションのためのゼロショットドメイン適応の実行に有効であることを示す。
論文 参考訳(メタデータ) (2022-12-06T18:59:58Z) - Towards Effective Image Manipulation Detection with Proposal Contrastive
Learning [61.5469708038966]
本稿では,効果的な画像操作検出のためのコントラスト学習(PCL)を提案する。
我々のPCLは、RGBとノイズビューから2種類のグローバル特徴を抽出し、2ストリームアーキテクチャで構成されている。
我々のPCLは、実際にラベル付けされていないデータに容易に適用でき、手作業によるラベル付けコストを削減し、より一般化可能な機能を促進することができる。
論文 参考訳(メタデータ) (2022-10-16T13:30:13Z) - Deep face recognition with clustering based domain adaptation [57.29464116557734]
そこで本研究では,ターゲットドメインとソースがクラスを共有しない顔認識タスクを対象とした,クラスタリングに基づく新しいドメイン適応手法を提案する。
本手法は,特徴領域をグローバルに整列させ,その一方で,対象クラスタを局所的に識別することで,識別対象特徴を効果的に学習する。
論文 参考訳(メタデータ) (2022-05-27T12:29:11Z) - Unsupervised Domain Adaptation for Spatio-Temporal Action Localization [69.12982544509427]
S時間動作の局所化はコンピュータビジョンにおいて重要な問題である。
本稿では、エンドツーエンドの教師なしドメイン適応アルゴリズムを提案する。
空間的特徴と時間的特徴を別々にあるいは共同的に適応した場合に,顕著な性能向上が達成できることを示す。
論文 参考訳(メタデータ) (2020-10-19T04:25:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。