論文の概要: GlocalCLIP: Object-agnostic Global-Local Prompt Learning for Zero-shot Anomaly Detection
- arxiv url: http://arxiv.org/abs/2411.06071v3
- Date: Sun, 08 Dec 2024 13:35:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:48:56.683623
- Title: GlocalCLIP: Object-agnostic Global-Local Prompt Learning for Zero-shot Anomaly Detection
- Title(参考訳): GlocalCLIP:ゼロショット異常検出のためのオブジェクト指向グローバルローカルプロンプト学習
- Authors: Jiyul Ham, Yonggon Jung, Jun-Geol Baek,
- Abstract要約: グローバルプロンプトとローカルプロンプトの相補的学習を改善するために,局所的コントラスト学習を導入する。
ZSADにおけるGlocalCLIPの一般化性能を実世界の15のデータセットで実証した。
- 参考スコア(独自算出の注目度): 5.530212768657544
- License:
- Abstract: Zero-shot anomaly detection (ZSAD) is crucial for detecting anomalous patterns in target datasets without using training samples, specifically in scenarios where there are distributional differences between the target domain and training data or where data scarcity arises because of restricted access. Although recently pretrained vision-language models demonstrate strong zero-shot performance across various visual tasks, they focus on learning class semantics, which makes their direct application to ZSAD challenging. To address this scenario, we propose GlocalCLIP, which uniquely separates global and local prompts and jointly optimizes them. This approach enables the object-agnostic glocal semantic prompt to effectively capture general normal and anomalous patterns without dependency on specific objects in the image. We refine the text prompts for more precise adjustments by utilizing deep-text prompt tuning in the text encoder. In the vision encoder, we apply V-V attention layers to capture detailed local image features. Finally, we introduce glocal contrastive learning to improve the complementary learning of global and local prompts, effectively detecting anomalous patterns across various domains. The generalization performance of GlocalCLIP in ZSAD was demonstrated on 15 real-world datasets from both the industrial and medical domains, achieving superior performance compared to existing methods. Code will be made available at https://github.com/YUL-git/GlocalCLIP.
- Abstract(参考訳): ゼロショット異常検出(ZSAD)は、トレーニングサンプルを使用することなく、ターゲットデータセットの異常パターンを検出するために不可欠である。
近年、事前訓練された視覚言語モデルは、様々な視覚的タスクにまたがる強力なゼロショット性能を示すが、クラスセマンティクスの学習に重点を置いており、ZSADへの直接適用は困難である。
このシナリオに対処するため,グローバルなプロンプトとローカルなプロンプトを一意に分離し,共同で最適化するGlocalCLIPを提案する。
このアプローチにより、オブジェクトに依存しない局所的セマンティックプロンプトにより、画像内の特定のオブジェクトに依存することなく、一般的な正規および異常パターンを効果的にキャプチャできる。
我々は、テキストエンコーダの深層テキストプロンプトチューニングを利用して、テキストプロンプトをより精密に調整するために、テキストプロンプトを洗練する。
ビジョンエンコーダでは、V-Vアテンション層を適用して、詳細なローカル画像の特徴をキャプチャする。
最後に,グローバルプロンプトとローカルプロンプトの相補的学習を改善するために,局所的コントラスト学習を導入し,各領域の異常パターンを効果的に検出する。
ZSADにおけるGlocalCLIPの一般化性能を,産業領域および医療領域の15の実世界のデータセットで実証し,既存手法と比較して優れた性能を示した。
コードはhttps://github.com/YUL-git/GlocalCLIP.comで公開される。
関連論文リスト
- ZoRI: Towards Discriminative Zero-Shot Remote Sensing Instance Segmentation [23.40908829241552]
本稿では,訓練データに欠落した空中物体を特定することを目的とした,ゼロショットリモートセンシングインスタンスセグメンテーションという新しいタスクを提案する。
我々は,事前学習された視覚言語アライメントを維持するために,意味関連情報を分離する知識注入型適応戦略を導入する。
我々は,新しい実験プロトコルとベンチマークを構築し,ZoRIが最先端の性能を達成することを実証する広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-12-17T11:00:56Z) - Domain Adaptation with a Single Vision-Language Embedding [45.93202559299953]
本稿では,完全なターゲットデータではなく,単一のVision-Language (VL)遅延埋め込みに依存する,ドメイン適応のための新しいフレームワークを提案する。
これらのマイニングスタイルは、ゼロショット(ターゲットフリー)とワンショットアン教師なしドメイン適応に使用できることを示す。
論文 参考訳(メタデータ) (2024-10-28T17:59:53Z) - Domain-Controlled Prompt Learning [49.45309818782329]
既存の素早い学習方法はドメイン認識やドメイン転送機構を欠いていることが多い。
特定のドメインに対するtextbfDomain-Controlled Prompt Learningを提案する。
本手法は,特定の領域画像認識データセットにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-09-30T02:59:49Z) - Bootstrap Fine-Grained Vision-Language Alignment for Unified Zero-Shot
Anomaly Localization [63.61093388441298]
対照的な言語-画像事前学習モデルは、ゼロショット視覚認識タスクで有望なパフォーマンスを示した。
本研究では,ゼロショット異常局所化のためのAnoCLIPを提案する。
論文 参考訳(メタデータ) (2023-08-30T10:35:36Z) - CLIP the Gap: A Single Domain Generalization Approach for Object
Detection [60.20931827772482]
単一ドメインの一般化(Single Domain Generalization)は、単一のソースドメイン上でモデルをトレーニングすることで、目に見えないターゲットドメインに一般化する問題に取り組む。
本稿では、事前学習された視覚言語モデルを用いて、テキストプロンプトを介して意味領域の概念を導入することを提案する。
本手法は,検出器のバックボーンから抽出した特徴に作用する意味的拡張戦略と,テキストに基づく分類損失によって実現される。
論文 参考訳(メタデータ) (2023-01-13T12:01:18Z) - P{\O}DA: Prompt-driven Zero-shot Domain Adaptation [27.524962843495366]
我々は,対象領域の自然言語,すなわちプロンプトの一般的な記述のみを用いて,ソースドメイン上で訓練されたモデルを適用する。
本稿では,これらのプロンプト駆動による拡張が,セマンティックセグメンテーションのためのゼロショットドメイン適応の実行に有効であることを示す。
論文 参考訳(メタデータ) (2022-12-06T18:59:58Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - Deep face recognition with clustering based domain adaptation [57.29464116557734]
そこで本研究では,ターゲットドメインとソースがクラスを共有しない顔認識タスクを対象とした,クラスタリングに基づく新しいドメイン適応手法を提案する。
本手法は,特徴領域をグローバルに整列させ,その一方で,対象クラスタを局所的に識別することで,識別対象特徴を効果的に学習する。
論文 参考訳(メタデータ) (2022-05-27T12:29:11Z) - An Entropy-guided Reinforced Partial Convolutional Network for Zero-Shot
Learning [77.72330187258498]
エントロピー誘導強化部分畳み込みネットワーク(ERPCNet)を提案する。
ERPCNetは、人間のアノテーションのない意味的関連性と視覚的相関に基づいて、局所性を抽出し、集約する。
グローバルな協力的局所性を動的に発見するだけでなく、ポリシー勾配最適化のためにより高速に収束する。
論文 参考訳(メタデータ) (2021-11-03T11:13:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。