Fugu-MT 論文翻訳(概要): GlocalCLIP: Object-agnostic Global-Local Prompt Learning for Zero-shot Anomaly Detection

論文の概要: GlocalCLIP: Object-agnostic Global-Local Prompt Learning for Zero-shot Anomaly Detection

arxiv url: http://arxiv.org/abs/2411.06071v3
Date: Sun, 08 Dec 2024 13:35:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-10 16:49:05.390721
Title: GlocalCLIP: Object-agnostic Global-Local Prompt Learning for Zero-shot Anomaly Detection
Title（参考訳）: GlocalCLIP:ゼロショット異常検出のためのオブジェクト指向グローバルローカルプロンプト学習
Authors: Jiyul Ham, Yonggon Jung, Jun-Geol Baek,
Abstract要約: グローバルプロンプトとローカルプロンプトの相補的学習を改善するために,局所的コントラスト学習を導入する。 ZSADにおけるGlocalCLIPの一般化性能を実世界の15のデータセットで実証した。
参考スコア（独自算出の注目度）: 5.530212768657544
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Zero-shot anomaly detection (ZSAD) is crucial for detecting anomalous patterns in target datasets without using training samples, specifically in scenarios where there are distributional differences between the target domain and training data or where data scarcity arises because of restricted access. Although recently pretrained vision-language models demonstrate strong zero-shot performance across various visual tasks, they focus on learning class semantics, which makes their direct application to ZSAD challenging. To address this scenario, we propose GlocalCLIP, which uniquely separates global and local prompts and jointly optimizes them. This approach enables the object-agnostic glocal semantic prompt to effectively capture general normal and anomalous patterns without dependency on specific objects in the image. We refine the text prompts for more precise adjustments by utilizing deep-text prompt tuning in the text encoder. In the vision encoder, we apply V-V attention layers to capture detailed local image features. Finally, we introduce glocal contrastive learning to improve the complementary learning of global and local prompts, effectively detecting anomalous patterns across various domains. The generalization performance of GlocalCLIP in ZSAD was demonstrated on 15 real-world datasets from both the industrial and medical domains, achieving superior performance compared to existing methods. Code will be made available at https://github.com/YUL-git/GlocalCLIP.
Abstract（参考訳）: ゼロショット異常検出(ZSAD)は、トレーニングサンプルを使用することなく、ターゲットデータセットの異常パターンを検出するために不可欠である。近年、事前訓練された視覚言語モデルは、様々な視覚的タスクにまたがる強力なゼロショット性能を示すが、クラスセマンティクスの学習に重点を置いており、ZSADへの直接適用は困難である。このシナリオに対処するため,グローバルなプロンプトとローカルなプロンプトを一意に分離し,共同で最適化するGlocalCLIPを提案する。このアプローチにより、オブジェクトに依存しない局所的セマンティックプロンプトにより、画像内の特定のオブジェクトに依存することなく、一般的な正規および異常パターンを効果的にキャプチャできる。我々は、テキストエンコーダの深層テキストプロンプトチューニングを利用して、テキストプロンプトをより精密に調整するために、テキストプロンプトを洗練する。ビジョンエンコーダでは、V-Vアテンション層を適用して、詳細なローカル画像の特徴をキャプチャする。最後に,グローバルプロンプトとローカルプロンプトの相補的学習を改善するために,局所的コントラスト学習を導入し,各領域の異常パターンを効果的に検出する。 ZSADにおけるGlocalCLIPの一般化性能を,産業領域および医療領域の15の実世界のデータセットで実証し,既存手法と比較して優れた性能を示した。コードはhttps://github.com/YUL-git/GlocalCLIP.comで公開される。

関連論文リスト

AF-CLIP: Zero-Shot Anomaly Detection via Anomaly-Focused CLIP Adaptation [8.252046294696585]
AF-CLIP(Anomaly-Focused CLIP)を提案する。本稿では,視覚的特徴の異常関連パターンを強調する軽量アダプタを提案する。また,余分なメモリバンクによる数ショットのシナリオにも拡張されている。
論文参考訳（メタデータ） (2025-07-26T13:34:38Z)
UPRE: Zero-Shot Domain Adaptation for Object Detection via Unified Prompt and Representation Enhancement [25.139037597606233]
ゼロショット領域適応(ZSDA)は、ターゲット領域に画像が欠如しているため、重大な課題を提起する。従来のアプローチでは、この課題に対処するためにVLM(Vision-Language Models)を使用していた。本稿では,テキストプロンプトと視覚表現を協調的に最適化するUPREフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-01T13:00:41Z)
Context-aware TFL: A Universal Context-aware Contrastive Learning Framework for Temporal Forgery Localization [60.73623588349311]
本研究では,時間的フォージェリーローカライゼーションのための共通文脈対応コントラスト学習フレームワーク (UniCaCLF) を提案する。提案手法は教師付きコントラスト学習を利用して,異常検出による偽造瞬間の検出と同定を行う。実物と偽物との間における特徴の識別可能性の限界をさらに押し上げるために、効率的な文脈対応コントラスト符号化を導入する。
論文参考訳（メタデータ） (2025-06-10T06:40:43Z)
Crane: Context-Guided Prompt Learning and Attention Refinement for Zero-Shot Anomaly Detections [50.343419243749054]
異常検出(AD)は、通常のデータ分布から逸脱を識別する。本稿では,視覚エンコーダから抽出した画像コンテキストに基づいて,テキストエンコーダのプロンプトを条件付ける手法を提案する。提案手法は,14のデータセットにおいて,各メトリクスに対して2%から29%の性能向上を実現している。
論文参考訳（メタデータ） (2025-04-15T10:42:25Z)
ZoRI: Towards Discriminative Zero-Shot Remote Sensing Instance Segmentation [23.40908829241552]
本稿では,訓練データに欠落した空中物体を特定することを目的とした,ゼロショットリモートセンシングインスタンスセグメンテーションという新しいタスクを提案する。我々は,事前学習された視覚言語アライメントを維持するために,意味関連情報を分離する知識注入型適応戦略を導入する。我々は,新しい実験プロトコルとベンチマークを構築し,ZoRIが最先端の性能を達成することを実証する広範囲な実験を行った。
論文参考訳（メタデータ） (2024-12-17T11:00:56Z)
Domain Adaptation with a Single Vision-Language Embedding [45.93202559299953]
本稿では,完全なターゲットデータではなく,単一のVision-Language (VL)遅延埋め込みに依存する,ドメイン適応のための新しいフレームワークを提案する。これらのマイニングスタイルは、ゼロショット(ターゲットフリー)とワンショットアン教師なしドメイン適応に使用できることを示す。
論文参考訳（メタデータ） (2024-10-28T17:59:53Z)
Do LLMs Understand Visual Anomalies? Uncovering LLM's Capabilities in Zero-shot Anomaly Detection [18.414762007525137]
大規模視覚言語モデル(LVLM)は、自然言語で導かれる視覚表現の導出に長けている。近年の研究では、ゼロショット視覚異常検出(VAD)の課題に取り組むためにLVLMを用いている。統一モデルを用いてこれらの課題に対処するために設計された、トレーニング不要のアプローチであるALFAを提案する。
論文参考訳（メタデータ） (2024-04-15T10:42:22Z)
Domain-Controlled Prompt Learning [49.45309818782329]
既存の素早い学習方法はドメイン認識やドメイン転送機構を欠いていることが多い。特定のドメインに対するtextbfDomain-Controlled Prompt Learningを提案する。本手法は,特定の領域画像認識データセットにおける最先端性能を実現する。
論文参考訳（メタデータ） (2023-09-30T02:59:49Z)
Bootstrap Fine-Grained Vision-Language Alignment for Unified Zero-Shot Anomaly Localization [63.61093388441298]
対照的な言語-画像事前学習モデルは、ゼロショット視覚認識タスクで有望なパフォーマンスを示した。本研究では,ゼロショット異常局所化のためのAnoCLIPを提案する。
論文参考訳（メタデータ） (2023-08-30T10:35:36Z)
CLIP the Gap: A Single Domain Generalization Approach for Object Detection [60.20931827772482]
単一ドメインの一般化(Single Domain Generalization)は、単一のソースドメイン上でモデルをトレーニングすることで、目に見えないターゲットドメインに一般化する問題に取り組む。本稿では、事前学習された視覚言語モデルを用いて、テキストプロンプトを介して意味領域の概念を導入することを提案する。本手法は,検出器のバックボーンから抽出した特徴に作用する意味的拡張戦略と,テキストに基づく分類損失によって実現される。
論文参考訳（メタデータ） (2023-01-13T12:01:18Z)
P{\O}DA: Prompt-driven Zero-shot Domain Adaptation [27.524962843495366]
我々は,対象領域の自然言語,すなわちプロンプトの一般的な記述のみを用いて,ソースドメイン上で訓練されたモデルを適用する。本稿では,これらのプロンプト駆動による拡張が,セマンティックセグメンテーションのためのゼロショットドメイン適応の実行に有効であることを示す。
論文参考訳（メタデータ） (2022-12-06T18:59:58Z)
Towards Effective Image Manipulation Detection with Proposal Contrastive Learning [61.5469708038966]
本稿では,効果的な画像操作検出のためのコントラスト学習(PCL)を提案する。我々のPCLは、RGBとノイズビューから2種類のグローバル特徴を抽出し、2ストリームアーキテクチャで構成されている。我々のPCLは、実際にラベル付けされていないデータに容易に適用でき、手作業によるラベル付けコストを削減し、より一般化可能な機能を促進することができる。
論文参考訳（メタデータ） (2022-10-16T13:30:13Z)
Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文参考訳（メタデータ） (2022-07-19T15:49:35Z)
Deep face recognition with clustering based domain adaptation [57.29464116557734]
そこで本研究では,ターゲットドメインとソースがクラスを共有しない顔認識タスクを対象とした,クラスタリングに基づく新しいドメイン適応手法を提案する。本手法は,特徴領域をグローバルに整列させ,その一方で,対象クラスタを局所的に識別することで,識別対象特徴を効果的に学習する。
論文参考訳（メタデータ） (2022-05-27T12:29:11Z)
Unsupervised Domain Adaptation for Spatio-Temporal Action Localization [69.12982544509427]
S時間動作の局所化はコンピュータビジョンにおいて重要な問題である。本稿では、エンドツーエンドの教師なしドメイン適応アルゴリズムを提案する。空間的特徴と時間的特徴を別々にあるいは共同的に適応した場合に,顕著な性能向上が達成できることを示す。
論文参考訳（メタデータ） (2020-10-19T04:25:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。