論文の概要: KAnoCLIP: Zero-Shot Anomaly Detection through Knowledge-Driven Prompt Learning and Enhanced Cross-Modal Integration
- arxiv url: http://arxiv.org/abs/2501.03786v1
- Date: Tue, 07 Jan 2025 13:51:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-08 15:49:24.815872
- Title: KAnoCLIP: Zero-Shot Anomaly Detection through Knowledge-Driven Prompt Learning and Enhanced Cross-Modal Integration
- Title(参考訳): KANOCLIP:知識駆動型プロンプト学習によるゼロショット異常検出とクロスモーダル統合の強化
- Authors: Chengyuan Li, Suyang Zhou, Jieping Kong, Lei Qi, Hui Xue,
- Abstract要約: ゼロショット異常検出(ZSAD)は、ターゲットデータセットからのトレーニングサンプルを必要とせずに、異常を識別する。
CLIPのようなビジョン言語モデルはZSADに潜在的な可能性を示すが、制限がある。
視覚言語モデルを活用した新しいZSADフレームワークであるKAnoCLIPを紹介する。
KAnoCLIPは、12の産業および医療データセットにわたるZSADの最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 9.688664292809785
- License:
- Abstract: Zero-shot anomaly detection (ZSAD) identifies anomalies without needing training samples from the target dataset, essential for scenarios with privacy concerns or limited data. Vision-language models like CLIP show potential in ZSAD but have limitations: relying on manually crafted fixed textual descriptions or anomaly prompts is time-consuming and prone to semantic ambiguity, and CLIP struggles with pixel-level anomaly segmentation, focusing more on global semantics than local details. To address these limitations, We introduce KAnoCLIP, a novel ZSAD framework that leverages vision-language models. KAnoCLIP combines general knowledge from a Large Language Model (GPT-3.5) and fine-grained, image-specific knowledge from a Visual Question Answering system (Llama3) via Knowledge-Driven Prompt Learning (KnPL). KnPL uses a knowledge-driven (KD) loss function to create learnable anomaly prompts, removing the need for fixed text prompts and enhancing generalization. KAnoCLIP includes the CLIP visual encoder with V-V attention (CLIP-VV), Bi-Directional Cross-Attention for Multi-Level Cross-Modal Interaction (Bi-CMCI), and Conv-Adapter. These components preserve local visual semantics, improve local cross-modal fusion, and align global visual features with textual information, enhancing pixel-level anomaly detection. KAnoCLIP achieves state-of-the-art performance in ZSAD across 12 industrial and medical datasets, demonstrating superior generalization compared to existing methods.
- Abstract(参考訳): ゼロショット異常検出(ZSAD)は、ターゲットデータセットからのトレーニングサンプルを必要とせずに、異常を識別する。
CLIPのようなヴィジュアル言語モデルはZSADに潜在的な可能性を示しているが、制限がある。手作業による固定されたテキスト記述や異常なプロンプトに頼ることは、意味的曖昧さに時間がかかり、CLIPはピクセルレベルの異常セグメンテーションに苦労し、局所的な詳細よりもグローバルなセマンティクスに重点を置いている。
これらの制約に対処するため,視覚言語モデルを活用した新しいZSADフレームワークであるKAnoCLIPを導入する。
KAnoCLIPは、大規模言語モデル(GPT-3.5)からの一般的な知識と、知識駆動型学習(KnPL)を介して視覚質問回答システム(Llama3)からのきめ細やかな画像固有の知識を組み合わせる。
KnPLは知識駆動(KD)損失関数を使用して、学習可能な異常プロンプトを生成し、固定テキストプロンプトの必要性を排除し、一般化を強化する。
KAnoCLIPには、V-Vアテンションを備えたCLIPビジュアルエンコーダ(CLIP-VV)、マルチレベルクロスモーダルインタラクションのための双方向クロスアテンション(Bi-CMCI)、Conv-Adapterが含まれている。
これらのコンポーネントは、局所的な視覚的セマンティクスを保持し、局所的な相互融合を改善し、グローバルな視覚特徴をテキスト情報と整合させ、ピクセルレベルの異常検出を強化する。
KAnoCLIPは、12の産業用および医療用データセットにわたるZSADの最先端のパフォーマンスを達成し、既存の方法と比較して優れた一般化を実証している。
関連論文リスト
- Point Cloud Understanding via Attention-Driven Contrastive Learning [64.65145700121442]
トランスフォーマーベースのモデルは、自己認識機構を活用することにより、先進的なポイントクラウド理解を持つ。
PointACLは、これらの制限に対処するために設計された、注意駆動のコントラスト学習フレームワークである。
本手法では, 注意駆動型動的マスキング手法を用いて, モデルが非集中領域に集中するように誘導する。
論文 参考訳(メタデータ) (2024-11-22T05:41:00Z) - GlocalCLIP: Object-agnostic Global-Local Prompt Learning for Zero-shot Anomaly Detection [5.530212768657544]
グローバルプロンプトとローカルプロンプトの相補的学習を改善するために,局所的コントラスト学習を導入する。
ZSADにおけるGlocalCLIPの一般化性能を実世界の15のデータセットで実証した。
論文 参考訳(メタデータ) (2024-11-09T05:22:13Z) - DetailCLIP: Detail-Oriented CLIP for Fine-Grained Tasks [31.850184662606562]
DetailCLIP(Detail-Oriented CLIP)を導入し、対照的な学習に基づく視覚言語モデルの限界に対処する。
DetailCLIPは,既存のCLIPベースおよび従来の自己教師付き学習(SSL)モデルを上回るセグメンテーション精度を示し,多様なデータセットにまたがる優れた一般化を示す。
論文 参考訳(メタデータ) (2024-09-10T18:27:36Z) - AdaCLIP: Adapting CLIP with Hybrid Learnable Prompts for Zero-Shot Anomaly Detection [14.916862007773341]
本研究では,事前学習型視覚言語モデル(VLM)であるCLIPを利用して,ZSADタスクのためのAdaCLIPを提案する。
AdaCLIPは学習可能なプロンプトをCLIPに組み込み、補助的な注釈付き異常検出データのトレーニングを通じて最適化する。
AdaCLIPは他のZSAD法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-07-22T16:52:37Z) - Dual-Image Enhanced CLIP for Zero-Shot Anomaly Detection [58.228940066769596]
本稿では,統合視覚言語スコアリングシステムを活用したデュアルイメージ強化CLIP手法を提案する。
提案手法は,画像のペアを処理し,それぞれを視覚的参照として利用することにより,視覚的コンテキストによる推論プロセスを強化する。
提案手法は視覚言語による関節異常検出の可能性を大幅に活用し,従来のSOTA法と同等の性能を示す。
論文 参考訳(メタデータ) (2024-05-08T03:13:20Z) - SignVTCL: Multi-Modal Continuous Sign Language Recognition Enhanced by
Visual-Textual Contrastive Learning [51.800031281177105]
SignVTCLは、視覚・テキストのコントラスト学習によって強化された連続手話認識フレームワークである。
マルチモーダルデータ(ビデオ、キーポイント、光学フロー)を同時に統合し、統一された視覚バックボーンをトレーニングする。
従来の方法と比較して最先端の結果が得られます。
論文 参考訳(メタデータ) (2024-01-22T11:04:55Z) - UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World Understanding [90.74967596080982]
本稿では,マルチグラニュラリティアライメントを備えたコントラスト言語-画像事前学習(CLIP)を拡張した。
UMG-CLIPと呼ばれる統一多言語学習フレームワークを開発した。
パラメータ効率のよいチューニングにより、UMG-CLIPは、現在広く使われているCLIPの亜種を超え、多様な画像理解ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-12T06:35:09Z) - Exploiting CLIP for Zero-shot HOI Detection Requires Knowledge
Distillation at Multiple Levels [52.50670006414656]
大規模事前学習型視覚言語モデルであるCLIPを,多段階の知識蒸留に利用した。
私たちのモデルをトレーニングするために、CLIPを使用して、グローバルイメージとローカルユニオン領域の両方のHOIスコアを生成する。
このモデルは、完全な教師付きおよび弱い教師付き手法に匹敵する強力な性能を達成する。
論文 参考訳(メタデータ) (2023-09-10T16:27:54Z) - Bootstrap Fine-Grained Vision-Language Alignment for Unified Zero-Shot
Anomaly Localization [63.61093388441298]
対照的な言語-画像事前学習モデルは、ゼロショット視覚認識タスクで有望なパフォーマンスを示した。
本研究では,ゼロショット異常局所化のためのAnoCLIPを提案する。
論文 参考訳(メタデータ) (2023-08-30T10:35:36Z) - HOICLIP: Efficient Knowledge Transfer for HOI Detection with
Vision-Language Models [30.279621764192843]
人間-物体相互作用(Human-Object Interaction、HOI)は、人-物体のペアを局所化し、その相互作用を認識することを目的としている。
対照的な言語-画像事前学習(CLIP)は、HOI検出器に先立って相互作用を提供する大きな可能性を示している。
本稿では,CLIPから事前知識を効率的に抽出し,より優れた一般化を実現する新しいHOI検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-28T07:54:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。