論文の概要: IQE-CLIP: Instance-aware Query Embedding for Zero-/Few-shot Anomaly Detection in Medical Domain
- arxiv url: http://arxiv.org/abs/2506.10730v2
- Date: Fri, 13 Jun 2025 03:32:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 13:34:02.052816
- Title: IQE-CLIP: Instance-aware Query Embedding for Zero-/Few-shot Anomaly Detection in Medical Domain
- Title(参考訳): IQE-CLIP: 医療領域におけるゼロ・フルショット異常検出のためのインスタンス対応クエリ埋め込み
- Authors: Hong Huang, Weixiang Sun, Zhijian Wu, Jingwen Niu, Donghuan Lu, Xian Wu, Yefeng Zheng,
- Abstract要約: IQE-CLIPは医療領域における異常検出タスクのための革新的なフレームワークである。
医学領域へのCLIPの適応性を高めるために,クラスベースのプロンプトトークンと学習可能なプロンプトトークンを導入する。
我々のフレームワークはゼロショットタスクと少数ショットタスクの両方で最先端の処理を実現している。
- 参考スコア(独自算出の注目度): 40.584137588388245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, the rapid advancements of vision-language models, such as CLIP, leads to significant progress in zero-/few-shot anomaly detection (ZFSAD) tasks. However, most existing CLIP-based ZFSAD methods commonly assume prior knowledge of categories and rely on carefully crafted prompts tailored to specific scenarios. While such meticulously designed text prompts effectively capture semantic information in the textual space, they fall short of distinguishing normal and anomalous instances within the joint embedding space. Moreover, these ZFSAD methods are predominantly explored in industrial scenarios, with few efforts conducted to medical tasks. To this end, we propose an innovative framework for ZFSAD tasks in medical domain, denoted as IQE-CLIP. We reveal that query embeddings, which incorporate both textual and instance-aware visual information, are better indicators for abnormalities. Specifically, we first introduce class-based prompting tokens and learnable prompting tokens for better adaptation of CLIP to the medical domain. Then, we design an instance-aware query module (IQM) to extract region-level contextual information from both text prompts and visual features, enabling the generation of query embeddings that are more sensitive to anomalies. Extensive experiments conducted on six medical datasets demonstrate that IQE-CLIP achieves state-of-the-art performance on both zero-shot and few-shot tasks. We release our code and data at https://github.com/hongh0/IQE-CLIP/.
- Abstract(参考訳): 近年、CLIPのような視覚言語モデルの急速な進歩により、ゼロ/ファウショット異常検出(ZFSAD)タスクが大幅に進歩している。
しかし、既存のCLIPベースのZFSADメソッドの多くは、カテゴリの事前の知識を前提としており、特定のシナリオに合わせて慎重に作り上げられたプロンプトに依存している。
このような巧妙に設計されたテキストは、テキスト空間内の意味情報を効果的にキャプチャするが、関節埋め込み空間内の正常なインスタンスと異常なインスタンスを区別することができない。
さらに、これらのZFSAD法は産業シナリオにおいて主に研究されており、医療業務にはほとんど取り組みがない。
そこで本研究では,医療領域におけるZFSADタスクの革新的なフレームワークとしてIQE-CLIPを提案する。
我々は,テキスト情報とインスタンス認識視覚情報の両方を組み込んだクエリ埋め込みが,異常の指標として優れていることを明らかにした。
具体的には、まず、CLIPを医療領域に適応させるために、クラスベースのプロンプトトークンと学習可能なプロンプトトークンを導入する。
そして、テキストプロンプトと視覚特徴の両方から領域レベルのコンテキスト情報を抽出し、異常に敏感なクエリ埋め込みを生成するために、インスタンス対応クエリモジュール(IQM)を設計する。
6つの医学データセットで実施された大規模な実験は、IQE-CLIPがゼロショットタスクと少数ショットタスクの両方で最先端のパフォーマンスを達成することを示した。
コードとデータはhttps://github.com/hongh0/IQE-CLIP/で公開しています。
関連論文リスト
- ViP$^2$-CLIP: Visual-Perception Prompting with Unified Alignment for Zero-Shot Anomaly Detection [2.622385361961154]
ゼロショット異常検出(ZSAD)は、外部補助データのみに依存するため、ターゲットドメインのトレーニングサンプルを使わずに異常を検出することを目的としている。
既存のCLIPベースのメソッドは、手作りまたは静的学習可能なプロンプトを介してモデルのZSAD電位を活性化しようとする。
ViP$2$-CLIPは、グローバルおよびマルチスケールのローカルビジュアルコンテキストを融合させ、微粒なテキストプロンプトを適応的に生成する。
論文 参考訳(メタデータ) (2025-05-23T10:01:11Z) - KAnoCLIP: Zero-Shot Anomaly Detection through Knowledge-Driven Prompt Learning and Enhanced Cross-Modal Integration [9.688664292809785]
ゼロショット異常検出(ZSAD)は、ターゲットデータセットからのトレーニングサンプルを必要とせずに、異常を識別する。
CLIPのようなビジョン言語モデルはZSADに潜在的な可能性を示すが、制限がある。
視覚言語モデルを活用した新しいZSADフレームワークであるKAnoCLIPを紹介する。
KAnoCLIPは、12の産業および医療データセットにわたるZSADの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-01-07T13:51:41Z) - GlocalCLIP: Object-agnostic Global-Local Prompt Learning for Zero-shot Anomaly Detection [5.530212768657544]
グローバルプロンプトとローカルプロンプトの相補的学習を改善するために,局所的コントラスト学習を導入する。
ZSADにおけるGlocalCLIPの一般化性能を実世界の15のデータセットで実証した。
論文 参考訳(メタデータ) (2024-11-09T05:22:13Z) - Hint-enhanced In-Context Learning wakes Large Language Models up for knowledge-intensive tasks [54.153914606302486]
大規模言語モデル(LLM)の規模拡大に伴い、インコンテキスト学習(ICL)能力が出現した。
我々は、オープンドメイン質問応答におけるICLのパワーを探るため、Hint-enhanced In-Context Learning(HICL)と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-03T14:39:20Z) - Bootstrap Fine-Grained Vision-Language Alignment for Unified Zero-Shot
Anomaly Localization [63.61093388441298]
対照的な言語-画像事前学習モデルは、ゼロショット視覚認識タスクで有望なパフォーマンスを示した。
本研究では,ゼロショット異常局所化のためのAnoCLIPを提案する。
論文 参考訳(メタデータ) (2023-08-30T10:35:36Z) - Label Words are Anchors: An Information Flow Perspective for
Understanding In-Context Learning [77.7070536959126]
大規模言語モデル(LLM)の有望な能力としてインコンテキスト学習(ICL)が出現する
本稿では,情報フローレンズを用いたICLの動作機構について検討する。
本稿では,ICL性能向上のためのアンカー再重み付け手法,推論の高速化のための実演圧縮手法,GPT2-XLにおけるICLエラーの診断のための解析フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T15:26:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。