論文の概要: IQE-CLIP: Instance-aware Query Embedding for Zero-/Few-shot Anomaly Detection in Medical Domain
- arxiv url: http://arxiv.org/abs/2506.10730v1
- Date: Thu, 12 Jun 2025 14:23:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.774959
- Title: IQE-CLIP: Instance-aware Query Embedding for Zero-/Few-shot Anomaly Detection in Medical Domain
- Title(参考訳): IQE-CLIP: 医療領域におけるゼロ・フルショット異常検出のためのインスタンス対応クエリ埋め込み
- Authors: Hong Huang, Weixiang Sun, Zhijian Wu, Jingwen Niu, Donghuan Lu, Xian Wu, Yefeng Zheng,
- Abstract要約: IQE-CLIPは医学領域における異常検出のための新しいフレームワークである。
私たちはCLIPを医療環境に適応させるために、クラスベースで学習可能なプロンプトを導入します。
IQE-CLIPはゼロショット設定と少数ショット設定の両方で最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 40.584137588388245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in vision-language models, such as CLIP, have significantly improved performance in zero- and few-shot anomaly detection (ZFSAD) tasks. However, most existing CLIP-based methods assume prior knowledge of categories and rely on carefully designed prompts tailored to specific scenarios. While these text prompts capture semantic information in the textual space, they often fail to distinguish normal and anomalous instances in the joint embedding space. Moreover, most ZFSAD approaches focus on industrial domains, with limited exploration in medical tasks. To address these limitations, we propose IQE-CLIP, a novel framework for ZFSAD in the medical domain. We show that query embeddings integrating both textual and instance-aware visual information serve as more effective indicators of anomalies. Specifically, we introduce class-based and learnable prompting tokens to better adapt CLIP to the medical setting. Furthermore, we design an instance-aware query module that extracts region-level contextual information from both modalities, enabling the generation of anomaly-sensitive embeddings. Extensive experiments on six medical datasets demonstrate that IQE-CLIP achieves state-of-the-art performance in both zero-shot and few-shot settings. Code and data are available at \href{https://github.com/hongh0/IQE-CLIP/}{this https URL}.
- Abstract(参考訳): CLIPのようなビジョン言語モデルの最近の進歩は、ゼロおよび少数ショット異常検出(ZFSAD)タスクのパフォーマンスを大幅に改善した。
しかし、既存のCLIPベースのメソッドの多くは、カテゴリの事前の知識を前提としており、特定のシナリオに合わせて慎重に設計されたプロンプトに依存している。
これらのテキストは、テキスト空間における意味情報をキャプチャすることを促すが、しばしば、関節埋め込み空間における通常の例と異常な例を区別することができない。
さらに、ほとんどのZFSADアプローチは、医療タスクの限られた探索を伴う産業領域に焦点を当てている。
これらの制約に対処するため、医療領域におけるZFSADの新しいフレームワークであるIQE-CLIPを提案する。
テキストとインスタンス認識の視覚情報を統合したクエリ埋め込みが、異常のより効果的な指標であることを示す。
具体的には、CLIPを医療環境に適応させるために、クラスベースで学習可能なプロンプトを導入する。
さらに、両モードから領域レベルのコンテキスト情報を抽出し、異常に敏感な埋め込みを生成するインスタンス対応クエリモジュールを設計する。
6つの医療データセットに対する大規模な実験は、IQE-CLIPがゼロショットと少数ショットの両方で最先端のパフォーマンスを達成することを示した。
コードとデータは \href{https://github.com/hongh0/IQE-CLIP/}{this https URL} で公開されている。
関連論文リスト
- ViP$^2$-CLIP: Visual-Perception Prompting with Unified Alignment for Zero-Shot Anomaly Detection [2.622385361961154]
ゼロショット異常検出(ZSAD)は、外部補助データのみに依存するため、ターゲットドメインのトレーニングサンプルを使わずに異常を検出することを目的としている。
既存のCLIPベースのメソッドは、手作りまたは静的学習可能なプロンプトを介してモデルのZSAD電位を活性化しようとする。
ViP$2$-CLIPは、グローバルおよびマルチスケールのローカルビジュアルコンテキストを融合させ、微粒なテキストプロンプトを適応的に生成する。
論文 参考訳(メタデータ) (2025-05-23T10:01:11Z) - KAnoCLIP: Zero-Shot Anomaly Detection through Knowledge-Driven Prompt Learning and Enhanced Cross-Modal Integration [9.688664292809785]
ゼロショット異常検出(ZSAD)は、ターゲットデータセットからのトレーニングサンプルを必要とせずに、異常を識別する。
CLIPのようなビジョン言語モデルはZSADに潜在的な可能性を示すが、制限がある。
視覚言語モデルを活用した新しいZSADフレームワークであるKAnoCLIPを紹介する。
KAnoCLIPは、12の産業および医療データセットにわたるZSADの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-01-07T13:51:41Z) - GlocalCLIP: Object-agnostic Global-Local Prompt Learning for Zero-shot Anomaly Detection [5.530212768657544]
グローバルプロンプトとローカルプロンプトの相補的学習を改善するために,局所的コントラスト学習を導入する。
ZSADにおけるGlocalCLIPの一般化性能を実世界の15のデータセットで実証した。
論文 参考訳(メタデータ) (2024-11-09T05:22:13Z) - Hint-enhanced In-Context Learning wakes Large Language Models up for knowledge-intensive tasks [54.153914606302486]
大規模言語モデル(LLM)の規模拡大に伴い、インコンテキスト学習(ICL)能力が出現した。
我々は、オープンドメイン質問応答におけるICLのパワーを探るため、Hint-enhanced In-Context Learning(HICL)と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-03T14:39:20Z) - Bootstrap Fine-Grained Vision-Language Alignment for Unified Zero-Shot
Anomaly Localization [63.61093388441298]
対照的な言語-画像事前学習モデルは、ゼロショット視覚認識タスクで有望なパフォーマンスを示した。
本研究では,ゼロショット異常局所化のためのAnoCLIPを提案する。
論文 参考訳(メタデータ) (2023-08-30T10:35:36Z) - Label Words are Anchors: An Information Flow Perspective for
Understanding In-Context Learning [77.7070536959126]
大規模言語モデル(LLM)の有望な能力としてインコンテキスト学習(ICL)が出現する
本稿では,情報フローレンズを用いたICLの動作機構について検討する。
本稿では,ICL性能向上のためのアンカー再重み付け手法,推論の高速化のための実演圧縮手法,GPT2-XLにおけるICLエラーの診断のための解析フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T15:26:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。