論文の概要: Domain Adaptation of Attention Heads for Zero-shot Anomaly Detection
- arxiv url: http://arxiv.org/abs/2505.22259v1
- Date: Wed, 28 May 2025 11:45:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.580523
- Title: Domain Adaptation of Attention Heads for Zero-shot Anomaly Detection
- Title(参考訳): ゼロショット異常検出のためのアテンションヘッドのドメイン適応
- Authors: Kiyoon Jeong, Jaehyuk Heo, Junyeong Son, Pilsung Kang,
- Abstract要約: 本稿では,テキストエンコーダと画像エンコーダの両方を効果的にドメインに適応させることにより,制限を克服するHeadCLIPを提案する。
HeadCLIPはテキストエンコーダの学習可能なプロンプトを通じて正規性と異常の概念を一般化する。
HeadCLIPは、既存のZSAD技術よりもピクセルレベルと画像レベルで優れていることを示す。
- 参考スコア(独自算出の注目度): 2.971139973290946
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot anomaly detection (ZSAD) in images is an approach that can detect anomalies without access to normal samples, which can be beneficial in various realistic scenarios where model training is not possible. However, existing ZSAD research has shown limitations by either not considering domain adaptation of general-purpose backbone models to anomaly detection domains or by implementing only partial adaptation to some model components. In this paper, we propose HeadCLIP to overcome these limitations by effectively adapting both text and image encoders to the domain. HeadCLIP generalizes the concepts of normality and abnormality through learnable prompts in the text encoder, and introduces learnable head weights to the image encoder to dynamically adjust the features held by each attention head according to domain characteristics. Additionally, we maximize the effect of domain adaptation by introducing a joint anomaly score that utilizes domain-adapted pixel-level information for image-level anomaly detection. Experimental results using multiple real datasets in both industrial and medical domains show that HeadCLIP outperforms existing ZSAD techniques at both pixel and image levels. In the industrial domain, improvements of up to 4.9%p in pixel-level mean anomaly detection score (mAD) and up to 3.0%p in image-level mAD were achieved, with similar improvements (3.2%p, 3.1%p) in the medical domain.
- Abstract(参考訳): 画像中のゼロショット異常検出(ZSAD)は、通常のサンプルにアクセスせずに異常を検出するアプローチであり、モデルトレーニングが不可能なさまざまな現実的なシナリオで有用である。
しかし、既存のZSAD研究は、汎用バックボーンモデルの異常検出領域へのドメイン適応を考慮しないか、または一部のモデルコンポーネントへの部分適応のみを実装するかによって制限が示されている。
本稿では,テキストエンコーダと画像エンコーダの両方を効果的にドメインに適応させることにより,これらの制限を克服するためのHeadCLIPを提案する。
HeadCLIPは、テキストエンコーダの学習可能なプロンプトを通じて正規性と異常の概念を一般化し、学習可能なヘッドウェイトを画像エンコーダに導入し、各注目ヘッドが保持する特徴をドメイン特性に応じて動的に調整する。
さらに,画像レベルの異常検出に領域適応画素レベル情報を利用する共同異常スコアを導入することにより,領域適応の効果を最大化する。
産業領域と医療領域の両方で複数の実データを用いた実験結果から、HeadCLIPは既存のZSAD技術をピクセルレベルでも画像レベルでも優れていることが示された。
工業領域では、画素レベルの平均異常検出スコア(mAD)が4.9%、画像レベルのmADが3.0%、医療領域でも同様の改善(3.2%p,3.1%p)が達成された。
関連論文リスト
- Crane: Context-Guided Prompt Learning and Attention Refinement for Zero-Shot Anomaly Detections [50.343419243749054]
異常検出(AD)は、通常のデータ分布から逸脱を識別する。
本稿では,視覚エンコーダから抽出した画像コンテキストに基づいて,テキストエンコーダのプロンプトを条件付ける手法を提案する。
提案手法は,14のデータセットにおいて,各メトリクスに対して2%から29%の性能向上を実現している。
論文 参考訳(メタデータ) (2025-04-15T10:42:25Z) - WIDIn: Wording Image for Domain-Invariant Representation in Single-Source Domain Generalization [63.98650220772378]
We present WIDIn, Wording Images for Domain-Invariant representation, to disentangleative discriminative visual representation。
まず、ドメイン固有の言語を適応的に識別し、削除するために使用可能な、きめ細かいアライメントを組み込んだ言語を推定する。
WIDInは、CLIPのような事前訓練された視覚言語モデルと、MoCoやBERTのような個別訓練されたユニモーダルモデルの両方に適用可能であることを示す。
論文 参考訳(メタデータ) (2024-05-28T17:46:27Z) - Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。
提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。
医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-19T09:28:19Z) - Self-supervised Feature Adaptation for 3D Industrial Anomaly Detection [59.41026558455904]
具体的には,大規模ビジュアルデータセット上で事前学習されたモデルを利用した初期のマルチモーダルアプローチについて検討する。
本研究では,アダプタを微調整し,異常検出に向けたタスク指向の表現を学習するためのLSFA法を提案する。
論文 参考訳(メタデータ) (2024-01-06T07:30:41Z) - AnomalyCLIP: Object-agnostic Prompt Learning for Zero-shot Anomaly Detection [30.679012320439625]
AnomalyCLIPはオブジェクトに依存しないテキストを学習し、画像の一般的な正規性と異常をキャプチャする。
非常に多様なクラスセマンティクスのデータセットにおける異常の検出とセグメンテーションにおいて、優れたゼロショット性能を実現する。
論文 参考訳(メタデータ) (2023-10-29T10:03:49Z) - Spectral Adversarial MixUp for Few-Shot Unsupervised Domain Adaptation [72.70876977882882]
臨床応用においては、トレーニング画像(ソース領域)とテスト画像(ターゲット領域)が異なる分布下にある場合、ドメインシフトは一般的な問題である。
本稿では,Few-Shot Unsupervised Domain Adaptation (FSUDA) の新たな手法を提案する。
論文 参考訳(メタデータ) (2023-09-03T16:02:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。