論文の概要: VisualAD: Language-Free Zero-Shot Anomaly Detection via Vision Transformer
- arxiv url: http://arxiv.org/abs/2603.07952v1
- Date: Mon, 09 Mar 2026 04:33:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.482941
- Title: VisualAD: Language-Free Zero-Shot Anomaly Detection via Vision Transformer
- Title(参考訳): VisualAD:視覚変換器による言語フリーゼロショット異常検出
- Authors: Yanning Hou, Peiyuan Li, Zirui Liu, Yitong Wang, Yanran Ruan, Jianfeng Qiu, Ke Xu,
- Abstract要約: ゼロショット異常検出(ZSAD)では、ターゲットクラスの異常サンプルにアクセスせずに異常を検出し、位置を特定する必要がある。
この作業は、ZSADのテキストブランチの必要性を再考し、ビジョントランスフォーマー上に構築された純粋に視覚的なフレームワークであるVisualADを提示する。
VisualADは、産業ドメインと医療ドメインにまたがる13のゼロショット異常検出ベンチマークで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 18.348454274148185
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Zero-shot anomaly detection (ZSAD) requires detecting and localizing anomalies without access to target-class anomaly samples. Mainstream methods rely on vision-language models (VLMs) such as CLIP: they build hand-crafted or learned prompt sets for normal and abnormal semantics, then compute image-text similarities for open-set discrimination. While effective, this paradigm depends on a text encoder and cross-modal alignment, which can lead to training instability and parameter redundancy. This work revisits the necessity of the text branch in ZSAD and presents VisualAD, a purely visual framework built on Vision Transformers. We introduce two learnable tokens within a frozen backbone to directly encode normality and abnormality. Through multi-layer self-attention, these tokens interact with patch tokens, gradually acquiring high-level notions of normality and anomaly while guiding patches to highlight anomaly-related cues. Additionally, we incorporate a Spatial-Aware Cross-Attention (SCA) module and a lightweight Self-Alignment Function (SAF): SCA injects fine-grained spatial information into the tokens, and SAF recalibrates patch features before anomaly scoring. VisualAD achieves state-of-the-art performance on 13 zero-shot anomaly detection benchmarks spanning industrial and medical domains, and adapts seamlessly to pretrained vision backbones such as the CLIP image encoder and DINOv2. Code: https://github.com/7HHHHH/VisualAD
- Abstract(参考訳): ゼロショット異常検出(ZSAD)では、ターゲットクラスの異常サンプルにアクセスせずに異常を検出し、位置を特定する必要がある。
メインストリームの手法はCLIPのような視覚言語モデル(VLM)に依存しており、通常の意味論と異常な意味論のための手作りまたは学習プロンプトセットを構築し、オープンセットの識別のために画像とテキストの類似性を計算する。
効果的ではあるが、このパラダイムはテキストエンコーダとクロスモーダルアライメントに依存しており、トレーニングの不安定性とパラメータの冗長性につながる可能性がある。
この作業は、ZSADのテキストブランチの必要性を再考し、ビジョントランスフォーマー上に構築された純粋に視覚的なフレームワークであるVisualADを提示する。
凍結したバックボーン内に2つの学習可能なトークンを導入し、正規性と異常を直接エンコードする。
多層自己注意を通じて、これらのトークンはパッチトークンと相互作用し、異常に関連する手がかりを強調するためにパッチを導く一方で、正常性や異常性の高レベルな概念を徐々に取得する。
さらに,SCAモジュールと軽量セルフアライメント機能(SAF):SCAはトークンにきめ細かい空間情報を注入し,SAFは異常スコアの前にパッチ機能を再検討する。
VisualADは、産業ドメインと医療ドメインにまたがる13のゼロショット異常検出ベンチマークで最先端のパフォーマンスを実現し、CLIPイメージエンコーダやDINOv2のような事前訓練されたビジョンバックボーンにシームレスに適応する。
コード:https://github.com/7HHHH/VisualAD
関連論文リスト
- Defect-aware Hybrid Prompt Optimization via Progressive Tuning for Zero-Shot Multi-type Anomaly Detection and Segmentation [12.030059666003972]
分散シフト下でのゼロショット多重型およびバイナリ異常検出とセグメンテーションのプログレッシブチューニングに基づく,Defect-aware Prompt Optimizationのための新しいアプローチであるDAPOを紹介する。
本手法は,固定されたテキストアンカーと学習可能なトークン埋め込みの両方で,ハイブリッドな欠陥認識プロンプトを学習することにより,異常関連画像特徴と対応するテキストセマンティクスを一致させる。
論文 参考訳(メタデータ) (2025-12-10T09:19:17Z) - AD-DINOv3: Enhancing DINOv3 for Zero-Shot Anomaly Detection with Anomaly-Aware Calibration [12.642531824086639]
Zero-Shot Anomaly Detection (ZSAD)は、任意の新しいカテゴリから異常を識別する。
最近のDINOv3のようなビジョン基礎モデルは、強力な転送可能な表現能力を示している。
本稿では,ZSAD用に設計された新しい視覚言語マルチモーダルフレームワークであるAD-DINOv3を紹介する。
論文 参考訳(メタデータ) (2025-09-17T15:29:25Z) - CoPS: Conditional Prompt Synthesis for Zero-Shot Anomaly Detection [6.1568149026052374]
Conditional Prompt Synthesis (CoPS)は、視覚的特徴に条件付き動的プロンプトを合成し、ZSAD性能を向上させる新しいフレームワークである。
CoPSは、13の産業および医療データセットの分類とセグメンテーションの両方において、最先端の手法を2.5%AUROCで上回っている。
論文 参考訳(メタデータ) (2025-08-05T13:47:45Z) - Crane: Context-Guided Prompt Learning and Attention Refinement for Zero-Shot Anomaly Detection [50.343419243749054]
異常検出は、医学診断や工業的欠陥検出などの分野において重要である。
CLIPの粗粒化画像テキストアライメントは、微粒化異常に対する局所化と検出性能を制限する。
クレーンは最先端のZSADを2%から28%に改善し、画像レベルとピクセルレベルの両方で、推論速度では競争力を維持している。
論文 参考訳(メタデータ) (2025-04-15T10:42:25Z) - Fine-grained Abnormality Prompt Learning for Zero-shot Anomaly Detection [109.72772150095646]
FAPromptは、精密なZSADのためのきめ細かい異常プロンプトを学習するために設計された新しいフレームワークである。
産業的欠陥と医療的異常の両方をカバーする19の実世界のデータセットの実験は、FAPromptが画像レベルのZSADタスクとピクセルレベルのZSADタスクの両方で最先端の手法を大幅に上回っていることを実証している。
論文 参考訳(メタデータ) (2024-10-14T08:41:31Z) - GeneralAD: Anomaly Detection Across Domains by Attending to Distorted Features [68.14842693208465]
GeneralADは、意味的、ほぼ分布的、産業的設定で動作するように設計された異常検出フレームワークである。
本稿では,ノイズ付加やシャッフルなどの簡単な操作を施した自己教師付き異常生成モジュールを提案する。
提案手法を10のデータセットに対して広範囲に評価し,6つの実験結果と,残りの6つの実験結果を得た。
論文 参考訳(メタデータ) (2024-07-17T09:27:41Z) - Human-Free Automated Prompting for Vision-Language Anomaly Detection: Prompt Optimization with Meta-guiding Prompt Scheme [19.732769780675977]
事前学習された視覚言語モデル(VLM)は、数ショットの学習を通じて、様々な下流タスクに高い適応性を持つ。
従来の手法は、特定の異常なタイプの事前の知識を必要とする人為的なプロンプトに依存している。
我々のゴールは、データ駆動方式でプロンプトを最適に学習する、人間の自由なプロンプトベースの異常検出フレームワークを開発することである。
論文 参考訳(メタデータ) (2024-06-26T09:29:05Z) - Bootstrap Fine-Grained Vision-Language Alignment for Unified Zero-Shot
Anomaly Localization [63.61093388441298]
対照的な言語-画像事前学習モデルは、ゼロショット視覚認識タスクで有望なパフォーマンスを示した。
本研究では,ゼロショット異常局所化のためのAnoCLIPを提案する。
論文 参考訳(メタデータ) (2023-08-30T10:35:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。