論文の概要: Search is All You Need for Few-shot Anomaly Detection
- arxiv url: http://arxiv.org/abs/2504.11895v1
- Date: Wed, 16 Apr 2025 09:21:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 14:39:36.362529
- Title: Search is All You Need for Few-shot Anomaly Detection
- Title(参考訳): 画像の異常検出に必要なのは検索だけだ
- Authors: Qishan Wang, Jia Guo, Shuyong Gao, Haofen Wang, Li Xiong, Junjie Hu, Hanqi Guo, Wenqiang Zhang,
- Abstract要約: 産業検査において, FSAD (Few-shot Anomaly Detection) が重要な課題となっている。
本稿では,最も近い検索フレームワークが,単一クラスとマルチクラスの両方のFSADシナリオにおいて,最先端の性能を上回ることができることを示す。
画像レベルのAUROCスコアは97.4%,94.8%,70.8%であった。
- 参考スコア(独自算出の注目度): 39.737510049667556
- License:
- Abstract: Few-shot anomaly detection (FSAD) has emerged as a crucial yet challenging task in industrial inspection, where normal distribution modeling must be accomplished with only a few normal images. While existing approaches typically employ multi-modal foundation models combining language and vision modalities for prompt-guided anomaly detection, these methods often demand sophisticated prompt engineering and extensive manual tuning. In this paper, we demonstrate that a straightforward nearest-neighbor search framework can surpass state-of-the-art performance in both single-class and multi-class FSAD scenarios. Our proposed method, VisionAD, consists of four simple yet essential components: (1) scalable vision foundation models that extract universal and discriminative features; (2) dual augmentation strategies - support augmentation to enhance feature matching adaptability and query augmentation to address the oversights of single-view prediction; (3) multi-layer feature integration that captures both low-frequency global context and high-frequency local details with minimal computational overhead; and (4) a class-aware visual memory bank enabling efficient one-for-all multi-class detection. Extensive evaluations across MVTec-AD, VisA, and Real-IAD benchmarks demonstrate VisionAD's exceptional performance. Using only 1 normal images as support, our method achieves remarkable image-level AUROC scores of 97.4%, 94.8%, and 70.8% respectively, outperforming current state-of-the-art approaches by significant margins (+1.6%, +3.2%, and +1.4%). The training-free nature and superior few-shot capabilities of VisionAD make it particularly appealing for real-world applications where samples are scarce or expensive to obtain. Code is available at https://github.com/Qiqigeww/VisionAD.
- Abstract(参考訳): FSAD(Few-shot Anomaly Detection)は産業検査において重要かつ困難な課題として現れており、通常の分布モデリングはごくわずかの正常な画像で行う必要がある。
既存の手法では、言語と視覚のモダリティを組み合わせたマルチモーダル基礎モデルを用いてプロンプト誘導異常検出を行うのが一般的であるが、これらの手法は、しばしば高度なプロンプトエンジニアリングと広範囲な手動チューニングを必要とする。
本稿では,最も近い検索フレームワークが,単一クラスと複数クラスの両方のFSADシナリオにおいて,最先端の性能を上回ることを実証する。
提案手法であるVisionADは,(1)普遍的特徴と識別的特徴を抽出するスケーラブルな視覚基盤モデル,(2)二重拡張戦略,(2)単一ビュー予測の監視に対処するための特徴マッチング適応性とクエリ拡張のサポート,(3)低周波グローバルコンテキストと高周波ローカル詳細の両方を最小限のオーバーヘッドでキャプチャする多層機能統合,(4)一対一のマルチクラス検出を可能にするクラス対応視覚記憶銀行の4つの構成からなる。
MVTec-AD、VisA、Real-IADベンチマークにわたる広範囲な評価は、VisionADの例外的なパフォーマンスを示している。
AUROCスコアは97.4%、94.8%、70.8%で、現状の最先端のアプローチよりも大きなマージン(+1.6%、+3.2%、+1.4%)を達成している。
VisionADのトレーニングなしの性質と優れた数発ショット機能により、サンプルが不足し、入手に費用がかかる現実世界のアプリケーションには特に魅力がある。
コードはhttps://github.com/Qiqigeww/VisionAD.comで入手できる。
関連論文リスト
- TAVP: Task-Adaptive Visual Prompt for Cross-domain Few-shot Segmentation [40.49924427388922]
本稿では,CD-FSS(Cross-dominan Few-shot segmentation)のためのタスク適応型自動視覚プロンプトフレームワークを提案する。
クラスドメインタスク適応オートプロンプト(CDTAP)モジュールを組み込んで、クラスドメインの特徴抽出を可能にし、高品質で学習可能なビジュアルプロンプトを生成する。
本モデルでは,1ショット設定では1.3%,5ショット設定では11.76%の精度向上を実現し,最先端のCD-FSS手法よりも優れていた。
論文 参考訳(メタデータ) (2024-09-09T07:43:58Z) - AnomalyDINO: Boosting Patch-based Few-shot Anomaly Detection with DINOv2 [16.69402464709241]
DINOv2をワンショットおよび数ショットの異常検出に適用し、産業応用に焦点をあてる。
提案するビジョンのみのアプローチであるAnomalyDinoは、よく確立されたパッチレベルの深い近接パラダイムに従っている。
このアプローチは既存のテクニックに匹敵するだけでなく、多くの設定でそれらを上回ります。
論文 参考訳(メタデータ) (2024-05-23T13:15:13Z) - Dual-Image Enhanced CLIP for Zero-Shot Anomaly Detection [58.228940066769596]
本稿では,統合視覚言語スコアリングシステムを活用したデュアルイメージ強化CLIP手法を提案する。
提案手法は,画像のペアを処理し,それぞれを視覚的参照として利用することにより,視覚的コンテキストによる推論プロセスを強化する。
提案手法は視覚言語による関節異常検出の可能性を大幅に活用し,従来のSOTA法と同等の性能を示す。
論文 参考訳(メタデータ) (2024-05-08T03:13:20Z) - Mixture of Low-rank Experts for Transferable AI-Generated Image Detection [18.631006488565664]
生成モデルは、最小限の専門知識を持つ写真リアリスティック画像の飛躍的な飛躍を見せ、オンライン情報の真正性に対する懸念を喚起している。
本研究の目的は,多様なソースからの画像を識別できる,汎用的なAI生成画像検出器を開発することである。
事前学習された視覚言語モデルのゼロショット転送性に着想を得て、未知の領域を一般化するために、CLIP-ViTの非自明な視覚世界知識と記述的習熟度を活用することを目指す。
論文 参考訳(メタデータ) (2024-04-07T09:01:50Z) - Anomaly Detection by Adapting a pre-trained Vision Language Model [48.225404732089515]
トレーニング済みのCLIPモデルに適応することで,異常検出のためのCLIP-ADAという統合フレームワークを提案する。
学習可能なプロンプトを導入し、自己教師付き学習を通して異常パターンに関連付けることを提案する。
MVTec-AD と VisA の異常検出と局所化のための最新技術 97.5/55.6 と 89.3/33.1 を実現した。
論文 参考訳(メタデータ) (2024-03-14T15:35:07Z) - Raising the Bar of AI-generated Image Detection with CLIP [50.345365081177555]
本研究の目的は、AI生成画像の普遍的検出のための事前学習された視覚言語モデル(VLM)の可能性を探ることである。
我々は,CLIP機能に基づく軽量な検出戦略を開発し,その性能を様々な難易度シナリオで検証する。
論文 参考訳(メタデータ) (2023-11-30T21:11:20Z) - Optimization Efficient Open-World Visual Region Recognition [55.76437190434433]
RegionSpotは、ローカライゼーション基盤モデルから位置認識ローカライゼーション知識と、ViLモデルからのセマンティック情報を統合する。
オープンワールドオブジェクト認識の実験では、私たちのRereaSpotは、以前の代替よりも大きなパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-11-02T16:31:49Z) - Activation to Saliency: Forming High-Quality Labels for Unsupervised
Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。
トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。
本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文 参考訳(メタデータ) (2021-12-07T11:54:06Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。