論文の概要: AnomalyVFM -- Transforming Vision Foundation Models into Zero-Shot Anomaly Detectors
- arxiv url: http://arxiv.org/abs/2601.20524v1
- Date: Wed, 28 Jan 2026 12:02:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.917264
- Title: AnomalyVFM -- Transforming Vision Foundation Models into Zero-Shot Anomaly Detectors
- Title(参考訳): AnomalyVFM -- ビジョンファウンデーションモデルをゼロショット異常検出器に変換する
- Authors: Matic Fučka, Vitjan Zavrtanik, Danijel Skočaj,
- Abstract要約: Anomaly VFMは、任意の事前訓練されたVFMを強力なゼロショット・アノマリー検出器に変えるフレームワークである。
提案手法は,頑健な3段階合成データセット生成手法とパラメータ効率適応機構を組み合わせたものである。
9つの異なるデータセットの平均画像レベルAUROCは94.1%であり、以前の手法を3.3%上回っている。
- 参考スコア(独自算出の注目度): 6.6016630449883955
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zero-shot anomaly detection aims to detect and localise abnormal regions in the image without access to any in-domain training images. While recent approaches leverage vision-language models (VLMs), such as CLIP, to transfer high-level concept knowledge, methods based on purely vision foundation models (VFMs), like DINOv2, have lagged behind in performance. We argue that this gap stems from two practical issues: (i) limited diversity in existing auxiliary anomaly detection datasets and (ii) overly shallow VFM adaptation strategies. To address both challenges, we propose AnomalyVFM, a general and effective framework that turns any pretrained VFM into a strong zero-shot anomaly detector. Our approach combines a robust three-stage synthetic dataset generation scheme with a parameter-efficient adaptation mechanism, utilising low-rank feature adapters and a confidence-weighted pixel loss. Together, these components enable modern VFMs to substantially outperform current state-of-the-art methods. More specifically, with RADIO as a backbone, AnomalyVFM achieves an average image-level AUROC of 94.1% across 9 diverse datasets, surpassing previous methods by significant 3.3 percentage points. Project Page: https://maticfuc.github.io/anomaly_vfm/
- Abstract(参考訳): ゼロショット異常検出は、ドメイン内のトレーニング画像にアクセスすることなく、画像内の異常領域を検出し、ローカライズすることを目的としている。
最近のアプローチでは、CLIPのような視覚言語モデル(VLM)を利用して高レベルの概念知識を伝達しているが、DINOv2のような純粋視覚基盤モデル(VFM)に基づく手法は性能に遅れを取っている。
このギャップは2つの実践的な問題に由来すると我々は主張する。
一 既存補助異常検出データセットの多様性の制限
(II)極端に浅いVFM適応戦略。
両課題に対処するため,プレトレーニング済みのVFMを強力なゼロショット・アノマリー検出器に変換する,汎用的で効果的なフレームワークであるAnomalyVFMを提案する。
提案手法では, 3段階合成データセット生成方式とパラメータ効率適応機構を併用し, 低ランク機能アダプタと高信頼度画素損失を利用した。
これらのコンポーネントが組み合わさって、現代のVFMは最先端の手法を大幅に上回っている。
より具体的には、RADIOをバックボーンとして、AnomalyVFMは9つの異なるデータセットで94.1%の平均画像レベルAUROCを達成し、以前の手法を3.3%上回る。
Project Page: https://maticfuc.github.io/anomaly_vfm/
関連論文リスト
- Beyond Boundaries: Leveraging Vision Foundation Models for Source-Free Object Detection [34.292554427633505]
Source-Free Object Detection (SFOD) は、ソースデータにアクセスすることなく、ソースに制限されたオブジェクト検出器をターゲットドメインに適応することを目的としている。
ヴィジョン・ファンデーション・モデル(VFM)は、大規模で多様なデータに基づいて事前訓練され、強力な知覚能力と広範な一般化を示す。
本稿では,VFMを外部知識源として活用し,特徴アライメントとラベル品質を協調的に向上する新しいSFODフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-10T17:06:01Z) - NexViTAD: Few-shot Unsupervised Cross-Domain Defect Detection via Vision Foundation Models and Multi-Task Learning [1.7603474309877931]
NexViTADは、視覚基盤モデルに基づくクロスドメイン異常検出フレームワークである。
産業的異常検出における領域シフト問題に、革新的な共有部分空間投影機構を通じて対処する。
AUCは97.5%、APは70.4%、PRは95.2%である。
論文 参考訳(メタデータ) (2025-07-10T09:29:26Z) - CLIP Meets Diffusion: A Synergistic Approach to Anomaly Detection [49.11819337853632]
異常検出は、異常の定義の曖昧さ、異常型の多様性、トレーニングデータの不足による複雑な問題である。
識別的基盤モデルと生成的基礎モデルの両方を活用するCLIPfusionを提案する。
本手法は, 異常検出の多面的課題に対処する上で, マルチモーダル・マルチモデル融合の有効性を裏付けるものである。
論文 参考訳(メタデータ) (2025-06-13T13:30:15Z) - Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。
提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。
医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-19T09:28:19Z) - Self-supervised Feature Adaptation for 3D Industrial Anomaly Detection [59.41026558455904]
具体的には,大規模ビジュアルデータセット上で事前学習されたモデルを利用した初期のマルチモーダルアプローチについて検討する。
本研究では,アダプタを微調整し,異常検出に向けたタスク指向の表現を学習するためのLSFA法を提案する。
論文 参考訳(メタデータ) (2024-01-06T07:30:41Z) - DiAD: A Diffusion-based Framework for Multi-class Anomaly Detection [55.48770333927732]
本稿では,拡散型異常検出(Difusion-based Anomaly Detection, DAD)フレームワークを提案する。
画素空間オートエンコーダ、安定拡散の復調ネットワークに接続する潜在空間セマンティックガイド(SG)ネットワーク、特徴空間事前学習機能抽出器から構成される。
MVTec-ADとVisAデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-12-11T18:38:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。