論文の概要: AD-DINOv3: Enhancing DINOv3 for Zero-Shot Anomaly Detection with Anomaly-Aware Calibration
- arxiv url: http://arxiv.org/abs/2509.14084v1
- Date: Wed, 17 Sep 2025 15:29:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.902243
- Title: AD-DINOv3: Enhancing DINOv3 for Zero-Shot Anomaly Detection with Anomaly-Aware Calibration
- Title(参考訳): AD-DINOv3: Anomaly-Aware Calibrationによるゼロショット異常検出のためのDINOv3の強化
- Authors: Jingyi Yuan, Jianxiong Ye, Wenkang Chen, Chenqiang Gao,
- Abstract要約: Zero-Shot Anomaly Detection (ZSAD)は、任意の新しいカテゴリから異常を識別する。
最近のDINOv3のようなビジョン基礎モデルは、強力な転送可能な表現能力を示している。
本稿では,ZSAD用に設計された新しい視覚言語マルチモーダルフレームワークであるAD-DINOv3を紹介する。
- 参考スコア(独自算出の注目度): 12.642531824086639
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-Shot Anomaly Detection (ZSAD) seeks to identify anomalies from arbitrary novel categories, offering a scalable and annotation-efficient solution. Traditionally, most ZSAD works have been based on the CLIP model, which performs anomaly detection by calculating the similarity between visual and text embeddings. Recently, vision foundation models such as DINOv3 have demonstrated strong transferable representation capabilities. In this work, we are the first to adapt DINOv3 for ZSAD. However, this adaptation presents two key challenges: (i) the domain bias between large-scale pretraining data and anomaly detection tasks leads to feature misalignment; and (ii) the inherent bias toward global semantics in pretrained representations often leads to subtle anomalies being misinterpreted as part of the normal foreground objects, rather than being distinguished as abnormal regions. To overcome these challenges, we introduce AD-DINOv3, a novel vision-language multimodal framework designed for ZSAD. Specifically, we formulate anomaly detection as a multimodal contrastive learning problem, where DINOv3 is employed as the visual backbone to extract patch tokens and a CLS token, and the CLIP text encoder provides embeddings for both normal and abnormal prompts. To bridge the domain gap, lightweight adapters are introduced in both modalities, enabling their representations to be recalibrated for the anomaly detection task. Beyond this baseline alignment, we further design an Anomaly-Aware Calibration Module (AACM), which explicitly guides the CLS token to attend to anomalous regions rather than generic foreground semantics, thereby enhancing discriminability. Extensive experiments on eight industrial and medical benchmarks demonstrate that AD-DINOv3 consistently matches or surpasses state-of-the-art methods, verifying its superiority as a general zero-shot anomaly detection framework.
- Abstract(参考訳): Zero-Shot Anomaly Detection (ZSAD)は、任意の新しいカテゴリから異常を識別し、スケーラブルでアノテーション効率の良いソリューションを提供する。
伝統的に、ほとんどのZSADはCLIPモデルに基づいており、視覚とテキストの埋め込みの類似性を計算して異常検出を行う。
近年、DINOv3のような視覚基盤モデルは、強力な伝達可能な表現能力を示している。
この研究において、我々はZSADにDINOv3を適応させた最初の人物である。
しかし、この適応には2つの重要な課題がある。
一 大規模事前学習データと異常検出タスクとの間の領域バイアスが特徴的不一致につながること。
(2)事前訓練された表現における大域的意味論に対する固有のバイアスは、しばしば、異常領域として区別されるのではなく、通常の前景オブジェクトの一部として誤解される微妙な異常を引き起こす。
これらの課題を克服するために、ZSAD用に設計された新しい視覚言語マルチモーダルフレームワークであるAD-DINOv3を紹介する。
具体的には、DINOv3がパッチトークンとCRSトークンを抽出する視覚バックボーンとして使用されるマルチモーダルコントラスト学習問題として異常検出を定式化し、CLIPテキストエンコーダは正規および異常プロンプトの両方に埋め込みを提供する。
ドメインギャップを埋めるために、ライトウェイトアダプタは両方のモードで導入され、異常検出タスクのためにそれらの表現を再調整することができる。
このベースラインアライメントの他に,汎用的なフォアグラウンドセマンティクスではなく,CLSトークンを異常領域に適応するように明示的に誘導するAnomaly-Aware Calibration Module (AACM) を設計し,識別性を向上する。
8つの産業・医療ベンチマークに関する大規模な実験は、AD-DINOv3が常に最先端の手法に適合または超越していることを示し、一般的なゼロショット異常検出フレームワークとしてその優位性を検証する。
関連論文リスト
- Zero-Shot Anomaly Detection with Dual-Branch Prompt Selection [17.263625932911534]
Zero-shot Anomaly Detection (ZSAD) は、見えないカテゴリの欠陥を識別し、ローカライズする。
既存のZSADメソッドは、固定または学習プロンプトを使用しても、トレーニングデータが限られたトレーニングドメインから導出されるため、ドメインシフトの下で苦労する。
PILOTは2つの重要なイノベーションを通じてこれらの課題を克服するために設計されたフレームワークです。
論文 参考訳(メタデータ) (2025-08-01T17:00:12Z) - Self-supervised Feature Adaptation for 3D Industrial Anomaly Detection [59.41026558455904]
具体的には,大規模ビジュアルデータセット上で事前学習されたモデルを利用した初期のマルチモーダルアプローチについて検討する。
本研究では,アダプタを微調整し,異常検出に向けたタスク指向の表現を学習するためのLSFA法を提案する。
論文 参考訳(メタデータ) (2024-01-06T07:30:41Z) - Unraveling the "Anomaly" in Time Series Anomaly Detection: A
Self-supervised Tri-domain Solution [89.16750999704969]
異常ラベルは時系列異常検出において従来の教師付きモデルを妨げる。
自己教師型学習のような様々なSOTA深層学習技術がこの問題に対処するために導入されている。
自己教師型3領域異常検出器(TriAD)を提案する。
論文 参考訳(メタデータ) (2023-11-19T05:37:18Z) - Open-Vocabulary Video Anomaly Detection [57.552523669351636]
監視の弱いビデオ異常検出(VAD)は、ビデオフレームが正常であるか異常であるかを識別するためにビデオレベルラベルを利用する際、顕著な性能を達成した。
近年の研究は、より現実的な、オープンセットのVADに取り組み、異常や正常なビデオから見えない異常を検出することを目的としている。
本稿ではさらに一歩前進し、未確認および未確認の異常を検知・分類するために訓練済みの大規模モデルを活用することを目的とした、オープン語彙ビデオ異常検出(OVVAD)について検討する。
論文 参考訳(メタデータ) (2023-11-13T02:54:17Z) - Enhancing Unsupervised Anomaly Detection with Score-Guided Network [13.127091975959358]
異常検出は、医療や金融システムなど、さまざまな現実世界のアプリケーションにおいて重要な役割を担っている。
正規データと異常データの間の異常スコアの差を学習・拡大するために,スコア誘導正規化を用いた新しいスコアネットワークを提案する。
次に,スコア誘導型オートエンコーダ(SG-AE)を提案する。
論文 参考訳(メタデータ) (2021-09-10T06:14:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。