Fugu-MT 論文翻訳(概要): AD-DINOv3: Enhancing DINOv3 for Zero-Shot Anomaly Detection with Anomaly-Aware Calibration

論文の概要: AD-DINOv3: Enhancing DINOv3 for Zero-Shot Anomaly Detection with Anomaly-Aware Calibration

arxiv url: http://arxiv.org/abs/2509.14084v1
Date: Wed, 17 Sep 2025 15:29:25 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-18 18:41:50.902243
Title: AD-DINOv3: Enhancing DINOv3 for Zero-Shot Anomaly Detection with Anomaly-Aware Calibration
Title（参考訳）: AD-DINOv3: Anomaly-Aware Calibrationによるゼロショット異常検出のためのDINOv3の強化
Authors: Jingyi Yuan, Jianxiong Ye, Wenkang Chen, Chenqiang Gao,
Abstract要約: Zero-Shot Anomaly Detection (ZSAD)は、任意の新しいカテゴリから異常を識別する。最近のDINOv3のようなビジョン基礎モデルは、強力な転送可能な表現能力を示している。本稿では,ZSAD用に設計された新しい視覚言語マルチモーダルフレームワークであるAD-DINOv3を紹介する。
参考スコア（独自算出の注目度）: 12.642531824086639
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Zero-Shot Anomaly Detection (ZSAD) seeks to identify anomalies from arbitrary novel categories, offering a scalable and annotation-efficient solution. Traditionally, most ZSAD works have been based on the CLIP model, which performs anomaly detection by calculating the similarity between visual and text embeddings. Recently, vision foundation models such as DINOv3 have demonstrated strong transferable representation capabilities. In this work, we are the first to adapt DINOv3 for ZSAD. However, this adaptation presents two key challenges: (i) the domain bias between large-scale pretraining data and anomaly detection tasks leads to feature misalignment; and (ii) the inherent bias toward global semantics in pretrained representations often leads to subtle anomalies being misinterpreted as part of the normal foreground objects, rather than being distinguished as abnormal regions. To overcome these challenges, we introduce AD-DINOv3, a novel vision-language multimodal framework designed for ZSAD. Specifically, we formulate anomaly detection as a multimodal contrastive learning problem, where DINOv3 is employed as the visual backbone to extract patch tokens and a CLS token, and the CLIP text encoder provides embeddings for both normal and abnormal prompts. To bridge the domain gap, lightweight adapters are introduced in both modalities, enabling their representations to be recalibrated for the anomaly detection task. Beyond this baseline alignment, we further design an Anomaly-Aware Calibration Module (AACM), which explicitly guides the CLS token to attend to anomalous regions rather than generic foreground semantics, thereby enhancing discriminability. Extensive experiments on eight industrial and medical benchmarks demonstrate that AD-DINOv3 consistently matches or surpasses state-of-the-art methods, verifying its superiority as a general zero-shot anomaly detection framework.
Abstract（参考訳）: Zero-Shot Anomaly Detection (ZSAD)は、任意の新しいカテゴリから異常を識別し、スケーラブルでアノテーション効率の良いソリューションを提供する。伝統的に、ほとんどのZSADはCLIPモデルに基づいており、視覚とテキストの埋め込みの類似性を計算して異常検出を行う。近年、DINOv3のような視覚基盤モデルは、強力な伝達可能な表現能力を示している。この研究において、我々はZSADにDINOv3を適応させた最初の人物である。しかし、この適応には2つの重要な課題がある。一大規模事前学習データと異常検出タスクとの間の領域バイアスが特徴的不一致につながること。 (2)事前訓練された表現における大域的意味論に対する固有のバイアスは、しばしば、異常領域として区別されるのではなく、通常の前景オブジェクトの一部として誤解される微妙な異常を引き起こす。これらの課題を克服するために、ZSAD用に設計された新しい視覚言語マルチモーダルフレームワークであるAD-DINOv3を紹介する。具体的には、DINOv3がパッチトークンとCRSトークンを抽出する視覚バックボーンとして使用されるマルチモーダルコントラスト学習問題として異常検出を定式化し、CLIPテキストエンコーダは正規および異常プロンプトの両方に埋め込みを提供する。ドメインギャップを埋めるために、ライトウェイトアダプタは両方のモードで導入され、異常検出タスクのためにそれらの表現を再調整することができる。このベースラインアライメントの他に,汎用的なフォアグラウンドセマンティクスではなく,CLSトークンを異常領域に適応するように明示的に誘導するAnomaly-Aware Calibration Module (AACM) を設計し,識別性を向上する。 8つの産業・医療ベンチマークに関する大規模な実験は、AD-DINOv3が常に最先端の手法に適合または超越していることを示し、一般的なゼロショット異常検出フレームワークとしてその優位性を検証する。

関連論文リスト

Defect-aware Hybrid Prompt Optimization via Progressive Tuning for Zero-Shot Multi-type Anomaly Detection and Segmentation [12.030059666003972]
分散シフト下でのゼロショット多重型およびバイナリ異常検出とセグメンテーションのプログレッシブチューニングに基づく,Defect-aware Prompt Optimizationのための新しいアプローチであるDAPOを紹介する。本手法は,固定されたテキストアンカーと学習可能なトークン埋め込みの両方で,ハイブリッドな欠陥認識プロンプトを学習することにより,異常関連画像特徴と対応するテキストセマンティクスを一致させる。
論文参考訳（メタデータ） (2025-12-10T09:19:17Z)
Unified Unsupervised Anomaly Detection via Matching Cost Filtering [113.43366521994396]
教師なし異常検出(UAD)は、通常のトレーニングデータのみを用いて画像レベルの異常と画素レベルの異常を識別することを目的としている。 UADモデルの異常コスト量を補正するための汎用的なポストホック精錬フレームワークであるUnified Cost Filtering (UCF) を提案する。
論文参考訳（メタデータ） (2025-10-03T03:28:18Z)
Zero-Shot Anomaly Detection with Dual-Branch Prompt Selection [17.263625932911534]
Zero-shot Anomaly Detection (ZSAD) は、見えないカテゴリの欠陥を識別し、ローカライズする。既存のZSADメソッドは、固定または学習プロンプトを使用しても、トレーニングデータが限られたトレーニングドメインから導出されるため、ドメインシフトの下で苦労する。 PILOTは2つの重要なイノベーションを通じてこれらの課題を克服するために設計されたフレームワークです。
論文参考訳（メタデータ） (2025-08-01T17:00:12Z)
Towards Zero-shot 3D Anomaly Localization [58.62650061201283]
3DzALは3D異常検出とローカライゼーションのためのパッチレベルの新しいコントラスト学習フレームワークである。 3DzALは最先端の異常検出および局所化性能より優れていることを示す。
論文参考訳（メタデータ） (2024-12-05T16:25:27Z)
Fine-grained Abnormality Prompt Learning for Zero-shot Anomaly Detection [109.72772150095646]
FAPromptは、精密なZSADのためのきめ細かい異常プロンプトを学習するために設計された新しいフレームワークである。産業的欠陥と医療的異常の両方をカバーする19の実世界のデータセットの実験は、FAPromptが画像レベルのZSADタスクとピクセルレベルのZSADタスクの両方で最先端の手法を大幅に上回っていることを実証している。
論文参考訳（メタデータ） (2024-10-14T08:41:31Z)
FiLo: Zero-Shot Anomaly Detection by Fine-Grained Description and High-Quality Localization [31.854923603517264]
本稿では,新しいゼロショット異常検出法であるFiLoを提案する。 FiLoは、適応学習されたFG-Des(FG-Des)と位置強調された高品質なローカライゼーション(HQ-Loc)の2つのコンポーネントから構成される。 MVTecやVisAのようなデータセットの実験結果から、FiLoは検出とローカライゼーションの両方においてZSADの性能を大幅に向上することが示された。
論文参考訳（メタデータ） (2024-04-21T14:22:04Z)
Self-supervised Feature Adaptation for 3D Industrial Anomaly Detection [59.41026558455904]
具体的には,大規模ビジュアルデータセット上で事前学習されたモデルを利用した初期のマルチモーダルアプローチについて検討する。本研究では,アダプタを微調整し,異常検出に向けたタスク指向の表現を学習するためのLSFA法を提案する。
論文参考訳（メタデータ） (2024-01-06T07:30:41Z)
Unraveling the "Anomaly" in Time Series Anomaly Detection: A Self-supervised Tri-domain Solution [89.16750999704969]
異常ラベルは時系列異常検出において従来の教師付きモデルを妨げる。自己教師型学習のような様々なSOTA深層学習技術がこの問題に対処するために導入されている。自己教師型3領域異常検出器(TriAD)を提案する。
論文参考訳（メタデータ） (2023-11-19T05:37:18Z)
Open-Vocabulary Video Anomaly Detection [57.552523669351636]
監視の弱いビデオ異常検出(VAD)は、ビデオフレームが正常であるか異常であるかを識別するためにビデオレベルラベルを利用する際、顕著な性能を達成した。近年の研究は、より現実的な、オープンセットのVADに取り組み、異常や正常なビデオから見えない異常を検出することを目的としている。本稿ではさらに一歩前進し、未確認および未確認の異常を検知・分類するために訓練済みの大規模モデルを活用することを目的とした、オープン語彙ビデオ異常検出(OVVAD)について検討する。
論文参考訳（メタデータ） (2023-11-13T02:54:17Z)
Enhancing Unsupervised Anomaly Detection with Score-Guided Network [13.127091975959358]
異常検出は、医療や金融システムなど、さまざまな現実世界のアプリケーションにおいて重要な役割を担っている。正規データと異常データの間の異常スコアの差を学習・拡大するために,スコア誘導正規化を用いた新しいスコアネットワークを提案する。次に,スコア誘導型オートエンコーダ(SG-AE)を提案する。
論文参考訳（メタデータ） (2021-09-10T06:14:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。