論文の概要: Defect-aware Hybrid Prompt Optimization via Progressive Tuning for Zero-Shot Multi-type Anomaly Detection and Segmentation
- arxiv url: http://arxiv.org/abs/2512.09446v1
- Date: Wed, 10 Dec 2025 09:19:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.460832
- Title: Defect-aware Hybrid Prompt Optimization via Progressive Tuning for Zero-Shot Multi-type Anomaly Detection and Segmentation
- Title(参考訳): ゼロショット多重型異常検出・セグメンテーションのためのプログレッシブチューニングによる欠陥認識ハイブリッドプロンプト最適化
- Authors: Nadeem Nazer, Hongkuan Zhou, Lavdim Halilaj, Ylli Sadikaj, Steffen Staab,
- Abstract要約: 分散シフト下でのゼロショット多重型およびバイナリ異常検出とセグメンテーションのプログレッシブチューニングに基づく,Defect-aware Prompt Optimizationのための新しいアプローチであるDAPOを紹介する。
本手法は,固定されたテキストアンカーと学習可能なトークン埋め込みの両方で,ハイブリッドな欠陥認識プロンプトを学習することにより,異常関連画像特徴と対応するテキストセマンティクスを一致させる。
- 参考スコア(独自算出の注目度): 12.030059666003972
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent vision language models (VLMs) like CLIP have demonstrated impressive anomaly detection performance under significant distribution shift by utilizing high-level semantic information through text prompts. However, these models often neglect fine-grained details, such as which kind of anomalies, like "hole", "cut", "scratch" that could provide more specific insight into the nature of anomalies. We argue that recognizing fine-grained anomaly types 1) enriches the representation of "abnormal" with structured semantics, narrowing the gap between coarse anomaly signals and fine-grained defect categories; 2) enables manufacturers to understand the root causes of the anomaly and implement more targeted and appropriate corrective measures quickly. While incorporating such detailed semantic information is crucial, designing handcrafted prompts for each defect type is both time-consuming and susceptible to human bias. For this reason, we introduce DAPO, a novel approach for Defect-aware Prompt Optimization based on progressive tuning for the zero-shot multi-type and binary anomaly detection and segmentation under distribution shifts. Our approach aligns anomaly-relevant image features with their corresponding text semantics by learning hybrid defect-aware prompts with both fixed textual anchors and learnable token embeddings. We conducted experiments on public benchmarks (MPDD, VisA, MVTec-AD, MAD, and Real-IAD) and an internal dataset. The results suggest that compared to the baseline models, DAPO achieves a 3.7% average improvement in AUROC and average precision metrics at the image level under distribution shift, and a 6.5% average improvement in localizing novel anomaly types under zero-shot settings.
- Abstract(参考訳): CLIPのような近年の視覚言語モデル(VLM)は、テキストプロンプトを通じて高レベルな意味情報を利用することで、大きな分散シフトの下で、印象的な異常検出性能を実証している。
しかしながら、これらのモデルは「ホール」、「カット」、「スクラッチ」のような、異常の性質に関するより具体的な洞察を与えるような、細かい詳細を無視することが多い。
我々は細粒度異常の認識について論じる
1) 構造的意味論による「異常」の表現を充実させ、粗い異常信号ときめ細かい欠陥カテゴリーのギャップを狭める。
2) 製造業者は, 異常の根本原因を理解し, より標的的かつ適切な対策を迅速に実施することができる。
このような詳細な意味情報を組み込むことは重要であるが、欠陥タイプごとに手作りのプロンプトを設計することは、時間と人間のバイアスに影響を受けやすい。
そこで本稿では,ゼロショット多重型およびバイナリ異常検出と分布シフト下でのセグメント化のプログレッシブチューニングに基づく,欠陥認識型プロンプト最適化の新しいアプローチであるDAPOを紹介する。
本手法は,固定されたテキストアンカーと学習可能なトークン埋め込みの両方で,ハイブリッドな欠陥認識プロンプトを学習することにより,異常関連画像特徴と対応するテキストセマンティクスを一致させる。
公開ベンチマーク(MPDD, VisA, MVTec-AD, MAD, Real-IAD)と内部データセットについて実験を行った。
その結果, DAPOはベースラインモデルと比較してAUROCの平均精度が3.7%向上し, 分布シフト時の画像レベルでの平均精度が6.5%向上し, ゼロショット条件下での新規な異常型をローカライズする平均精度が6.5%向上することが示唆された。
関連論文リスト
- AD-DINOv3: Enhancing DINOv3 for Zero-Shot Anomaly Detection with Anomaly-Aware Calibration [12.642531824086639]
Zero-Shot Anomaly Detection (ZSAD)は、任意の新しいカテゴリから異常を識別する。
最近のDINOv3のようなビジョン基礎モデルは、強力な転送可能な表現能力を示している。
本稿では,ZSAD用に設計された新しい視覚言語マルチモーダルフレームワークであるAD-DINOv3を紹介する。
論文 参考訳(メタデータ) (2025-09-17T15:29:25Z) - Crane: Context-Guided Prompt Learning and Attention Refinement for Zero-Shot Anomaly Detection [50.343419243749054]
異常検出は、医学診断や工業的欠陥検出などの分野において重要である。
CLIPの粗粒化画像テキストアライメントは、微粒化異常に対する局所化と検出性能を制限する。
クレーンは最先端のZSADを2%から28%に改善し、画像レベルとピクセルレベルの両方で、推論速度では競争力を維持している。
論文 参考訳(メタデータ) (2025-04-15T10:42:25Z) - Fine-grained Abnormality Prompt Learning for Zero-shot Anomaly Detection [109.72772150095646]
FAPromptは、精密なZSADのためのきめ細かい異常プロンプトを学習するために設計された新しいフレームワークである。
産業的欠陥と医療的異常の両方をカバーする19の実世界のデータセットの実験は、FAPromptが画像レベルのZSADタスクとピクセルレベルのZSADタスクの両方で最先端の手法を大幅に上回っていることを実証している。
論文 参考訳(メタデータ) (2024-10-14T08:41:31Z) - Human-Free Automated Prompting for Vision-Language Anomaly Detection: Prompt Optimization with Meta-guiding Prompt Scheme [19.732769780675977]
事前学習された視覚言語モデル(VLM)は、数ショットの学習を通じて、様々な下流タスクに高い適応性を持つ。
従来の手法は、特定の異常なタイプの事前の知識を必要とする人為的なプロンプトに依存している。
我々のゴールは、データ駆動方式でプロンプトを最適に学習する、人間の自由なプロンプトベースの異常検出フレームワークを開発することである。
論文 参考訳(メタデータ) (2024-06-26T09:29:05Z) - FiLo: Zero-Shot Anomaly Detection by Fine-Grained Description and High-Quality Localization [31.854923603517264]
本稿では,新しいゼロショット異常検出法であるFiLoを提案する。
FiLoは、適応学習されたFG-Des(FG-Des)と位置強調された高品質なローカライゼーション(HQ-Loc)の2つのコンポーネントから構成される。
MVTecやVisAのようなデータセットの実験結果から、FiLoは検出とローカライゼーションの両方においてZSADの性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-04-21T14:22:04Z) - Self-supervised Feature Adaptation for 3D Industrial Anomaly Detection [59.41026558455904]
具体的には,大規模ビジュアルデータセット上で事前学習されたモデルを利用した初期のマルチモーダルアプローチについて検討する。
本研究では,アダプタを微調整し,異常検出に向けたタスク指向の表現を学習するためのLSFA法を提案する。
論文 参考訳(メタデータ) (2024-01-06T07:30:41Z) - Self-Supervised Training with Autoencoders for Visual Anomaly Detection [61.62861063776813]
我々は, 正規サンプルの分布を低次元多様体で支持する異常検出において, 特定のユースケースに焦点を当てた。
我々は、訓練中に識別情報を活用する自己指導型学習体制に適応するが、通常の例のサブ多様体に焦点をあてる。
製造領域における視覚異常検出のための挑戦的なベンチマークであるMVTec ADデータセットで、最先端の新たな結果を達成する。
論文 参考訳(メタデータ) (2022-06-23T14:16:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。