論文の概要: SSVP: Synergistic Semantic-Visual Prompting for Industrial Zero-Shot Anomaly Detection
- arxiv url: http://arxiv.org/abs/2601.09147v2
- Date: Mon, 19 Jan 2026 02:37:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 18:45:13.524345
- Title: SSVP: Synergistic Semantic-Visual Prompting for Industrial Zero-Shot Anomaly Detection
- Title(参考訳): SSVP:産業用ゼロショット異常検出のための相乗的セマンティック・ビジュアル・プロンプト
- Authors: Chenhao Fu, Han Fang, Xiuzheng Zheng, Wenbo Wei, Yonghua Li, Hao Sun, Xuelong Li,
- Abstract要約: 本稿では,多種多様な視覚的エンコーディングを効率よく融合させ,モデルの微粒化知覚を高めるSynergistic Semantic-Visual Prompting (SSVP)を提案する。
SSVPは、MVTec-AD上で93.0%のImage-AUROCと92.2%のPixel-AUROCで最先端のパフォーマンスを達成し、既存のゼロショットアプローチを著しく上回っている。
- 参考スコア(独自算出の注目度): 55.54007781679915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-Shot Anomaly Detection (ZSAD) leverages Vision-Language Models (VLMs) to enable supervision-free industrial inspection. However, existing ZSAD paradigms are constrained by single visual backbones, which struggle to balance global semantic generalization with fine-grained structural discriminability. To bridge this gap, we propose Synergistic Semantic-Visual Prompting (SSVP), that efficiently fuses diverse visual encodings to elevate model's fine-grained perception. Specifically, SSVP introduces the Hierarchical Semantic-Visual Synergy (HSVS) mechanism, which deeply integrates DINOv3's multi-scale structural priors into the CLIP semantic space. Subsequently, the Vision-Conditioned Prompt Generator (VCPG) employs cross-modal attention to guide dynamic prompt generation, enabling linguistic queries to precisely anchor to specific anomaly patterns. Furthermore, to address the discrepancy between global scoring and local evidence, the Visual-Text Anomaly Mapper (VTAM) establishes a dual-gated calibration paradigm. Extensive evaluations on seven industrial benchmarks validate the robustness of our method; SSVP achieves state-of-the-art performance with 93.0% Image-AUROC and 92.2% Pixel-AUROC on MVTec-AD, significantly outperforming existing zero-shot approaches.
- Abstract(参考訳): Zero-Shot Anomaly Detection (ZSAD)は、VLM(Vision-Language Models)を活用して、監督不要の産業検査を可能にする。
しかし、既存のZSADパラダイムは単一の視覚的バックボーンによって制約されており、グローバルセマンティック・ジェネリゼーションと微細な構造的識別性とのバランスに苦慮している。
このギャップを埋めるために,モデルの微妙な知覚を高めるために,多様な視覚的エンコーディングを効率的に融合するSynergistic Semantic-Visual Prompting (SSVP)を提案する。
具体的には、SSVPは階層的セマンティック・ビジュアル・シナジー(HSVS)メカニズムを導入し、DINOv3のマルチスケール構造をCLIPセマンティック空間に深く統合する。
その後、ビジョン・コンディションド・プロンプト・ジェネレータ (VCPG) は、動的プロンプト生成を誘導するクロスモーダル・アテンションを用いて、言語クエリを特定の異常パターンに正確に固定できるようにする。
さらに、グローバルスコアとローカルエビデンスとの相違に対処するため、Visual-Text Anomaly Mapper (VTAM)はデュアルゲートキャリブレーションパラダイムを確立している。
SSVPは93.0%のImage-AUROCと92.2%のPixel-AUROCをMVTec-ADで達成し、既存のゼロショットのアプローチを著しく上回っている。
関連論文リスト
- VIPER Strike: Defeating Visual Reasoning CAPTCHAs via Structured Vision-Language Inference [4.830055389040475]
視覚推論CAPTCHA(Visual Reasoning CAPTCHA)は、視覚シーンと自然言語クエリを組み合わせて、オブジェクト、属性、空間関係に対する合成推論を要求する。
構造化多目的視覚認識と適応LDMに基づく推論を統合した統合攻撃フレームワークViPerを提案する。
ViPerは最大93.2%の成功を達成し、複数のベンチマークで人間レベルのパフォーマンスに近づいている。
論文 参考訳(メタデータ) (2026-01-10T07:01:53Z) - GTMA: Dynamic Representation Optimization for OOD Vision-Language Models [10.940718051047023]
VLM(Vision-Matching Model)は、アウト・オブ・ディストリビューション(OOD)の概念がクロスモーダルアライメントの崩壊を引き起こすような、オープンワールドなアプリケーションに苦しむ。
本稿では,GTMA(Guid Target-Language Adaptation)フレームワークを通じて実現された動的表現最適化を提案する。
ImageNet-RとVISTA-Beyondベンチマークの実験では、GTMAはゼロショットと少数ショットのOOD精度を、ベースVLMよりも最大15~20%向上している。
論文 参考訳(メタデータ) (2025-12-20T20:44:07Z) - V-Attack: Targeting Disentangled Value Features for Controllable Adversarial Attacks on LVLMs [66.81402538540458]
本稿では,局所的セマンティックアタックの新しい手法であるV-Attackを提案する。
V-Attackは、最先端の手法よりも平均して36%の攻撃成功率を改善する。
論文 参考訳(メタデータ) (2025-11-25T11:51:17Z) - Constrained Prompt Enhancement for Improving Zero-Shot Generalization of Vision-Language Models [57.357091028792325]
ウェブスケールのデータに基づいて事前訓練された視覚言語モデル(VLM)は、ゼロショットの一般化を約束するが、しばしば意味的ミスアライメントに悩まされる。
視覚・テクストアライメントを改善するために,制約付きプロンプトエンハンスメント(CPE)法を提案する。
提案手法はTGSSG(Topology-Guided Synonymous Semantic Generation)とCADRS(Calegory-Agnostic Discriminative Region Selection)の2つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-08-24T15:45:22Z) - ACD-CLIP: Decoupling Representation and Dynamic Fusion for Zero-Shot Anomaly Detection [21.26826497960086]
ゼロショット異常検出(ZSAD)によるVLMの事前訓練
パラメータ効率のよい畳み込み型低ランク適応 (Conv-LoRA) アダプタを提案する。
また、テキストプロンプトを適応的に変調するために視覚的コンテキストを活用する動的フュージョンゲートウェイ(DFG)を導入する。
論文 参考訳(メタデータ) (2025-08-11T10:03:45Z) - Universal Scene Graph Generation [77.53076485727414]
本稿では,包括的セマンティックシーンを特徴付ける新しい表現であるUniversal Universal SG(USG)を紹介する。
クロスモーダルなオブジェクトアライメントとドメイン外課題の2つの重要なボトルネックに効果的に対処するUSG-Parについても紹介する。
論文 参考訳(メタデータ) (2025-03-19T08:55:06Z) - Interpretable Face Anti-Spoofing: Enhancing Generalization with Multimodal Large Language Models [58.936893810674896]
顔認識システムのセキュリティと信頼性を確保するためには,FAS(Face Anti-Spoofing)が不可欠である。
I-FAS(Interpretable Face Anti-Spoofing)と呼ばれるFASのためのマルチモーダルな大規模言語モデルフレームワークを提案する。
本稿では,FAS画像の高品質なキャプションを生成するために,Spof-Aware Captioning and Filtering(SCF)戦略を提案する。
論文 参考訳(メタデータ) (2025-01-03T09:25:04Z) - HSVA: Hierarchical Semantic-Visual Adaptation for Zero-Shot Learning [74.76431541169342]
ゼロショット学習(ZSL)は、目に見えないクラス認識の問題に取り組み、目に見えないクラスから目に見えないクラスに意味的な知識を移す。
本稿では,意味領域と視覚領域を協調させる新しい階層型意味視覚適応(HSVA)フレームワークを提案する。
4つのベンチマークデータセットの実験では、HSVAは従来のZSLと一般的なZSLの両方で優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-30T14:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。