論文の概要: AG-VAS: Anchor-Guided Zero-Shot Visual Anomaly Segmentation with Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2603.01305v1
- Date: Sun, 01 Mar 2026 22:25:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.619122
- Title: AG-VAS: Anchor-Guided Zero-Shot Visual Anomaly Segmentation with Large Multimodal Models
- Title(参考訳): AG-VAS:大規模マルチモーダルモデルによるアンカーガイド型ゼロショット視覚異常分割
- Authors: Zhen Qu, Xian Tao, Xiaoyi Bao, Dingrong Wang, ShiChen Qu, Zhengtao Zhang, Xingang Wang,
- Abstract要約: AG-VAS(Anchor-Guided Visual Anomaly)は、3つの学習可能なセマンティックアンカートークンでLMM語彙を拡張する新しいフレームワークである。
AG-VASはゼロショット設定で一貫した最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 21.682989096955467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large multimodal models (LMMs) exhibit strong task generalization capabilities, offering new opportunities for zero-shot visual anomaly segmentation (ZSAS). However, existing LMM-based segmentation approaches still face fundamental limitations: anomaly concepts are inherently abstract and context-dependent, lacking stable visual prototypes, and the weak alignment between high-level semantic embeddings and pixel-level spatial features hinders precise anomaly localization. To address these challenges, we present AG-VAS (Anchor-Guided Visual Anomaly Segmentation), a new framework that expands the LMM vocabulary with three learnable semantic anchor tokens-[SEG], [NOR], and [ANO], establishing a unified anchor-guided segmentation paradigm. Specifically, [SEG] serves as an absolute semantic anchor that translates abstract anomaly semantics into explicit, spatially grounded visual entities (e.g., holes or scratches), while [NOR] and [ANO] act as relative anchors that model the contextual contrast between normal and abnormal patterns across categories. To further enhance cross-modal alignment, we introduce a Semantic-Pixel Alignment Module (SPAM) that aligns language-level semantic embeddings with high-resolution visual features, along with an Anchor-Guided Mask Decoder (AGMD) that performs anchor-conditioned mask prediction for precise anomaly localization. In addition, we curate Anomaly-Instruct20K, a large-scale instruction dataset that organizes anomaly knowledge into structured descriptions of appearance, shape, and spatial attributes, facilitating effective learning and integration of the proposed semantic anchors. Extensive experiments on six industrial and medical benchmarks demonstrate that AG-VAS achieves consistent state-of-the-art performance in the zero-shot setting.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は強力なタスク一般化能力を示し、ゼロショット視覚異常セグメンテーション(ZSAS)の新しい機会を提供する。
しかし、既存のLMMベースのセグメンテーションアプローチは、本質的に抽象的でコンテキスト依存であり、安定した視覚プロトタイプが欠如しており、高レベルのセマンティック埋め込みとピクセルレベルの空間的特徴との弱い一致は、正確な異常な局所化を妨げている。
これらの課題に対処するために,3つの学習可能なセマンティックアンカートークン-[SEG], [NOR], [ANO]でLMM語彙を拡張する新しいフレームワーク AG-VAS(Anchor-Guided Visual Anomaly Segmentation)を提案する。
特に[SEG]は、抽象的な異常なセマンティクスを明示的で空間的に接した視覚的実体(例えば、穴や傷)に変換する絶対的なセマンティクスアンカーとして機能し、[NOR]と[ANO]は、カテゴリー間での正常パターンと異常パターンのコンテキストコントラストをモデル化する相対的なアンカーとして機能します。
クロスモーダルアライメントをさらに強化するために,言語レベルのセマンティックなセマンティック・アライメント・モジュール (SPAM) と,高精度な局所化のためのアンカー条件付きマスク予測を行うアンカーガイドマスクデコーダ (AGMD) を導入する。
さらに,Anomaly-Instruct20Kは,異常知識を外観,形状,空間的属性の構造化記述に整理し,効果的な学習とセマンティックアンカーの統合を支援する大規模命令データセットである。
6つの産業用および医療用ベンチマークの大規模な実験は、AG-VASがゼロショット環境で一貫した最先端性能を達成することを示した。
関連論文リスト
- SGHA-Attack: Semantic-Guided Hierarchical Alignment for Transferable Targeted Attacks on Vision-Language Models [73.19044613922911]
大規模視覚言語モデル(VLM)は、転送ベースの対向摂動に対して脆弱である。
SGHA-Attackは、複数のターゲット参照を採用し、中間層一貫性を強制するフレームワークである。
オープンソースおよび商用のブラックボックスVLMの実験は、SGHA-Attackが従来の方法よりも強力な目標転送性を実現することを示している。
論文 参考訳(メタデータ) (2026-02-02T03:10:41Z) - SSVP: Synergistic Semantic-Visual Prompting for Industrial Zero-Shot Anomaly Detection [55.54007781679915]
本稿では,多種多様な視覚的エンコーディングを効率よく融合させ,モデルの微粒化知覚を高めるSynergistic Semantic-Visual Prompting (SSVP)を提案する。
SSVPは、MVTec-AD上で93.0%のImage-AUROCと92.2%のPixel-AUROCで最先端のパフォーマンスを達成し、既存のゼロショットアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2026-01-14T04:42:19Z) - Towards Fine-Grained Vision-Language Alignment for Few-Shot Anomaly Detection [65.29550320117526]
我々はFinGrainedADという新しいフレームワークを提案し、異常なローカライゼーション性能を改善する。
実験により、提案されたFinGrainedADは、数ショット設定で全体的なパフォーマンスが優れていることが示された。
論文 参考訳(メタデータ) (2025-10-30T13:09:00Z) - Generate Aligned Anomaly: Region-Guided Few-Shot Anomaly Image-Mask Pair Synthesis for Industrial Inspection [53.137651284042434]
異常検査は製造業において重要な役割を担っているが、異常サンプルの不足は既存の方法の有効性を制限している。
本稿では,GAA (Generate grained Anomaly) を提案する。
GAAは少数のサンプルのみを用いて現実的で多様で意味的に整合した異常を発生させる。
論文 参考訳(メタデータ) (2025-07-13T12:56:59Z) - LIRA: Inferring Segmentation in Large Multi-modal Models with Local Interleaved Region Assistance [54.683384204063934]
大規模マルチモーダルモデル(LMM)は不正確なセグメンテーションと幻覚的理解に苦しむ。
視覚的理解とセグメンテーションの相補的関係を生かしたフレームワークであるLIRAを提案する。
LIRAはセグメンテーションと理解タスクの両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-07-08T07:46:26Z) - EAGLE: Eigen Aggregation Learning for Object-Centric Unsupervised Semantic Segmentation [5.476136494434766]
意味的類似性行列から派生した固有ベイズを通して意味的および構造的手がかりを提供する手法であるEiCueを紹介する。
オブジェクトレベルの表現を画像内および画像間の整合性で学習する。
COCO-Stuff、Cityscapes、Potsdam-3データセットの実験では、最先端のUSSの結果が示されている。
論文 参考訳(メタデータ) (2024-03-03T11:24:16Z) - HSVA: Hierarchical Semantic-Visual Adaptation for Zero-Shot Learning [74.76431541169342]
ゼロショット学習(ZSL)は、目に見えないクラス認識の問題に取り組み、目に見えないクラスから目に見えないクラスに意味的な知識を移す。
本稿では,意味領域と視覚領域を協調させる新しい階層型意味視覚適応(HSVA)フレームワークを提案する。
4つのベンチマークデータセットの実験では、HSVAは従来のZSLと一般的なZSLの両方で優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-30T14:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。