論文の概要: H2VLR: Heterogeneous Hypergraph Vision-Language Reasoning for Few-Shot Anomaly Detection
- arxiv url: http://arxiv.org/abs/2604.14507v1
- Date: Thu, 16 Apr 2026 00:47:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.660523
- Title: H2VLR: Heterogeneous Hypergraph Vision-Language Reasoning for Few-Shot Anomaly Detection
- Title(参考訳): H2VLRによる不均質ハイパーグラフ画像診断
- Authors: Jianghong Huang, Luping Ji, Weiwei Duan, Mao Ye,
- Abstract要約: 異種ハイパーグラフビジョンランゲージ推論フレームワークを提案する。
FSADを視覚・意味関係の高次推論問題として再定義する。
工業および医療のベンチマークで最先端(SOTA)のパフォーマンスを達成することができる。
- 参考スコア(独自算出の注目度): 20.68363728998228
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: As a classic vision task, anomaly detection has been widely applied in industrial inspection and medical imaging. In this task, data scarcity is often a frequently-faced issue. To solve it, the few-shot anomaly detection (FSAD) scheme is attracting increasing attention. In recent years, beyond traditional visual paradigm, Vision-Language Model (VLM) has been extensively explored to boost this field. However, in currently-existing VLM-based FSAD schemes, almost all perform anomaly inference only by pairwise feature matching, ignoring structural dependencies and global consistency. To further redound to FSAD via VLM, we propose a Heterogeneous Hypergraph Vision-Language Reasoning (H2VLR) framework. It reformulates the FSAD as a high-order inference problem of visual-semantic relations, by jointly modeling visual regions and semantic concepts in a unified hypergraph. Experimental comparisons verify the effectiveness and advantages of H2VLR. It could often achieve state-of-the-art (SOTA) performance on representative industrial and medical benchmarks. Our code will be released upon acceptance.
- Abstract(参考訳): 古典的な視覚課題として、異常検出は産業検査や医用画像に広く応用されている。
このタスクでは、データの不足はしばしば表面的な問題である。
これを解決するために、FSAD ( few-shot Anomaly Detection) スキームが注目されている。
近年,ビジョン・ランゲージ・モデル (VLM) は,従来の視覚パラダイムを超えて広範に研究されている。
しかしながら、既存のVLMベースのFSADスキームでは、ほとんどすべてがペアワイズな特徴マッチング、構造的依存関係の無視、大域的な一貫性によってのみ異常推論を行う。
VLMによるFSADへのさらなる再帰を図るため,H2VLR(Heterogeneous Hypergraph Vision-Language Reasoning)フレームワークを提案する。
統合ハイパーグラフで視覚領域と意味概念を共同でモデル化することにより、FSADを視覚-意味関係の高次推論問題として再構成する。
H2VLRの有効性と利点を実験的に比較した。
工業や医療のベンチマークで最先端(SOTA)のパフォーマンスを達成できた。
私たちのコードは受け入れ次第解放されます。
関連論文リスト
- Deep Expert Injection for Anchoring Retinal VLMs with Domain-Specific Knowledge [66.67024684187915]
LVLM(Large Vision Language Models)は、眼科における自動診断の可能性を秘めている。
彼らの臨床展開は、ドメイン固有の知識の欠如によって著しく妨げられている。
EyExInは、Deep Expert Injectionメカニズムを通じて専門知識で網膜VLMを固定するように設計されたフレームワークである。
論文 参考訳(メタデータ) (2026-03-07T09:43:49Z) - SSVP: Synergistic Semantic-Visual Prompting for Industrial Zero-Shot Anomaly Detection [55.54007781679915]
本稿では,多種多様な視覚的エンコーディングを効率よく融合させ,モデルの微粒化知覚を高めるSynergistic Semantic-Visual Prompting (SSVP)を提案する。
SSVPは、MVTec-AD上で93.0%のImage-AUROCと92.2%のPixel-AUROCで最先端のパフォーマンスを達成し、既存のゼロショットアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2026-01-14T04:42:19Z) - S-Chain: Structured Visual Chain-of-Thought For Medicine [81.97605645734741]
S-Chainは,有界ボックスと構造化ビジュアルCoT(SV-CoT)を備えた,12,000のエキスパートアノテートされた医用画像の最初の大規模データセットである。
データセットはさらに16言語をサポートし、幅広い多言語適用性のための合計700万VQAペアをサポートする。
S-Chainは、根拠のある医療推論のための新しいベンチマークを確立し、より信頼性が高く説明可能な医療ビジョン言語モデルへの道を開く。
論文 参考訳(メタデータ) (2025-10-26T15:57:14Z) - Towards Zero-Shot Anomaly Detection and Reasoning with Multimodal Large Language Models [29.078437003042357]
Zero-Shot Anomaly Detection (ZSAD)はADパラダイムである。
本稿では,ZSAD と推論のための視覚アシスタントである Anomaly-OneVision (Anomaly-OV) を提案する。
論文 参考訳(メタデータ) (2025-02-11T14:50:43Z) - Kernel-Aware Graph Prompt Learning for Few-Shot Anomaly Detection [28.305370451520876]
Few-shot Anomaly Detection (FSAD) は、同じクラスからのごく少数の正規サポート画像のガイダンスを用いて、見えない異常領域を検出することを目的としている。
本稿では,KAG-promptと呼ばれるカーネル対応グラフプロンプト学習フレームワークを提案する。
MVTecADとVisAデータセットの実験は、KAG-promptが最先端のFSAD結果を達成することを示している。
論文 参考訳(メタデータ) (2024-12-23T14:43:51Z) - VMAD: Visual-enhanced Multimodal Large Language Model for Zero-Shot Anomaly Detection [19.79027968793026]
Zero-shot Anomaly Detection (ZSAD)は、未確認のオブジェクト内の異常を認識し、ローカライズする。
既存のZSADメソッドは、クローズドワールド設定によって制限され、事前に定義されたプロンプトで見つからない欠陥に苦労する。
我々は、視覚的IAD知識ときめ細かい知覚でMLLMを強化する新しいフレームワークVMAD(Visual-enhanced MLLM Anomaly Detection)を提案する。
論文 参考訳(メタデータ) (2024-09-30T09:51:29Z) - Myriad: Large Multimodal Model by Applying Vision Experts for Industrial Anomaly Detection [86.24898024621008]
産業異常検出に視覚専門家を適用した新しい大規模マルチモーダルモデルを提案する(略してMyriad)。
我々は,視覚専門家が生成する異常マップをLMMのガイダンスとして利用し,視覚モデルが異常領域により多くの注意を払うように誘導する。
提案手法は最先端の手法に対して良好に機能するだけでなく,IAD分野におけるLMMの柔軟性や命令追従性を継承する。
論文 参考訳(メタデータ) (2023-10-29T16:49:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。