論文の概要: IAD-GPT: Advancing Visual Knowledge in Multimodal Large Language Model for Industrial Anomaly Detection
- arxiv url: http://arxiv.org/abs/2510.16036v1
- Date: Thu, 16 Oct 2025 02:48:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.79308
- Title: IAD-GPT: Advancing Visual Knowledge in Multimodal Large Language Model for Industrial Anomaly Detection
- Title(参考訳): IAD-GPT:産業異常検出のための多モーダル大言語モデルにおける視覚的知識の向上
- Authors: Zewen Li, Zitong Yu, Qilang Ye, Weicheng Xie, Wei Zhuo, Linlin Shen,
- Abstract要約: 本稿では,リッチテキストセマンティクスと画像レベルの情報と画素レベルの情報の組み合わせについて検討する。
産業異常検出のためのMLLMに基づく新しいパラダイムであるIAD-GPTを提案する。
MVTec-ADとVisAデータセットの実験は、私たちの最先端のパフォーマンスを示しています。
- 参考スコア(独自算出の注目度): 70.02774285130238
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The robust causal capability of Multimodal Large Language Models (MLLMs) hold the potential of detecting defective objects in Industrial Anomaly Detection (IAD). However, most traditional IAD methods lack the ability to provide multi-turn human-machine dialogues and detailed descriptions, such as the color of objects, the shape of an anomaly, or specific types of anomalies. At the same time, methods based on large pre-trained models have not fully stimulated the ability of large models in anomaly detection tasks. In this paper, we explore the combination of rich text semantics with both image-level and pixel-level information from images and propose IAD-GPT, a novel paradigm based on MLLMs for IAD. We employ Abnormal Prompt Generator (APG) to generate detailed anomaly prompts for specific objects. These specific prompts from the large language model (LLM) are used to activate the detection and segmentation functions of the pre-trained visual-language model (i.e., CLIP). To enhance the visual grounding ability of MLLMs, we propose Text-Guided Enhancer, wherein image features interact with normal and abnormal text prompts to dynamically select enhancement pathways, which enables language models to focus on specific aspects of visual data, enhancing their ability to accurately interpret and respond to anomalies within images. Moreover, we design a Multi-Mask Fusion module to incorporate mask as expert knowledge, which enhances the LLM's perception of pixel-level anomalies. Extensive experiments on MVTec-AD and VisA datasets demonstrate our state-of-the-art performance on self-supervised and few-shot anomaly detection and segmentation tasks, such as MVTec-AD and VisA datasets. The codes are available at \href{https://github.com/LiZeWen1225/IAD-GPT}{https://github.com/LiZeWen1225/IAD-GPT}.
- Abstract(参考訳): 多モード大言語モデル(MLLM)の堅牢な因果能力は、産業異常検出(IAD)における欠陥物体を検出する可能性を秘めている。
しかし、従来のIAD手法では、オブジェクトの色、異常の形状、特定の種類の異常など、マルチターンの人間と機械の対話や詳細な記述を提供する能力が欠如している。
同時に、大規模事前学習モデルに基づく手法は、異常検出タスクにおける大規模モデルの能力を十分に刺激していない。
本稿では,リッチテキストセマンティクスと画像レベルの情報と画素レベルの情報の組み合わせについて検討し,IADのためのMLLMに基づく新しいパラダイムであるIAD-GPTを提案する。
我々は、特定のオブジェクトに対して詳細な異常プロンプトを生成するために、異常プロンプトジェネレータ(APG)を用いる。
大型言語モデル(LLM)からのこれらの特定のプロンプトは、事前訓練された視覚言語モデル(CLIP)の検出とセグメンテーション機能を活性化するために使用される。
MLLMの視覚的基盤化能力を高めるために,画像特徴と正常および異常なテキストプロンプトを相互作用させて動的に強調経路を選択できるテキストガイドエンハンサーを提案する。
さらに,マスクを専門知識として組み込むマルチマスク融合モジュールを設計し,画素レベルの異常に対するLLMの認識を高める。
MVTec-ADデータセットとVisAデータセットに関する大規模な実験は、MVTec-ADデータセットやVisAデータセットのような、自己教師付きおよび少数ショットの異常検出およびセグメンテーションタスクにおける最先端のパフォーマンスを実証する。
コードは \href{https://github.com/LiZeWen1225/IAD-GPT}{https://github.com/LiZeWen1225/IAD-GPT} で公開されている。
関連論文リスト
- ForgeryGPT: Multimodal Large Language Model For Explainable Image Forgery Detection and Localization [49.12958154544838]
ForgeryGPTはImage Forgery DetectionとLocalizationタスクを進化させる新しいフレームワークである。
多様な言語的特徴空間からの偽画像の高次相関をキャプチャする。
新たにカスタマイズされたLarge Language Model (LLM)アーキテクチャを通じて、説明可能な生成と対話を可能にする。
論文 参考訳(メタデータ) (2024-10-14T07:56:51Z) - VMAD: Visual-enhanced Multimodal Large Language Model for Zero-Shot Anomaly Detection [19.79027968793026]
Zero-shot Anomaly Detection (ZSAD)は、未確認のオブジェクト内の異常を認識し、ローカライズする。
既存のZSADメソッドは、クローズドワールド設定によって制限され、事前に定義されたプロンプトで見つからない欠陥に苦労する。
我々は、視覚的IAD知識ときめ細かい知覚でMLLMを強化する新しいフレームワークVMAD(Visual-enhanced MLLM Anomaly Detection)を提案する。
論文 参考訳(メタデータ) (2024-09-30T09:51:29Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。