論文の概要: IADGPT: Unified LVLM for Few-Shot Industrial Anomaly Detection, Localization, and Reasoning via In-Context Learning
- arxiv url: http://arxiv.org/abs/2508.10681v1
- Date: Thu, 14 Aug 2025 14:24:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.355067
- Title: IADGPT: Unified LVLM for Few-Shot Industrial Anomaly Detection, Localization, and Reasoning via In-Context Learning
- Title(参考訳): IADGPT:インテクスト学習によるファウショット産業異常検出, 局所化, 推論のための統一LVLM
- Authors: Mengyang Zhao, Teng Fu, Haiyang Yu, Ke Niu, Bin Li,
- Abstract要約: Few-Shot Industrial Anomaly Detection (FS-IAD) は産業品質検査の自動化に重要な応用例である。
我々は,FS-IADを人間的な方法で実行するための統合フレームワーク IADGPT を提案する。
本稿では,400種類の産業製品カテゴリにまたがる100K画像からなる新しいデータセットについて述べる。
- 参考スコア(独自算出の注目度): 18.078896149087576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-Shot Industrial Anomaly Detection (FS-IAD) has important applications in automating industrial quality inspection. Recently, some FS-IAD methods based on Large Vision-Language Models (LVLMs) have been proposed with some achievements through prompt learning or fine-tuning. However, existing LVLMs focus on general tasks but lack basic industrial knowledge and reasoning capabilities related to FS-IAD, making these methods far from specialized human quality inspectors. To address these challenges, we propose a unified framework, IADGPT, designed to perform FS-IAD in a human-like manner, while also handling associated localization and reasoning tasks, even for diverse and novel industrial products. To this end, we introduce a three-stage progressive training strategy inspired by humans. Specifically, the first two stages gradually guide IADGPT in acquiring fundamental industrial knowledge and discrepancy awareness. In the third stage, we design an in-context learning-based training paradigm, enabling IADGPT to leverage a few-shot image as the exemplars for improved generalization to novel products. In addition, we design a strategy that enables IADGPT to output image-level and pixel-level anomaly scores using the logits output and the attention map, respectively, in conjunction with the language output to accomplish anomaly reasoning. To support our training, we present a new dataset comprising 100K images across 400 diverse industrial product categories with extensive attribute-level textual annotations. Experiments indicate IADGPT achieves considerable performance gains in anomaly detection and demonstrates competitiveness in anomaly localization and reasoning. We will release our dataset in camera-ready.
- Abstract(参考訳): Few-Shot Industrial Anomaly Detection (FS-IAD) は産業品質検査の自動化に重要な応用例である。
近年,LVLM(Large Vision-Language Models)に基づくFS-IAD手法が提案されている。
しかし、既存のLVLMは一般的なタスクに重点を置いているが、FS-IADに関する基本的な産業知識や推論能力は欠如しており、これらの手法は専門の人間品質検査者からは遠ざかっている。
これらの課題に対処するため、我々はFS-IADを人間的な方法で実行するための統一的なフレームワークIADGPTを提案し、同時に、多種多様な新規産業製品に対しても、関連するローカライゼーションと推論タスクを処理した。
この目的のために,人間に触発された3段階のプログレッシブトレーニング戦略を導入する。
特に、第1段階の2段階は、IADGPTの基本的な産業知識と差別意識の獲得を徐々に導く。
第3段階では、テキスト内学習に基づく訓練パラダイムを設計し、IADGPTは、新規製品への一般化を改善するために、いくつかのショット画像を活用することができる。
さらに,IADGPTがロジット出力とアテンションマップを用いて画像レベルの異常スコアと画素レベルの異常スコアを出力する手法を,言語出力と合わせて設計し,異常推論を実現する。
トレーニングを支援するために,400種類の産業製品カテゴリにまたがる100Kイメージからなる新しいデータセットを提案する。
IADGPTは異常検出においてかなりの性能向上を示し、異常局所化と推論における競合性を示す。
データセットをカメラ対応でリリースします。
関連論文リスト
- OmniAD: Detect and Understand Industrial Anomaly via Multimodal Reasoning [76.90511414963265]
我々は,微粒化解析のための異常検出と理解を統一するフレームワークであるOmniADを紹介した。
ビジュアル推論は、Text-as-Maskを活用することで詳細なインスペクションを提供する。
Visual Guided Textual Reasoningは、視覚知覚を統合することで包括的な分析を行う。
論文 参考訳(メタデータ) (2025-05-28T07:02:15Z) - Benchmarking Large Vision-Language Models on Fine-Grained Image Tasks: A Comprehensive Evaluation [53.84282335629258]
我々は、FG-BMKと呼ばれる包括的きめ細かい評価ベンチマークを導入し、1.01万の質問と0.33万の画像を含む。
本評価では,人間指向と機械指向の両方の観点からLVLMを体系的に検討する。
トレーニングパラダイム,モダリティアライメント,摂動感受性,および細粒度カテゴリー推論がタスクパフォーマンスに与える影響について,重要な知見を明らかにした。
論文 参考訳(メタデータ) (2025-04-21T09:30:41Z) - Exploring Large Vision-Language Models for Robust and Efficient Industrial Anomaly Detection [4.691083532629246]
CLAD(Contrastive Cross-Modal Training)を用いた視覚言語異常検出法を提案する。
CLADは、視覚的特徴とテキスト的特徴をコントラスト学習を用いて共有埋め込み空間に整列する。
CLADは画像レベルの異常検出と画素レベルの異常局所化の両方において最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2024-12-01T17:00:43Z) - Anomaly Detection by Adapting a pre-trained Vision Language Model [48.225404732089515]
トレーニング済みのCLIPモデルに適応することで,異常検出のためのCLIP-ADAという統合フレームワークを提案する。
学習可能なプロンプトを導入し、自己教師付き学習を通して異常パターンに関連付けることを提案する。
MVTec-AD と VisA の異常検出と局所化のための最新技術 97.5/55.6 と 89.3/33.1 を実現した。
論文 参考訳(メタデータ) (2024-03-14T15:35:07Z) - Knowledge Plugins: Enhancing Large Language Models for Domain-Specific
Recommendations [50.81844184210381]
本稿では,大規模言語モデルをDOmain固有のKnowledgEで拡張し,実践的アプリケーション,すなわちDOKEの性能を向上させるためのパラダイムを提案する。
このパラダイムはドメイン知識抽出器に依存し,1)タスクに効果的な知識を準備すること,2)特定のサンプルごとに知識を選択すること,3)LLMで理解可能な方法で知識を表現すること,の3つのステップで動作する。
論文 参考訳(メタデータ) (2023-11-16T07:09:38Z) - AnomalyGPT: Detecting Industrial Anomalies Using Large Vision-Language
Models [30.723122000372538]
AnomalyGPTはLarge Vision-Language Models (LVLM)に基づく新しいIADアプローチである
我々は、異常な画像をシミュレートし、各画像に対応するテキスト記述を生成することで、トレーニングデータを生成する。
AnomalyGPTは86.1%の精度、画像レベルのAUC94.1%、ピクセルレベルのAUC95.3%の精度で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-29T15:02:53Z) - Activation to Saliency: Forming High-Quality Labels for Unsupervised
Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。
トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。
本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文 参考訳(メタデータ) (2021-12-07T11:54:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。