論文の概要: AD-Copilot: A Vision-Language Assistant for Industrial Anomaly Detection via Visual In-context Comparison
- arxiv url: http://arxiv.org/abs/2603.13779v1
- Date: Sat, 14 Mar 2026 06:14:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.401498
- Title: AD-Copilot: A Vision-Language Assistant for Industrial Anomaly Detection via Visual In-context Comparison
- Title(参考訳): AD-Copilot:ビジュアルインコンテキスト比較による産業異常検出のための視覚言語アシスタント
- Authors: Xi Jiang, Yue Guo, Jian Li, Yong Liu, Bin-Bin Gao, Hanqiu Deng, Jun Liu, Heng Zhao, Chengjie Wang, Feng Zheng,
- Abstract要約: 産業異常検出(IAD)に特化した対話型MLLMAD-Copilotを提案する。
我々はまず,少ないラベル付き産業画像から検査知識を抽出するために,新しいデータパイプラインを設計する。
次に、キャプション、VQA、欠陥局所化の正確なサンプルを生成し、IADのセマンティック信号に富んだ大規模マルチモーダル比較-ADを生成する。
実験の結果、AD-CopilotはMMADベンチマークで82.3%の精度を達成し、データ漏洩のない他のモデルよりも優れていることが示された。
- 参考スコア(独自算出の注目度): 89.0720931534819
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have achieved impressive success in natural visual understanding, yet they consistently underperform in industrial anomaly detection (IAD). This is because MLLMs trained mostly on general web data differ significantly from industrial images. Moreover, they encode each image independently and can only compare images in the language space, making them insensitive to subtle visual differences that are key to IAD. To tackle these issues, we present AD-Copilot, an interactive MLLM specialized for IAD via visual in-context comparison. We first design a novel data curation pipeline to mine inspection knowledge from sparsely labeled industrial images and generate precise samples for captioning, VQA, and defect localization, yielding a large-scale multimodal dataset Chat-AD rich in semantic signals for IAD. On this foundation, AD-Copilot incorporates a novel Comparison Encoder that employs cross-attention between paired image features to enhance multi-image fine-grained perception, and is trained with a multi-stage strategy that incorporates domain knowledge and gradually enhances IAD skills. In addition, we introduce MMAD-BBox, an extended benchmark for anomaly localization with bounding-box-based evaluation. The experiments show that AD-Copilot achieves 82.3% accuracy on the MMAD benchmark, outperforming all other models without any data leakage. In the MMAD-BBox test, it achieves a maximum improvement of $3.35\times$ over the baseline. AD-Copilot also exhibits excellent generalization of its performance gains across other specialized and general-purpose benchmarks. Remarkably, AD-Copilot surpasses human expert-level performance on several IAD tasks, demonstrating its potential as a reliable assistant for real-world industrial inspection. All datasets and models will be released for the broader benefit of the community.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、自然な視覚的理解において顕著な成功を収めているが、産業的異常検出(IAD)では一貫して性能が劣っている。
これは、MLLMが一般的なWebデータに基づいて訓練されているためであり、産業画像とは大きく異なる。
さらに、各画像を独立してエンコードし、言語空間内の画像のみを比較することができるため、IADの鍵となる微妙な視覚的差異に敏感である。
これらの課題に対処するために、視覚的インコンテキスト比較によりIDAに特化した対話型MLLMであるAD-Copilotを提案する。
我々はまず,細かなラベル付き産業画像から検査知識を抽出し,キャプション,VQA,欠陥ローカライゼーションの正確なサンプルを生成する新しいデータキュレーションパイプラインを設計し,IADのセマンティック信号に富んだ大規模マルチモーダルデータセットChat-ADを生成する。
この基盤の上に、AD-Copilotは、ペア画像特徴間のクロスアテンションを利用して、マルチイメージのきめ細かい認識を高め、ドメイン知識を取り入れ、徐々にIADスキルを強化するマルチステージ戦略で訓練される、新しい比較エンコーダを組み込んでいる。
さらに,バウンディングボックスに基づく評価による異常なローカライゼーションのための拡張ベンチマークMMAD-BBoxを導入する。
実験の結果、AD-CopilotはMMADベンチマークで82.3%の精度を達成し、データ漏洩のない他のモデルよりも優れていることがわかった。
MMAD-BBoxテストでは、ベースライン上で最大3.35\times$を達成している。
AD-Copilotは、他の専門的および汎用的なベンチマークよりも優れたパフォーマンス向上の一般化を示す。
注目すべきは、AD-Copilotは、複数のIADタスクにおける人間の専門家レベルのパフォーマンスを上回り、実世界の産業検査の信頼性の高いアシスタントとしての可能性を示していることだ。
すべてのデータセットとモデルは、コミュニティの幅広い利益のためにリリースされます。
関連論文リスト
- IADGPT: Unified LVLM for Few-Shot Industrial Anomaly Detection, Localization, and Reasoning via In-Context Learning [18.078896149087576]
Few-Shot Industrial Anomaly Detection (FS-IAD) は産業品質検査の自動化に重要な応用例である。
我々は,FS-IADを人間的な方法で実行するための統合フレームワーク IADGPT を提案する。
本稿では,400種類の産業製品カテゴリにまたがる100K画像からなる新しいデータセットについて述べる。
論文 参考訳(メタデータ) (2025-08-14T14:24:47Z) - M3-AGIQA: Multimodal, Multi-Round, Multi-Aspect AI-Generated Image Quality Assessment [65.3860007085689]
M3-AGIQAは、AI生成画像のより人間らしく総合的な評価を可能にする包括的なフレームワークである。
モデル出力を人間の判断とより密接に整合させることで、M3-AGIQAは堅牢で解釈可能な品質スコアを提供する。
論文 参考訳(メタデータ) (2025-02-21T03:05:45Z) - Towards Zero-Shot Anomaly Detection and Reasoning with Multimodal Large Language Models [29.078437003042357]
Zero-Shot Anomaly Detection (ZSAD)はADパラダイムである。
本稿では,ZSAD と推論のための視覚アシスタントである Anomaly-OneVision (Anomaly-OV) を提案する。
論文 参考訳(メタデータ) (2025-02-11T14:50:43Z) - Learning Feature Inversion for Multi-class Anomaly Detection under General-purpose COCO-AD Benchmark [101.23684938489413]
異常検出(AD)は、しばしば産業品質検査や医学的病変検査のための異常の検出に焦点が当てられている。
この研究はまず、COCOをADフィールドに拡張することにより、大規模で汎用的なCOCO-ADデータセットを構築する。
セグメンテーション分野のメトリクスにインスパイアされた我々は、より実用的なしきい値に依存したAD固有のメトリクスをいくつか提案する。
論文 参考訳(メタデータ) (2024-04-16T17:38:26Z) - AnomalyGPT: Detecting Industrial Anomalies Using Large Vision-Language
Models [30.723122000372538]
AnomalyGPTはLarge Vision-Language Models (LVLM)に基づく新しいIADアプローチである
我々は、異常な画像をシミュレートし、各画像に対応するテキスト記述を生成することで、トレーニングデータを生成する。
AnomalyGPTは86.1%の精度、画像レベルのAUC94.1%、ピクセルレベルのAUC95.3%の精度で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-29T15:02:53Z) - IM-IAD: Industrial Image Anomaly Detection Benchmark in Manufacturing [88.35145788575348]
画像異常検出(英: Image Anomaly Detection、IAD)は、産業用コンピュータビジョンの課題である。
統一IMベンチマークの欠如は、現実世界のアプリケーションにおけるIADメソッドの開発と利用を妨げる。
7つの主要なデータセットに19のアルゴリズムを含む包括的画像異常検出ベンチマーク(IM-IAD)を構築した。
論文 参考訳(メタデータ) (2023-01-31T01:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。