論文の概要: Exploring Large Vision-Language Models for Robust and Efficient Industrial Anomaly Detection
- arxiv url: http://arxiv.org/abs/2412.00890v1
- Date: Sun, 01 Dec 2024 17:00:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:45:34.812667
- Title: Exploring Large Vision-Language Models for Robust and Efficient Industrial Anomaly Detection
- Title(参考訳): ロバストかつ高効率な産業異常検出のための大規模視線モデル探索
- Authors: Kun Qian, Tianyu Sun, Wenhong Wang,
- Abstract要約: CLAD(Contrastive Cross-Modal Training)を用いた視覚言語異常検出法を提案する。
CLADは、視覚的特徴とテキスト的特徴をコントラスト学習を用いて共有埋め込み空間に整列する。
CLADは画像レベルの異常検出と画素レベルの異常局所化の両方において最先端の手法より優れていることを示す。
- 参考スコア(独自算出の注目度): 4.691083532629246
- License:
- Abstract: Industrial anomaly detection (IAD) plays a crucial role in the maintenance and quality control of manufacturing processes. In this paper, we propose a novel approach, Vision-Language Anomaly Detection via Contrastive Cross-Modal Training (CLAD), which leverages large vision-language models (LVLMs) to improve both anomaly detection and localization in industrial settings. CLAD aligns visual and textual features into a shared embedding space using contrastive learning, ensuring that normal instances are grouped together while anomalies are pushed apart. Through extensive experiments on two benchmark industrial datasets, MVTec-AD and VisA, we demonstrate that CLAD outperforms state-of-the-art methods in both image-level anomaly detection and pixel-level anomaly localization. Additionally, we provide ablation studies and human evaluation to validate the importance of key components in our method. Our approach not only achieves superior performance but also enhances interpretability by accurately localizing anomalies, making it a promising solution for real-world industrial applications.
- Abstract(参考訳): 産業異常検出(IAD)は製造工程の維持と品質管理において重要な役割を担っている。
本稿では,産業環境における異常検出と局所化の両方を改善するために,大規模視覚言語モデル(LVLM)を活用したCLADを用いた視覚言語異常検出手法を提案する。
CLADは、視覚的特徴とテキスト的特徴をコントラスト学習を用いて共有埋め込み空間に整合させ、異常が押し離されながら正常なインスタンスがグループ化されることを保証する。
2つのベンチマーク産業データセットであるMVTec-ADとVisAの広範な実験により、CLADは画像レベルの異常検出と画素レベルの異常ローカライゼーションの両方において最先端の手法より優れていることを示した。
また,本手法における重要成分の重要性を評価するために,アブレーション研究と人的評価を行った。
提案手法は,優れた性能を達成できるだけでなく,異常を正確に局所化することで解釈可能性を高める。
関連論文リスト
- AAD-LLM: Adaptive Anomaly Detection Using Large Language Models [35.286105732902065]
本研究は,Large Language Models (LLMs) を利用した異常検出モデルの伝達性の向上を目的とする。
この研究はまた、モデルとプラントオペレーターの間でより協調的な意思決定を可能にすることを目指している。
論文 参考訳(メタデータ) (2024-11-01T13:43:28Z) - VMAD: Visual-enhanced Multimodal Large Language Model for Zero-Shot Anomaly Detection [19.79027968793026]
Zero-shot Anomaly Detection (ZSAD)は、未確認のオブジェクト内の異常を認識し、ローカライズする。
既存のZSADメソッドは、クローズドワールド設定によって制限され、事前に定義されたプロンプトで見つからない欠陥に苦労する。
我々は、視覚的IAD知識ときめ細かい知覚でMLLMを強化する新しいフレームワークVMAD(Visual-enhanced MLLM Anomaly Detection)を提案する。
論文 参考訳(メタデータ) (2024-09-30T09:51:29Z) - Dual-Image Enhanced CLIP for Zero-Shot Anomaly Detection [58.228940066769596]
本稿では,統合視覚言語スコアリングシステムを活用したデュアルイメージ強化CLIP手法を提案する。
提案手法は,画像のペアを処理し,それぞれを視覚的参照として利用することにより,視覚的コンテキストによる推論プロセスを強化する。
提案手法は視覚言語による関節異常検出の可能性を大幅に活用し,従来のSOTA法と同等の性能を示す。
論文 参考訳(メタデータ) (2024-05-08T03:13:20Z) - Learning Feature Inversion for Multi-class Anomaly Detection under General-purpose COCO-AD Benchmark [101.23684938489413]
異常検出(AD)は、しばしば産業品質検査や医学的病変検査のための異常の検出に焦点が当てられている。
この研究はまず、COCOをADフィールドに拡張することにより、大規模で汎用的なCOCO-ADデータセットを構築する。
セグメンテーション分野のメトリクスにインスパイアされた我々は、より実用的なしきい値に依存したAD固有のメトリクスをいくつか提案する。
論文 参考訳(メタデータ) (2024-04-16T17:38:26Z) - Anomaly Detection by Adapting a pre-trained Vision Language Model [48.225404732089515]
トレーニング済みのCLIPモデルに適応することで,異常検出のためのCLIP-ADAという統合フレームワークを提案する。
学習可能なプロンプトを導入し、自己教師付き学習を通して異常パターンに関連付けることを提案する。
MVTec-AD と VisA の異常検出と局所化のための最新技術 97.5/55.6 と 89.3/33.1 を実現した。
論文 参考訳(メタデータ) (2024-03-14T15:35:07Z) - Self-supervised Feature Adaptation for 3D Industrial Anomaly Detection [59.41026558455904]
具体的には,大規模ビジュアルデータセット上で事前学習されたモデルを利用した初期のマルチモーダルアプローチについて検討する。
本研究では,アダプタを微調整し,異常検出に向けたタスク指向の表現を学習するためのLSFA法を提案する。
論文 参考訳(メタデータ) (2024-01-06T07:30:41Z) - SCL-VI: Self-supervised Context Learning for Visual Inspection of
Industrial Defects [4.487908181569429]
本稿では,有名なジグソーパズルに取り組むことで,最適なエンコーダを導出する自己教師型学習アルゴリズムを提案する。
提案手法では, 対象画像を9つのパッチに分割し, エンコーダに2つのパッチ間の相対的な位置関係を予測して, リッチなセマンティクスを抽出する。
論文 参考訳(メタデータ) (2023-11-11T08:01:40Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Anomaly Detection Based on Selection and Weighting in Latent Space [73.01328671569759]
SWADと呼ばれる新しい選択および重み付けに基づく異常検出フレームワークを提案する。
ベンチマークと実世界のデータセットによる実験は、SWADの有効性と優位性を示している。
論文 参考訳(メタデータ) (2021-03-08T10:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。