論文の概要: VMAD: Visual-enhanced Multimodal Large Language Model for Zero-Shot Anomaly Detection
- arxiv url: http://arxiv.org/abs/2409.20146v1
- Date: Mon, 30 Sep 2024 09:51:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-02 13:17:59.012286
- Title: VMAD: Visual-enhanced Multimodal Large Language Model for Zero-Shot Anomaly Detection
- Title(参考訳): VMAD:ゼロショット異常検出のための視覚的マルチモーダル大言語モデル
- Authors: Huilin Deng, Hongchen Luo, Wei Zhai, Yang Cao, Yu Kang,
- Abstract要約: Zero-shot Anomaly Detection (ZSAD)は、未確認のオブジェクト内の異常を認識し、ローカライズする。
既存のZSADメソッドは、クローズドワールド設定によって制限され、事前に定義されたプロンプトで見つからない欠陥に苦労する。
我々は、視覚的IAD知識ときめ細かい知覚でMLLMを強化する新しいフレームワークVMAD(Visual-enhanced MLLM Anomaly Detection)を提案する。
- 参考スコア(独自算出の注目度): 19.79027968793026
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zero-shot anomaly detection (ZSAD) recognizes and localizes anomalies in previously unseen objects by establishing feature mapping between textual prompts and inspection images, demonstrating excellent research value in flexible industrial manufacturing. However, existing ZSAD methods are limited by closed-world settings, struggling to unseen defects with predefined prompts. Recently, adapting Multimodal Large Language Models (MLLMs) for Industrial Anomaly Detection (IAD) presents a viable solution. Unlike fixed-prompt methods, MLLMs exhibit a generative paradigm with open-ended text interpretation, enabling more adaptive anomaly analysis. However, this adaption faces inherent challenges as anomalies often manifest in fine-grained regions and exhibit minimal visual discrepancies from normal samples. To address these challenges, we propose a novel framework VMAD (Visual-enhanced MLLM Anomaly Detection) that enhances MLLM with visual-based IAD knowledge and fine-grained perception, simultaneously providing precise detection and comprehensive analysis of anomalies. Specifically, we design a Defect-Sensitive Structure Learning scheme that transfers patch-similarities cues from visual branch to our MLLM for improved anomaly discrimination. Besides, we introduce a novel visual projector, Locality-enhanced Token Compression, which mines multi-level features in local contexts to enhance fine-grained detection. Furthermore, we introduce the Real Industrial Anomaly Detection (RIAD), a comprehensive IAD dataset with detailed anomaly descriptions and analyses, offering a valuable resource for MLLM-based IAD development. Extensive experiments on zero-shot benchmarks, including MVTec-AD, Visa, WFDD, and RIAD datasets, demonstrate our superior performance over state-of-the-art methods. The code and dataset will be available soon.
- Abstract(参考訳): ゼロショット異常検出(ZSAD)は、テキストプロンプトと検査画像の特徴マッピングを確立することにより、未確認物体の異常を認識・局所化し、フレキシブルな工業製造において優れた研究価値を示す。
しかし、既存のZSADメソッドはクローズドワールド設定によって制限されており、事前に定義されたプロンプトで欠陥を発見できない。
近年,産業異常検出 (IAD) にMLLM(Multimodal Large Language Models) を適用した手法が提案されている。
固定プロンプト法とは異なり、MLLMは、より適応的な異常解析を可能にするオープンエンドテキスト解釈を備えた生成パラダイムを示す。
しかし、この適応は、しばしば微細な領域に異常が出現し、通常のサンプルと最小限の視差を示すため、固有の課題に直面している。
これらの課題に対処するために、視覚的IAD知識と微粒化認識によりMLLMを強化する新しいフレームワークVMAD(Visual-enhanced MLLM Anomaly Detection)を提案し、同時に、異常の正確な検出と包括的解析を提供する。
具体的には,視覚枝からMLLMにパッチ類似性を伝達し,異常識別を改善する欠陥検出型構造学習手法を設計する。
さらに,局所性向上型Token Compressionという新しいビジュアルプロジェクタを導入し,局所的コンテキストにおけるマルチレベル特徴をマイニングすることで,きめ細かい検出を実現する。
さらに, MLLM ベースの IAD 開発に有用な資源として, 詳細な異常記述と解析を含む総合的な IAD データセットである Real Industrial Anomaly Detection (RIAD) を導入する。
MVTec-AD、Visa、WFDD、RIADデータセットを含むゼロショットベンチマークに関する大規模な実験は、最先端の手法よりも優れたパフォーマンスを示している。
コードとデータセットは近く提供される。
関連論文リスト
- Anomaly Detection of Tabular Data Using LLMs [54.470648484612866]
我々は,事前訓練された大規模言語モデル (LLM) がゼロショットバッチレベルの異常検出器であることを示す。
本稿では,実異常検出におけるLCMの潜在性を明らかにするために,エンドツーエンドの微調整手法を提案する。
論文 参考訳(メタデータ) (2024-06-24T04:17:03Z) - VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs [64.60035916955837]
VANE-Benchはビデオの異常や矛盾を検出するためのビデオLMMの熟練度を評価するために設計されたベンチマークである。
我々のデータセットは、既存の最先端のテキスト・ビデオ生成モデルを用いて合成された一連のビデオから構成される。
我々は、このベンチマークタスクにおいて、オープンソースとクローズドソースの両方で既存の9つのビデオLMMを評価し、ほとんどのモデルが微妙な異常を効果的に識別するのに困難に直面することを発見した。
論文 参考訳(メタデータ) (2024-06-14T17:59:01Z) - AnomalyLLM: Few-shot Anomaly Edge Detection for Dynamic Graphs using Large Language Models [19.36513465638031]
AnomalyLLMは、いくつかのラベル付きサンプルの情報を統合して、数発の異常検出を実現する、コンテキスト内学習フレームワークである。
4つのデータセットの実験により、AnomalyLLMは、数発の異常検出のパフォーマンスを著しく改善できるだけでなく、モデルパラメータを更新することなく、新しい異常に対して優れた結果を得ることができることが明らかになった。
論文 参考訳(メタデータ) (2024-05-13T10:37:50Z) - FiLo: Zero-Shot Anomaly Detection by Fine-Grained Description and High-Quality Localization [31.854923603517264]
本稿では,新しいゼロショット異常検出法であるFiLoを提案する。
FiLoは、適応学習されたFG-Des(FG-Des)と位置強調された高品質なローカライゼーション(HQ-Loc)の2つのコンポーネントから構成される。
MVTecやVisAのようなデータセットの実験結果から、FiLoは検出とローカライゼーションの両方においてZSADの性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-04-21T14:22:04Z) - Self-supervised Feature Adaptation for 3D Industrial Anomaly Detection [59.41026558455904]
具体的には,大規模ビジュアルデータセット上で事前学習されたモデルを利用した初期のマルチモーダルアプローチについて検討する。
本研究では,アダプタを微調整し,異常検出に向けたタスク指向の表現を学習するためのLSFA法を提案する。
論文 参考訳(メタデータ) (2024-01-06T07:30:41Z) - Myriad: Large Multimodal Model by Applying Vision Experts for Industrial
Anomaly Detection [89.49244928440221]
産業異常検出に視覚専門家を適用した新しい大規模マルチモーダルモデル(Myriad)を提案する。
具体的には,MiniGPT-4をベースLMMとして採用し,Large Language Models (LLM) に理解可能なトークンとして,視覚専門家の事前知識を埋め込むために,Expert Perceptionモジュールを設計する。
視覚専門家の誤りや混乱を補うために,一般画像と産業画像の視覚的表現ギャップを埋めるために,ドメインアダプタを導入する。
論文 参考訳(メタデータ) (2023-10-29T16:49:45Z) - Improving Vision Anomaly Detection with the Guidance of Language
Modality [64.53005837237754]
本稿では,マルチモーダルの観点から視覚モダリティの課題に取り組む。
本稿では,冗長な情報問題とスパース空間問題に対処するために,クロスモーダルガイダンス(CMG)を提案する。
視覚異常検出のためのよりコンパクトな潜在空間を学習するために、CMLEは言語モダリティから相関構造行列を学習する。
論文 参考訳(メタデータ) (2023-10-04T13:44:56Z) - AnomalyGPT: Detecting Industrial Anomalies Using Large Vision-Language
Models [30.723122000372538]
AnomalyGPTはLarge Vision-Language Models (LVLM)に基づく新しいIADアプローチである
我々は、異常な画像をシミュレートし、各画像に対応するテキスト記述を生成することで、トレーニングデータを生成する。
AnomalyGPTは86.1%の精度、画像レベルのAUC94.1%、ピクセルレベルのAUC95.3%の精度で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-29T15:02:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。