論文の概要: VMAD: Visual-enhanced Multimodal Large Language Model for Zero-Shot Anomaly Detection
- arxiv url: http://arxiv.org/abs/2409.20146v1
- Date: Mon, 30 Sep 2024 09:51:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-02 13:17:59.012286
- Title: VMAD: Visual-enhanced Multimodal Large Language Model for Zero-Shot Anomaly Detection
- Title(参考訳): VMAD:ゼロショット異常検出のための視覚的マルチモーダル大言語モデル
- Authors: Huilin Deng, Hongchen Luo, Wei Zhai, Yang Cao, Yu Kang,
- Abstract要約: Zero-shot Anomaly Detection (ZSAD)は、未確認のオブジェクト内の異常を認識し、ローカライズする。
既存のZSADメソッドは、クローズドワールド設定によって制限され、事前に定義されたプロンプトで見つからない欠陥に苦労する。
我々は、視覚的IAD知識ときめ細かい知覚でMLLMを強化する新しいフレームワークVMAD(Visual-enhanced MLLM Anomaly Detection)を提案する。
- 参考スコア(独自算出の注目度): 19.79027968793026
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zero-shot anomaly detection (ZSAD) recognizes and localizes anomalies in previously unseen objects by establishing feature mapping between textual prompts and inspection images, demonstrating excellent research value in flexible industrial manufacturing. However, existing ZSAD methods are limited by closed-world settings, struggling to unseen defects with predefined prompts. Recently, adapting Multimodal Large Language Models (MLLMs) for Industrial Anomaly Detection (IAD) presents a viable solution. Unlike fixed-prompt methods, MLLMs exhibit a generative paradigm with open-ended text interpretation, enabling more adaptive anomaly analysis. However, this adaption faces inherent challenges as anomalies often manifest in fine-grained regions and exhibit minimal visual discrepancies from normal samples. To address these challenges, we propose a novel framework VMAD (Visual-enhanced MLLM Anomaly Detection) that enhances MLLM with visual-based IAD knowledge and fine-grained perception, simultaneously providing precise detection and comprehensive analysis of anomalies. Specifically, we design a Defect-Sensitive Structure Learning scheme that transfers patch-similarities cues from visual branch to our MLLM for improved anomaly discrimination. Besides, we introduce a novel visual projector, Locality-enhanced Token Compression, which mines multi-level features in local contexts to enhance fine-grained detection. Furthermore, we introduce the Real Industrial Anomaly Detection (RIAD), a comprehensive IAD dataset with detailed anomaly descriptions and analyses, offering a valuable resource for MLLM-based IAD development. Extensive experiments on zero-shot benchmarks, including MVTec-AD, Visa, WFDD, and RIAD datasets, demonstrate our superior performance over state-of-the-art methods. The code and dataset will be available soon.
- Abstract(参考訳): ゼロショット異常検出(ZSAD)は、テキストプロンプトと検査画像の特徴マッピングを確立することにより、未確認物体の異常を認識・局所化し、フレキシブルな工業製造において優れた研究価値を示す。
しかし、既存のZSADメソッドはクローズドワールド設定によって制限されており、事前に定義されたプロンプトで欠陥を発見できない。
近年,産業異常検出 (IAD) にMLLM(Multimodal Large Language Models) を適用した手法が提案されている。
固定プロンプト法とは異なり、MLLMは、より適応的な異常解析を可能にするオープンエンドテキスト解釈を備えた生成パラダイムを示す。
しかし、この適応は、しばしば微細な領域に異常が出現し、通常のサンプルと最小限の視差を示すため、固有の課題に直面している。
これらの課題に対処するために、視覚的IAD知識と微粒化認識によりMLLMを強化する新しいフレームワークVMAD(Visual-enhanced MLLM Anomaly Detection)を提案し、同時に、異常の正確な検出と包括的解析を提供する。
具体的には,視覚枝からMLLMにパッチ類似性を伝達し,異常識別を改善する欠陥検出型構造学習手法を設計する。
さらに,局所性向上型Token Compressionという新しいビジュアルプロジェクタを導入し,局所的コンテキストにおけるマルチレベル特徴をマイニングすることで,きめ細かい検出を実現する。
さらに, MLLM ベースの IAD 開発に有用な資源として, 詳細な異常記述と解析を含む総合的な IAD データセットである Real Industrial Anomaly Detection (RIAD) を導入する。
MVTec-AD、Visa、WFDD、RIADデータセットを含むゼロショットベンチマークに関する大規模な実験は、最先端の手法よりも優れたパフォーマンスを示している。
コードとデータセットは近く提供される。
関連論文リスト
- AnomalyR1: A GRPO-based End-to-end MLLM for Industrial Anomaly Detection [40.34270276536052]
産業異常検出(IAD)は、欠陥サンプルの不足により深刻な課題となる。
従来のアプローチは、手作りの機能やドメイン固有のエキスパートモデルによって制約されることが多いが、この制限に対処するのに苦労している。
本稿では,マルチモーダル大規模言語モデル(MLLM)であるVLM-R1を活用する先駆的フレームワークであるAnomalyR1を紹介する。
論文 参考訳(メタデータ) (2025-04-16T09:48:41Z) - VLForgery Face Triad: Detection, Localization and Attribution via Multimodal Large Language Models [14.053424085561296]
高品質で制御可能な属性を持つ顔モデルは、ディープフェイク検出に重大な課題をもたらす。
本研究では,Multimodal Large Language Models (MLLM) をDMベースの顔鑑定システムに統合する。
VLForgery と呼ばれる細粒度解析フレームワークを提案する。このフレームワークは,1) ファルシファイド顔画像の予測,2) 部分合成対象のファルシファイド顔領域の特定,3) 特定のジェネレータによる合成の属性付けを行う。
論文 参考訳(メタデータ) (2025-03-08T09:55:19Z) - Towards General Visual-Linguistic Face Forgery Detection(V2) [90.6600794602029]
顔操作技術は大きな進歩を遂げ、セキュリティと社会的信頼に深刻な課題を呈している。
近年の研究では、マルチモーダルモデルを活用することで、顔偽造検出の一般化と解釈可能性を高めることが示されている。
初期領域と型識別にフォージェリマスクを活用することで,正確なテキスト記述を生成する新しいアノテーションパイプラインである Face Forgery Text Generator (FFTG) を提案する。
論文 参考訳(メタデータ) (2025-02-28T04:15:36Z) - Towards Zero-Shot Anomaly Detection and Reasoning with Multimodal Large Language Models [29.078437003042357]
Zero-Shot Anomaly Detection (ZSAD)はADパラダイムである。
本稿では,ZSAD と推論のための視覚アシスタントである Anomaly-OneVision (Anomaly-OV) を提案する。
論文 参考訳(メタデータ) (2025-02-11T14:50:43Z) - Can Multimodal Large Language Models be Guided to Improve Industrial Anomaly Detection? [5.979778557940213]
従来の産業異常検出モデルは、しばしば柔軟性と適応性に苦しむ。
MLLM(Multimodal Large Language Models)の最近の進歩は、これらの制限を克服することを約束している。
IADのためのMLLM性能を向上させるために設計された,新しいマルチエキスパートフレームワークであるEchoを提案する。
論文 参考訳(メタデータ) (2025-01-27T05:41:10Z) - ForgeryGPT: Multimodal Large Language Model For Explainable Image Forgery Detection and Localization [49.992614129625274]
ForgeryGPTはImage Forgery DetectionとLocalizationタスクを進化させる新しいフレームワークである。
多様な言語的特徴空間からの偽画像の高次相関をキャプチャする。
新たにカスタマイズされたLarge Language Model (LLM)アーキテクチャを通じて、説明可能な生成と対話を可能にする。
論文 参考訳(メタデータ) (2024-10-14T07:56:51Z) - Towards Zero-shot Point Cloud Anomaly Detection: A Multi-View Projection Framework [11.576062442738273]
我々は、事前訓練されたビジョンランゲージモデル(VLM)を利用して異常を検出する、Multi-View Projection(MVP)フレームワークを紹介する。
MVPは、クラウドデータをマルチビューの深度イメージに投影することで、ポイントクラウド異常検出をイメージ異常検出に変換する。
本稿では、これらのVLMを微調整するための学習可能な視覚的および適応的テキストプロンプトの統合を提案する。
論文 参考訳(メタデータ) (2024-09-20T02:30:33Z) - Anomaly Detection of Tabular Data Using LLMs [54.470648484612866]
我々は,事前訓練された大規模言語モデル (LLM) がゼロショットバッチレベルの異常検出器であることを示す。
本稿では,実異常検出におけるLCMの潜在性を明らかにするために,エンドツーエンドの微調整手法を提案する。
論文 参考訳(メタデータ) (2024-06-24T04:17:03Z) - VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs [64.60035916955837]
VANE-Benchはビデオの異常や矛盾を検出するためのビデオLMMの熟練度を評価するために設計されたベンチマークである。
我々のデータセットは、既存の最先端のテキスト・ビデオ生成モデルを用いて合成された一連のビデオから構成される。
我々は、このベンチマークタスクにおいて、オープンソースとクローズドソースの両方で既存の9つのビデオLMMを評価し、ほとんどのモデルが微妙な異常を効果的に識別するのに困難に直面することを発見した。
論文 参考訳(メタデータ) (2024-06-14T17:59:01Z) - A Comprehensive Library for Benchmarking Multi-class Visual Anomaly Detection [52.228708947607636]
本稿では,新しい手法のモジュラーフレームワークであるADerを包括的視覚異常検出ベンチマークとして紹介する。
このベンチマークには、産業ドメインと医療ドメインからの複数のデータセットが含まれており、15の最先端メソッドと9つの包括的なメトリクスを実装している。
我々は,異なる手法の長所と短所を客観的に明らかにし,多クラス視覚異常検出の課題と今後の方向性について考察する。
論文 参考訳(メタデータ) (2024-06-05T13:40:07Z) - AnomalyLLM: Few-shot Anomaly Edge Detection for Dynamic Graphs using Large Language Models [19.36513465638031]
AnomalyLLMは、いくつかのラベル付きサンプルの情報を統合して、数発の異常検出を実現する、コンテキスト内学習フレームワークである。
4つのデータセットの実験により、AnomalyLLMは、数発の異常検出のパフォーマンスを著しく改善できるだけでなく、モデルパラメータを更新することなく、新しい異常に対して優れた結果を得ることができることが明らかになった。
論文 参考訳(メタデータ) (2024-05-13T10:37:50Z) - Self-supervised Feature Adaptation for 3D Industrial Anomaly Detection [59.41026558455904]
具体的には,大規模ビジュアルデータセット上で事前学習されたモデルを利用した初期のマルチモーダルアプローチについて検討する。
本研究では,アダプタを微調整し,異常検出に向けたタスク指向の表現を学習するためのLSFA法を提案する。
論文 参考訳(メタデータ) (2024-01-06T07:30:41Z) - Myriad: Large Multimodal Model by Applying Vision Experts for Industrial
Anomaly Detection [89.49244928440221]
産業異常検出に視覚専門家を適用した新しい大規模マルチモーダルモデル(Myriad)を提案する。
具体的には,MiniGPT-4をベースLMMとして採用し,Large Language Models (LLM) に理解可能なトークンとして,視覚専門家の事前知識を埋め込むために,Expert Perceptionモジュールを設計する。
視覚専門家の誤りや混乱を補うために,一般画像と産業画像の視覚的表現ギャップを埋めるために,ドメインアダプタを導入する。
論文 参考訳(メタデータ) (2023-10-29T16:49:45Z) - AnomalyGPT: Detecting Industrial Anomalies Using Large Vision-Language
Models [30.723122000372538]
AnomalyGPTはLarge Vision-Language Models (LVLM)に基づく新しいIADアプローチである
我々は、異常な画像をシミュレートし、各画像に対応するテキスト記述を生成することで、トレーニングデータを生成する。
AnomalyGPTは86.1%の精度、画像レベルのAUC94.1%、ピクセルレベルのAUC95.3%の精度で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-29T15:02:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。