論文の概要: LogicAD: Explainable Anomaly Detection via VLM-based Text Feature Extraction
- arxiv url: http://arxiv.org/abs/2501.01767v2
- Date: Wed, 08 Jan 2025 12:11:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-09 11:35:18.484350
- Title: LogicAD: Explainable Anomaly Detection via VLM-based Text Feature Extraction
- Title(参考訳): LogicAD: VLMベースのテキスト特徴抽出による説明可能な異常検出
- Authors: Er Jin, Qihui Feng, Yongli Mou, Stefan Decker, Gerhard Lakemeyer, Oliver Simons, Johannes Stegmaier,
- Abstract要約: 自動回帰マルチモーダル視覚言語モデル(AVLM)は、視覚的推論における異常なパフォーマンスのために、将来的な代替手段を提供する。
本研究では,AVLMを用いて論理的異常検出を行い,その課題に適していることを示す。
我々は、AUROCが86.4%、F1-maxが83.7%の公開ベンチマークであるMVTec LOCO ADにおいて、異常の説明とともにSOTA性能を達成する。
- 参考スコア(独自算出の注目度): 4.959108380494595
- License:
- Abstract: Logical image understanding involves interpreting and reasoning about the relationships and consistency within an image's visual content. This capability is essential in applications such as industrial inspection, where logical anomaly detection is critical for maintaining high-quality standards and minimizing costly recalls. Previous research in anomaly detection (AD) has relied on prior knowledge for designing algorithms, which often requires extensive manual annotations, significant computing power, and large amounts of data for training. Autoregressive, multimodal Vision Language Models (AVLMs) offer a promising alternative due to their exceptional performance in visual reasoning across various domains. Despite this, their application to logical AD remains unexplored. In this work, we investigate using AVLMs for logical AD and demonstrate that they are well-suited to the task. Combining AVLMs with format embedding and a logic reasoner, we achieve SOTA performance on public benchmarks, MVTec LOCO AD, with an AUROC of 86.0% and F1-max of 83.7%, along with explanations of anomalies. This significantly outperforms the existing SOTA method by a large margin.
- Abstract(参考訳): 論理的画像理解は、画像の視覚的内容内の関係と一貫性を解釈し、推論することを含む。
この機能は、高品質な標準を維持し、コストのかかるリコールを最小限に抑えるために、論理的異常検出が不可欠である産業検査のようなアプリケーションに欠かせない。
従来のAD(Anomaly Detection)の研究は、アルゴリズムの設計に先立つ知識に依存しており、大規模な手動アノテーション、膨大な計算能力、訓練のための大量のデータを必要とすることが多い。
自動回帰多モーダル視覚言語モデル(AVLM)は、様々な領域にわたる視覚的推論における例外的なパフォーマンスのために、有望な代替手段を提供する。
それにもかかわらず、彼らの論理的ADへの応用は未だ未定である。
本研究では, AVLM を論理的 AD に使用することについて検討し,そのタスクに適していることを示す。
AVLMと形式埋め込みと論理推論を組み合わせることで、MVTec LOCO AD、AUROCが86.0%、F1-maxが83.7%、異常が説明できる。
これは既存のSOTA法よりも大きなマージンで優れている。
関連論文リスト
- Towards Zero-Shot Anomaly Detection and Reasoning with Multimodal Large Language Models [29.078437003042357]
Zero-Shot Anomaly Detection (ZSAD)はADパラダイムである。
本稿では,ZSAD と推論のための視覚アシスタントである Anomaly-OneVision (Anomaly-OV) を提案する。
論文 参考訳(メタデータ) (2025-02-11T14:50:43Z) - Can Multimodal Large Language Models be Guided to Improve Industrial Anomaly Detection? [5.979778557940213]
従来の産業異常検出モデルは、しばしば柔軟性と適応性に苦しむ。
MLLM(Multimodal Large Language Models)の最近の進歩は、これらの制限を克服することを約束している。
IADのためのMLLM性能を向上させるために設計された,新しいマルチエキスパートフレームワークであるEchoを提案する。
論文 参考訳(メタデータ) (2025-01-27T05:41:10Z) - Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - VMAD: Visual-enhanced Multimodal Large Language Model for Zero-Shot Anomaly Detection [19.79027968793026]
Zero-shot Anomaly Detection (ZSAD)は、未確認のオブジェクト内の異常を認識し、ローカライズする。
既存のZSADメソッドは、クローズドワールド設定によって制限され、事前に定義されたプロンプトで見つからない欠陥に苦労する。
我々は、視覚的IAD知識ときめ細かい知覚でMLLMを強化する新しいフレームワークVMAD(Visual-enhanced MLLM Anomaly Detection)を提案する。
論文 参考訳(メタデータ) (2024-09-30T09:51:29Z) - MarvelOVD: Marrying Object Recognition and Vision-Language Models for Robust Open-Vocabulary Object Detection [107.15164718585666]
開語彙検出コンテキスト下でのVLMの偏り予測の根本原因について検討した。
私たちの観察は、非常に優れたトレーニングターゲットを生成する、単純で効果的なパラダイム、コード化されたMarvelOVDにつながります。
我々の手法は、他の最先端技術よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2024-07-31T09:23:57Z) - Learning Feature Inversion for Multi-class Anomaly Detection under General-purpose COCO-AD Benchmark [101.23684938489413]
異常検出(AD)は、しばしば産業品質検査や医学的病変検査のための異常の検出に焦点が当てられている。
この研究はまず、COCOをADフィールドに拡張することにより、大規模で汎用的なCOCO-ADデータセットを構築する。
セグメンテーション分野のメトリクスにインスパイアされた我々は、より実用的なしきい値に依存したAD固有のメトリクスをいくつか提案する。
論文 参考訳(メタデータ) (2024-04-16T17:38:26Z) - AcME-AD: Accelerated Model Explanations for Anomaly Detection [5.702288833888639]
AcME-ADは相互運用性のためのモデルに依存しない効率的なソリューションです。
ローカルな特徴重要度スコアと、各異常に寄与する要因を隠蔽するWhat-if分析ツールを提供する。
本稿では,AcME-ADの基礎とその既存手法に対する利点を解明し,合成データと実データの両方を用いて,その有効性を検証する。
論文 参考訳(メタデータ) (2024-03-02T16:11:58Z) - Myriad: Large Multimodal Model by Applying Vision Experts for Industrial Anomaly Detection [86.24898024621008]
産業異常検出に視覚専門家を適用した新しい大規模マルチモーダルモデルを提案する(略してMyriad)。
我々は,視覚専門家が生成する異常マップをLMMのガイダンスとして利用し,視覚モデルが異常領域により多くの注意を払うように誘導する。
提案手法は最先端の手法に対して良好に機能するだけでなく,IAD分野におけるLMMの柔軟性や命令追従性を継承する。
論文 参考訳(メタデータ) (2023-10-29T16:49:45Z) - AnomalyGPT: Detecting Industrial Anomalies Using Large Vision-Language
Models [30.723122000372538]
AnomalyGPTはLarge Vision-Language Models (LVLM)に基づく新しいIADアプローチである
我々は、異常な画像をシミュレートし、各画像に対応するテキスト記述を生成することで、トレーニングデータを生成する。
AnomalyGPTは86.1%の精度、画像レベルのAUC94.1%、ピクセルレベルのAUC95.3%の精度で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-29T15:02:53Z) - Building Interpretable and Reliable Open Information Retriever for New
Domains Overnight [67.03842581848299]
情報検索は、オープンドメイン質問応答(QA)など、多くのダウンストリームタスクにとって重要な要素である。
本稿では、エンティティ/イベントリンクモデルとクエリ分解モデルを用いて、クエリの異なる情報単位により正確にフォーカスする情報検索パイプラインを提案する。
より解釈可能で信頼性が高いが,提案したパイプラインは,5つのIRおよびQAベンチマークにおける通過カバレッジと記述精度を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-09T07:47:17Z) - IM-IAD: Industrial Image Anomaly Detection Benchmark in Manufacturing [88.35145788575348]
画像異常検出(英: Image Anomaly Detection、IAD)は、産業用コンピュータビジョンの課題である。
統一IMベンチマークの欠如は、現実世界のアプリケーションにおけるIADメソッドの開発と利用を妨げる。
7つの主要なデータセットに19のアルゴリズムを含む包括的画像異常検出ベンチマーク(IM-IAD)を構築した。
論文 参考訳(メタデータ) (2023-01-31T01:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。