論文の概要: ADSeeker: A Knowledge-Infused Framework for Anomaly Detection and Reasoning
- arxiv url: http://arxiv.org/abs/2508.03088v1
- Date: Tue, 05 Aug 2025 05:05:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.785887
- Title: ADSeeker: A Knowledge-Infused Framework for Anomaly Detection and Reasoning
- Title(参考訳): ADSeeker: 異常検出と推論のための知識注入フレームワーク
- Authors: Kai Zhang, Zekai Zhang, Xihe Sun, Jingmeng Nie, Qinghui Chen, Han Hao, Jianyuan Guo, Jinglin Zhang,
- Abstract要約: 本稿では,知識基底推論による検査性能向上を目的とした異常タスクアシスタントであるADSeekerを提案する。
業界異常検出(IAD)データの制限に対処するため,最大規模のADデータセットであるMulA(Multi-type Anomaly)を導入する。
我々のプラグイン・アンド・プレイフレームワークであるADSeekerは、いくつかのベンチマークデータセットで最先端のゼロショット性能を実現しています。
- 参考スコア(独自算出の注目度): 17.249025173985697
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic vision inspection holds significant importance in industry inspection. While multimodal large language models (MLLMs) exhibit strong language understanding capabilities and hold promise for this task, their performance remains significantly inferior to that of human experts. In this context, we identify two key challenges: (i) insufficient integration of anomaly detection (AD) knowledge during pre-training, and (ii) the lack of technically precise and conte-aware language generation for anomaly reasoning. To address these issues, we propose ADSeeker, an anomaly task assistant designed to enhance inspection performance through knowledge-grounded reasoning. ADSeeker leverages a curated visual document knowledge base, SEEK-MVTec&VisA (SEEK-M&V), which we construct to address the limitations of existing resources that rely solely on unstructured text. SEEK-M&V includes semantic-rich descriptions and image-document pairs, enabling more comprehensive anomaly understanding. To effectively retrieve and utilize this knowledge, we introduce the Query Image-Knowledge Retrieval-Augmented Generation (Q2K RAG) framework. To further enhance the performance in zero-shot anomaly detection (ZSAD), ADSeeker leverages the Hierarchical Sparse Prompt mechanism and type-level features to efficiently extract anomaly patterns. Furthermore, to tackle the challenge of limited in industry anomaly detection (IAD) data, we introduce the largest-scale AD dataset, Multi-type Anomaly (MulA), encompassing 72 multi-scale defect types across 26 Categories. Extensive experiments show that our plug-and-play framework, ADSeeker, achieves state-of-the-art zero-shot performance on several benchmark datasets.
- Abstract(参考訳): 自動視力検査は産業検査において重要な役割を担っている。
マルチモーダル・大規模言語モデル(MLLM)は言語理解能力が高く,この課題を約束する一方で,その性能は人間の専門家よりも著しく劣っている。
この文脈では、私たちは2つの主要な課題を特定します。
一 予習中の異常検出(AD)知識の不十分な統合
(II)異常推論のための技術的に正確で簡潔な言語生成の欠如。
これらの問題に対処するために,知識ベース推論による検査性能向上を目的とした異常タスクアシスタントであるADSeekerを提案する。
ADSeekerはSEEK-MVTec&VisA(SEEK-M&V)という、構造化されていないテキストにのみ依存する既存のリソースの制限に対処するために、キュレートされたビジュアルドキュメント知識ベースを活用している。
SEEK-M&Vにはセマンティックリッチな記述とイメージドキュメントペアが含まれており、より包括的な異常理解を可能にする。
本稿では,この知識を効果的に活用するために,Query Image-Knowledge Retrieval-Augmented Generation (Q2K RAG) フレームワークを提案する。
ゼロショット異常検出(ZSAD)の性能をさらに向上するため、ADSeekerは階層スパースプロンプト機構と型レベルの特徴を活用して、異常パターンを効率的に抽出する。
さらに,業界異常検出(IAD)データの制限に対処するために,26カテゴリにわたる72種類のマルチスケール欠陥を含む最大規模のADデータセットであるMulAを導入する。
大規模な実験により、当社のプラグイン・プレイフレームワークであるADSeekerは、いくつかのベンチマークデータセットで最先端のゼロショット性能を実現していることがわかった。
関連論文リスト
- OmniAD: Detect and Understand Industrial Anomaly via Multimodal Reasoning [76.90511414963265]
我々は,微粒化解析のための異常検出と理解を統一するフレームワークであるOmniADを紹介した。
ビジュアル推論は、Text-as-Maskを活用することで詳細なインスペクションを提供する。
Visual Guided Textual Reasoningは、視覚知覚を統合することで包括的な分析を行う。
論文 参考訳(メタデータ) (2025-05-28T07:02:15Z) - Retrieval Augmented Generation and Understanding in Vision: A Survey and New Outlook [85.43403500874889]
Retrieval-augmented Generation (RAG) は人工知能(AI)において重要な技術である。
具体化されたAIのためのRAGの最近の進歩は、特に計画、タスク実行、マルチモーダル知覚、インタラクション、特殊ドメインの応用に焦点を当てている。
論文 参考訳(メタデータ) (2025-03-23T10:33:28Z) - EIAD: Explainable Industrial Anomaly Detection Via Multi-Modal Large Language Models [23.898938659720503]
工業異常検出(IAD)は製造中の製品品質を確保するために重要である。
本稿では,コア特徴抽出からダイアログ機能を分離する専用マルチモーダル欠陥ローカライゼーションモジュールを提案する。
私たちはまた、Defect Detection Question Answering (DDQA) という、最初のマルチモーダル産業異常検出トレーニングデータセットにも貢献する。
論文 参考訳(メタデータ) (2025-03-18T11:33:29Z) - LogicAD: Explainable Anomaly Detection via VLM-based Text Feature Extraction [4.959108380494595]
自動回帰マルチモーダル視覚言語モデル(AVLM)は、視覚的推論における異常なパフォーマンスのために、将来的な代替手段を提供する。
本研究では,AVLMを用いて論理的異常検出を行い,その課題に適していることを示す。
我々は、AUROCが86.4%、F1-maxが83.7%の公開ベンチマークであるMVTec LOCO ADにおいて、異常の説明とともにSOTA性能を達成する。
論文 参考訳(メタデータ) (2025-01-03T11:40:41Z) - See it, Think it, Sorted: Large Multimodal Models are Few-shot Time Series Anomaly Analyzers [23.701716999879636]
時系列データの急激な増加に伴い,時系列異常検出(TSAD)はますます重要になりつつある。
本稿では,TMA(Time Series Anomaly Multimodal Analyzer)と呼ばれる先駆的なフレームワークを導入し,異常の検出と解釈を両立させる。
論文 参考訳(メタデータ) (2024-11-04T10:28:41Z) - Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - VMAD: Visual-enhanced Multimodal Large Language Model for Zero-Shot Anomaly Detection [19.79027968793026]
Zero-shot Anomaly Detection (ZSAD)は、未確認のオブジェクト内の異常を認識し、ローカライズする。
既存のZSADメソッドは、クローズドワールド設定によって制限され、事前に定義されたプロンプトで見つからない欠陥に苦労する。
我々は、視覚的IAD知識ときめ細かい知覚でMLLMを強化する新しいフレームワークVMAD(Visual-enhanced MLLM Anomaly Detection)を提案する。
論文 参考訳(メタデータ) (2024-09-30T09:51:29Z) - MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains [54.117238759317004]
大規模マルチタスクエージェント理解(MMAU)ベンチマークは、複雑な環境設定を必要としない包括的なオフラインタスクを特徴としている。
ツールユース、DAG(Directed Acyclic Graph)QA、データサイエンスと機械学習コーディング、コンテストレベルのプログラミング、数学の5分野にわたるモデルを評価する。
3K以上の異なるプロンプトを含む20の精巧に設計されたタスクにより、MMAUはLLMエージェントの強度と限界を評価するための包括的なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-07-18T00:58:41Z) - Myriad: Large Multimodal Model by Applying Vision Experts for Industrial Anomaly Detection [86.24898024621008]
産業異常検出に視覚専門家を適用した新しい大規模マルチモーダルモデルを提案する(略してMyriad)。
我々は,視覚専門家が生成する異常マップをLMMのガイダンスとして利用し,視覚モデルが異常領域により多くの注意を払うように誘導する。
提案手法は最先端の手法に対して良好に機能するだけでなく,IAD分野におけるLMMの柔軟性や命令追従性を継承する。
論文 参考訳(メタデータ) (2023-10-29T16:49:45Z) - Improving Vision Anomaly Detection with the Guidance of Language
Modality [64.53005837237754]
本稿では,マルチモーダルの観点から視覚モダリティの課題に取り組む。
本稿では,冗長な情報問題とスパース空間問題に対処するために,クロスモーダルガイダンス(CMG)を提案する。
視覚異常検出のためのよりコンパクトな潜在空間を学習するために、CMLEは言語モダリティから相関構造行列を学習する。
論文 参考訳(メタデータ) (2023-10-04T13:44:56Z) - IM-IAD: Industrial Image Anomaly Detection Benchmark in Manufacturing [88.35145788575348]
画像異常検出(英: Image Anomaly Detection、IAD)は、産業用コンピュータビジョンの課題である。
統一IMベンチマークの欠如は、現実世界のアプリケーションにおけるIADメソッドの開発と利用を妨げる。
7つの主要なデータセットに19のアルゴリズムを含む包括的画像異常検出ベンチマーク(IM-IAD)を構築した。
論文 参考訳(メタデータ) (2023-01-31T01:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。