論文の概要: Can Multimodal Large Language Models be Guided to Improve Industrial Anomaly Detection?
- arxiv url: http://arxiv.org/abs/2501.15795v1
- Date: Mon, 27 Jan 2025 05:41:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:56:20.045019
- Title: Can Multimodal Large Language Models be Guided to Improve Industrial Anomaly Detection?
- Title(参考訳): 産業的異常検出を改善するための多モーダル大規模言語モデルを指導できるか?
- Authors: Zhiling Chen, Hanning Chen, Mohsen Imani, Farhad Imani,
- Abstract要約: 従来の産業異常検出モデルは、しばしば柔軟性と適応性に苦しむ。
MLLM(Multimodal Large Language Models)の最近の進歩は、これらの制限を克服することを約束している。
IADのためのMLLM性能を向上させるために設計された,新しいマルチエキスパートフレームワークであるEchoを提案する。
- 参考スコア(独自算出の注目度): 5.979778557940213
- License:
- Abstract: In industrial settings, the accurate detection of anomalies is essential for maintaining product quality and ensuring operational safety. Traditional industrial anomaly detection (IAD) models often struggle with flexibility and adaptability, especially in dynamic production environments where new defect types and operational changes frequently arise. Recent advancements in Multimodal Large Language Models (MLLMs) hold promise for overcoming these limitations by combining visual and textual information processing capabilities. MLLMs excel in general visual understanding due to their training on large, diverse datasets, but they lack domain-specific knowledge, such as industry-specific defect tolerance levels, which limits their effectiveness in IAD tasks. To address these challenges, we propose Echo, a novel multi-expert framework designed to enhance MLLM performance for IAD. Echo integrates four expert modules: Reference Extractor which provides a contextual baseline by retrieving similar normal images, Knowledge Guide which supplies domain-specific insights, Reasoning Expert which enables structured, stepwise reasoning for complex queries, and Decision Maker which synthesizes information from all modules to deliver precise, context-aware responses. Evaluated on the MMAD benchmark, Echo demonstrates significant improvements in adaptability, precision, and robustness, moving closer to meeting the demands of real-world industrial anomaly detection.
- Abstract(参考訳): 産業環境では、製品の品質を維持し、運用上の安全性を確保するためには、異常の正確な検出が不可欠である。
従来の産業異常検出(IAD)モデルは、新しい欠陥タイプや運用上の変更が頻繁に発生する動的生産環境において、柔軟性と適応性に苦しむことが多い。
MLLM(Multimodal Large Language Models)の最近の進歩は、視覚情報処理機能とテキスト情報処理機能を組み合わせることで、これらの制限を克服することを約束している。
MLLMは、大規模で多様なデータセットをトレーニングしているため、一般的な視覚的理解が優れているが、業界固有の欠陥許容レベルなど、ドメイン固有の知識が欠けているため、IADタスクの有効性が制限されている。
これらの課題に対処するため、IADのためのMLLM性能を向上させるために設計された新しいマルチエキスパートフレームワークであるEchoを提案する。
Echoは4つのエキスパートモジュールを統合している: 参照エクストラクタ(Reference Extractor)は、類似の通常のイメージを取得してコンテキストベースラインを提供する、知識ガイド(Knowledge Guide)はドメイン固有の洞察を提供する、推論エキスパート(Reasoning Expert)は複雑なクエリを構造化して段階的に推論する、決定Makerは、すべてのモジュールから情報を合成して、正確なコンテキスト対応の応答を提供する。
MMADベンチマークで評価されたEchoは、適応性、精度、ロバスト性を大幅に改善し、実世界の産業異常検出の要求を満たすように近づいた。
関連論文リスト
- AAD-LLM: Adaptive Anomaly Detection Using Large Language Models [35.286105732902065]
本研究は,Large Language Models (LLMs) を利用した異常検出モデルの伝達性の向上を目的とする。
この研究はまた、モデルとプラントオペレーターの間でより協調的な意思決定を可能にすることを目指している。
論文 参考訳(メタデータ) (2024-11-01T13:43:28Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - ForgeryGPT: Multimodal Large Language Model For Explainable Image Forgery Detection and Localization [49.12958154544838]
ForgeryGPTはImage Forgery DetectionとLocalizationタスクを進化させる新しいフレームワークである。
多様な言語的特徴空間からの偽画像の高次相関をキャプチャする。
新たにカスタマイズされたLarge Language Model (LLM)アーキテクチャを通じて、説明可能な生成と対話を可能にする。
論文 参考訳(メタデータ) (2024-10-14T07:56:51Z) - VMAD: Visual-enhanced Multimodal Large Language Model for Zero-Shot Anomaly Detection [19.79027968793026]
Zero-shot Anomaly Detection (ZSAD)は、未確認のオブジェクト内の異常を認識し、ローカライズする。
既存のZSADメソッドは、クローズドワールド設定によって制限され、事前に定義されたプロンプトで見つからない欠陥に苦労する。
我々は、視覚的IAD知識ときめ細かい知覚でMLLMを強化する新しいフレームワークVMAD(Visual-enhanced MLLM Anomaly Detection)を提案する。
論文 参考訳(メタデータ) (2024-09-30T09:51:29Z) - MoExtend: Tuning New Experts for Modality and Task Extension [61.29100693866109]
MoExtendは、Mixture-of-Experts (MoE)モデルのモダリティ適応と拡張を効率化する効果的なフレームワークである。
MoExtendは、新しいエキスパートをトレーニング済みのMoEモデルにシームレスに統合し、トレーニング済みのモデルをチューニングすることなく、新しい知識を提供する。
論文 参考訳(メタデータ) (2024-08-07T02:28:37Z) - DOLLmC: DevOps for Large Language model Customization [0.0]
本研究の目的は、LLMカスタマイズのためのスケーラブルで効率的なフレームワークを確立することである。
我々は,LLMの継続的学習,シームレスな展開,厳密なバージョン管理を向上する堅牢なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-19T15:20:27Z) - Knowledge Plugins: Enhancing Large Language Models for Domain-Specific
Recommendations [50.81844184210381]
本稿では,大規模言語モデルをDOmain固有のKnowledgEで拡張し,実践的アプリケーション,すなわちDOKEの性能を向上させるためのパラダイムを提案する。
このパラダイムはドメイン知識抽出器に依存し,1)タスクに効果的な知識を準備すること,2)特定のサンプルごとに知識を選択すること,3)LLMで理解可能な方法で知識を表現すること,の3つのステップで動作する。
論文 参考訳(メタデータ) (2023-11-16T07:09:38Z) - Myriad: Large Multimodal Model by Applying Vision Experts for Industrial Anomaly Detection [86.24898024621008]
産業異常検出に視覚専門家を適用した新しい大規模マルチモーダルモデルを提案する(略してMyriad)。
我々は,視覚専門家が生成する異常マップをLMMのガイダンスとして利用し,視覚モデルが異常領域により多くの注意を払うように誘導する。
提案手法は最先端の手法に対して良好に機能するだけでなく,IAD分野におけるLMMの柔軟性や命令追従性を継承する。
論文 参考訳(メタデータ) (2023-10-29T16:49:45Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。