論文の概要: EAGLE: Expert-Augmented Attention Guidance for Tuning-Free Industrial Anomaly Detection in Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2602.17419v1
- Date: Thu, 19 Feb 2026 14:50:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:29.103544
- Title: EAGLE: Expert-Augmented Attention Guidance for Tuning-Free Industrial Anomaly Detection in Multimodal Large Language Models
- Title(参考訳): EAGLE:マルチモーダル大言語モデルにおけるチューニング不要な産業異常検出のためのエキスパート強化注意誘導
- Authors: Xiaomeng Peng, Xilang Huang, Seon Han Choi,
- Abstract要約: MLLM(EAGLE)における産業異常検出のための専門家による注意誘導を提案する。
EAGLEは専門家モデルからの出力を統合し、MLLMを正確な検出と解釈可能な異常記述の両方に導く。
- 参考スコア(独自算出の注目度): 0.4779196219827507
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Industrial anomaly detection is important for smart manufacturing, but many deep learning approaches produce only binary decisions and provide limited semantic explanations. Multimodal large language models (MLLMs) can potentially generate fine-grained, language-based analyses, yet existing methods often require costly fine-tuning and do not consistently improve anomaly detection accuracy compared to lightweight specialist detectors. We propose expert-augmented attention guidance for industrial anomaly detection in MLLMs (EAGLE), a tuning-free framework that integrates outputs from expert model to guide MLLMs toward both accurate detection and interpretable anomaly descriptions. We further study how EAGLE affects MLLMs internals by examining the attention distribution of MLLMs to the anomalous image regions in the intermediate layers. We observe that successful anomaly detection is associated with increased attention concentration on anomalous regions, and EAGLE tends to encourage this alignment. Experiments on MVTec-AD and VisA show that EAGLE improves anomaly detection performance across multiple MLLMs without any parameter updates, achieving results comparable to fine-tuning based methods. Code is available at \href{https://github.com/shengtun/Eagle}{https://github.com/shengtun/Eagle}
- Abstract(参考訳): 工業的異常検出はスマート製造において重要であるが、多くのディープラーニングアプローチはバイナリ決定のみを生成し、限定的な意味的説明を提供する。
MLLM(Multimodal large language model)は、粒度の細かい言語に基づく分析を生成できるが、既存の手法では、コストのかかる微調整が必要であり、軽量な特殊検出器と比較して常に異常検出精度を向上しないことが多い。
本稿では,MLLMにおける産業異常検出のための専門家による注意ガイダンスを提案する。これは,専門家モデルから出力を統合して,正確な検出と解釈可能な異常記述の両方に導く,チューニング不要なフレームワークである。
さらに、中間層内の異常画像領域に対するMLLMの注意分布を調べることにより、EAGLEがMLLMの内部に与える影響について検討する。
異常検出の成功は異常領域の注意集中の増大と関連し,ERGLEはこのアライメントを促進する傾向にある。
MVTec-ADとVisAの実験では、EAGLEはパラメータを更新せずに複数のMLLMにわたって異常検出性能を改善し、微調整ベースの手法に匹敵する結果が得られる。
コードは \href{https://github.com/shengtun/Eagle}{https://github.com/shengtun/Eagle} で公開されている。
関連論文リスト
- LLM-Enhanced Reinforcement Learning for Time Series Anomaly Detection [1.1852406625172216]
時系列異常検出は、しばしばスパースラベル、複雑な時間パターン、高価な専門家アノテーションに悩まされる。
本稿では,LL(Reinforcement Learning),VAE(Variational Autoencoder)の強化された動的報酬スケーリング,ラベル伝搬によるアクティブラーニングを併用した,LLM(Large Language Model)に基づく報酬形成機能の統合フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-05T19:33:30Z) - IAD-GPT: Advancing Visual Knowledge in Multimodal Large Language Model for Industrial Anomaly Detection [70.02774285130238]
本稿では,リッチテキストセマンティクスと画像レベルの情報と画素レベルの情報の組み合わせについて検討する。
産業異常検出のためのMLLMに基づく新しいパラダイムであるIAD-GPTを提案する。
MVTec-ADとVisAデータセットの実験は、私たちの最先端のパフォーマンスを示しています。
論文 参考訳(メタデータ) (2025-10-16T02:48:05Z) - HiProbe-VAD: Video Anomaly Detection via Hidden States Probing in Tuning-Free Multimodal LLMs [8.18063726177317]
ビデオ異常検出(VAD)は、ビデオシーケンス内の通常のパターンから逸脱を識別し、特定することを目的としている。
本稿では,VADのための事前学習型マルチモーダル大言語モデル(MLLM)を,微調整を必要とせずに活用する新しいフレームワークであるHiProbe-VADを提案する。
論文 参考訳(メタデータ) (2025-07-23T10:41:46Z) - Detect, Classify, Act: Categorizing Industrial Anomalies with Multi-Modal Large Language Models [27.008700759998945]
本稿では,異常分類のための新しいパイプラインであるVELMを提案する。
我々は、広く使われているMVTec-ADとVisA-ACデータセットの洗練されたバージョンであるMVTec-ACとVisA-ACを紹介する。
提案手法は,MVTec-ADで80.4%,MVTec-ACで84%の精度を達成し,VELMの有効性を示した。
論文 参考訳(メタデータ) (2025-05-05T13:08:25Z) - VMAD: Visual-enhanced Multimodal Large Language Model for Zero-Shot Anomaly Detection [19.79027968793026]
Zero-shot Anomaly Detection (ZSAD)は、未確認のオブジェクト内の異常を認識し、ローカライズする。
既存のZSADメソッドは、クローズドワールド設定によって制限され、事前に定義されたプロンプトで見つからない欠陥に苦労する。
我々は、視覚的IAD知識ときめ細かい知覚でMLLMを強化する新しいフレームワークVMAD(Visual-enhanced MLLM Anomaly Detection)を提案する。
論文 参考訳(メタデータ) (2024-09-30T09:51:29Z) - Anomaly Detection of Tabular Data Using LLMs [54.470648484612866]
我々は,事前訓練された大規模言語モデル (LLM) がゼロショットバッチレベルの異常検出器であることを示す。
本稿では,実異常検出におけるLCMの潜在性を明らかにするために,エンドツーエンドの微調整手法を提案する。
論文 参考訳(メタデータ) (2024-06-24T04:17:03Z) - Self-supervised Feature Adaptation for 3D Industrial Anomaly Detection [59.41026558455904]
具体的には,大規模ビジュアルデータセット上で事前学習されたモデルを利用した初期のマルチモーダルアプローチについて検討する。
本研究では,アダプタを微調整し,異常検出に向けたタスク指向の表現を学習するためのLSFA法を提案する。
論文 参考訳(メタデータ) (2024-01-06T07:30:41Z) - Myriad: Large Multimodal Model by Applying Vision Experts for Industrial Anomaly Detection [86.24898024621008]
産業異常検出に視覚専門家を適用した新しい大規模マルチモーダルモデルを提案する(略してMyriad)。
我々は,視覚専門家が生成する異常マップをLMMのガイダンスとして利用し,視覚モデルが異常領域により多くの注意を払うように誘導する。
提案手法は最先端の手法に対して良好に機能するだけでなく,IAD分野におけるLMMの柔軟性や命令追従性を継承する。
論文 参考訳(メタデータ) (2023-10-29T16:49:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。