論文の概要: EMIT: Enhancing MLLMs for Industrial Anomaly Detection via Difficulty-Aware GRPO
- arxiv url: http://arxiv.org/abs/2507.21619v1
- Date: Tue, 29 Jul 2025 09:18:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:55.962781
- Title: EMIT: Enhancing MLLMs for Industrial Anomaly Detection via Difficulty-Aware GRPO
- Title(参考訳): EMIT:Difficulty-Aware GRPOによる産業異常検出のためのMLLMの強化
- Authors: Wei Guan, Jun Lan, Jian Cao, Hao Tan, Huijia Zhu, Weiqiang Wang,
- Abstract要約: 産業的異常検出(IAD)のための大規模言語モデル(MLLM)を強化する統合フレームワークであるEMMを提案する。
EMITはマルチタスクIADデータセットを構築し、GPT生成したオブジェクトテキスト記述を利用して欠陥画像の補正を行う。
数発の異常検出のために、パッチレベルの比較から導かれるソフトプロンプトとヒートマップ誘導のコントラスト埋め込みを統合している。
MMADベンチマークの実験では、EMMはMLLMのIAD性能を大幅に向上し、ベースモデルよりも平均7.77%向上した。
- 参考スコア(独自算出の注目度): 39.94790536636158
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Industrial anomaly detection (IAD) plays a crucial role in maintaining the safety and reliability of manufacturing systems. While multimodal large language models (MLLMs) show strong vision-language reasoning abilities, their effectiveness in IAD remains limited without domain-specific adaptation. In this work, we propose EMIT, a unified framework that enhances MLLMs for IAD via difficulty-aware group relative policy optimization (GRPO). EMIT constructs a multi-task IAD dataset and utilizes GPT-generated object text descriptions to compensate for missing defective images. For few-shot anomaly detection, it integrates a soft prompt and heatmap-guided contrastive embeddings derived from patch-level comparisons. To better handle difficult data samples, i.e., cases where the MLLM struggles to generate correct answers, we propose a difficulty-aware GRPO that extends the original GRPO by incorporating a response resampling strategy to ensure the inclusion of correct answers in the sampled responses, as well as an advantage reweighting mechanism to strengthen learning from such difficult data samples. Extensive experiments on the MMAD benchmark demonstrate that EMIT significantly enhances the IAD performance of MLLMs, achieving an average improvement of 7.77\% over the base model (InternVL3-8B) across seven tasks.
- Abstract(参考訳): 産業異常検出(IAD)は、製造システムの安全性と信頼性を維持する上で重要な役割を担っている。
マルチモーダル大言語モデル(MLLM)は視覚言語推論能力が強いが、IADにおけるその有効性はドメイン固有の適応なしに制限される。
本研究では,難易度グループ相対ポリシー最適化(GRPO)を通じてIDAのためのMLLMを強化する統一フレームワークであるEMMを提案する。
EMITはマルチタスクIADデータセットを構築し、GPT生成したオブジェクトテキスト記述を利用して欠陥画像の補正を行う。
数発の異常検出のために、パッチレベルの比較から導かれるソフトプロンプトとヒートマップ誘導のコントラスト埋め込みを統合している。
MLLMが正しい回答を生成するのに苦労するケース,すなわち,サンプル回答に正しい回答を確実に含めるための応答再サンプリング戦略と,そのような難しいデータサンプルからの学習を強化するための有利な再重み付け機構を組み込むことにより,オリジナルのGRPOを拡張する難易度対応GRPOを提案する。
MMADベンチマークの大規模な実験により、EMMはMLLMのIAD性能を大幅に向上し、ベースモデル(InternVL3-8B)よりも平均7.77\%向上した。
関連論文リスト
- AnomalyR1: A GRPO-based End-to-end MLLM for Industrial Anomaly Detection [40.34270276536052]
産業異常検出(IAD)は、欠陥サンプルの不足により深刻な課題となる。
従来のアプローチは、手作りの機能やドメイン固有のエキスパートモデルによって制約されることが多いが、この制限に対処するのに苦労している。
本稿では,マルチモーダル大規模言語モデル(MLLM)であるVLM-R1を活用する先駆的フレームワークであるAnomalyR1を紹介する。
論文 参考訳(メタデータ) (2025-04-16T09:48:41Z) - RAAD-LLM: Adaptive Anomaly Detection Using LLMs and RAG Integration [2.879328762187361]
本稿では,適応型異常検出のための新しいフレームワークであるRAAD-LLMを提案する。
ドメイン固有の知識を効果的に活用することにより、RAAD-LLMは時系列データにおける異常の検出を強化する。
実際のデータセットでは,70.7%から88.6%に精度が向上した。
論文 参考訳(メタデータ) (2025-03-04T17:20:43Z) - Mitigating Forgetting in LLM Fine-Tuning via Low-Perplexity Token Learning [61.99353167168545]
LLM生成データによる微調整により,目標タスクの性能が向上し,非目標タスクの劣化が低減されることを示す。
微調整後のLSMにおける破滅的忘れを緩和するために、トークンの難易度低減に基づく経験的説明を提供する最初の研究である。
論文 参考訳(メタデータ) (2025-01-24T08:18:56Z) - AgentPS: Agentic Process Supervision for Content Moderation with Multimodal LLMs [9.35901507816989]
本稿では,Agentic Process Supervisionを大規模言語モデルに統合するフレームワークであるAgentPSを紹介する。
我々は、AgentPSが、公開ベンチマークとプロプライエタリデータセットのベースラインMLLMよりも大幅に改善されていることを示す。
これらの結果は、大規模産業アプリケーションにおける複雑なマルチモーダル分類のためのスケーラブルで効果的なソリューションとして、AgentPSを確立している。
論文 参考訳(メタデータ) (2024-12-15T04:58:00Z) - R-MTLLMF: Resilient Multi-Task Large Language Model Fusion at the Wireless Edge [78.26352952957909]
マルチタスク大言語モデル(MTLLM)は、ユーザが複数のタスクを効率的に処理するための特殊なモデルを要求する無線エッジにおける多くのアプリケーションにとって重要である。
タスクベクトルによるモデル融合の概念は、MDLLMを生成するための微調整パラメータを組み合わせるための効率的なアプローチとして登場した。
本稿では,最悪の逆攻撃を前提として,エッジユーザがタスクベクトルを介して協調的にMTLMを作成できる問題について検討する。
論文 参考訳(メタデータ) (2024-11-27T10:57:06Z) - Adapting Large Multimodal Models to Distribution Shifts: The Role of In-Context Learning [41.59855801010565]
大規模マルチモーダルモデル(LMM)は汎用アシスタントとして機能し、異なる分布に対して非常に堅牢である。
それにもかかわらず、特に医療のような専門分野において、ドメイン固有の適応は依然として必要である。
本研究は,LMMの適応性向上のための効果的な代替手段として,文脈内学習(ICL)について検討する。
論文 参考訳(メタデータ) (2024-05-20T17:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。