Fugu-MT 論文翻訳(概要): M3-AD: Reflection-aware Multi-modal, Multi-category, and Multi-dimensional Benchmark and Framework for Industrial Anomaly Detection

論文の概要: M3-AD: Reflection-aware Multi-modal, Multi-category, and Multi-dimensional Benchmark and Framework for Industrial Anomaly Detection

arxiv url: http://arxiv.org/abs/2603.00055v1
Date: Tue, 10 Feb 2026 07:20:19 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-09 01:20:08.006207
Title: M3-AD: Reflection-aware Multi-modal, Multi-category, and Multi-dimensional Benchmark and Framework for Industrial Anomaly Detection
Title（参考訳）: M3-AD: 産業異常検出のための反射型マルチモーダル・マルチカテゴリ・多次元ベンチマークとフレームワーク
Authors: Chao Huang, Yanhui Li, Yunkang Cao, Wei Wang, Hongxi Huang, Jie Wen, Wenqi Ren, Xiaochun Cao,
Abstract要約: M3-ADは産業的異常検出のための統合リフレクション対応フレームワークである。 RA-Monitorは、初期判断が信頼できない場合に、制御された自己補正を行うようにモデルをガイドする。
参考スコア（独自算出の注目度）: 87.27067827385599
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Although multimodal large language models (MLLMs) have advanced industrial anomaly detection toward a zero-shot paradigm, they still tend to produce high-confidence yet unreliable decisions in fine-grained and structurally complex industrial scenarios, and lack effective self-corrective mechanisms. To address this issue, we propose M3-AD, a unified reflection-aware multimodal framework for industrial anomaly detection. M3-AD comprises two complementary data resources: M3-AD-FT, designed for reflection-aligned fine-tuning, and M3-AD-Bench, designed for systematic cross-category evaluation, together providing a foundation for reflection-aware learning and reliability assessment. Building upon this foundation, we propose RA-Monitor, which models reflection as a learnable decision revision process and guides models to perform controlled self-correction when initial judgments are unreliable, thereby improving decision robustness. Extensive experiments conducted on M3-AD-Bench demonstrate that RA-Monitor outperforms multiple open-source and commercial MLLMs in zero-shot anomaly detection and anomaly analysis tasks. Code will be released at https://github.com/Yanhui-Lee/M3-AD.
Abstract（参考訳）: マルチモーダル大規模言語モデル (MLLM) はゼロショットパラダイムに向けて先進的な産業異常検出を行っているが、細粒度で構造的に複雑な産業シナリオにおいて、信頼性が高く信頼性の低い決定を下す傾向にあり、効果的な自己修正機構が欠如している。この問題を解決するために,産業異常検出のための統合リフレクション対応マルチモーダルフレームワークであるM3-ADを提案する。 M3-ADは、リフレクション整列微調整用に設計されたM3-AD-FTと、系統的なクロスカテゴリ評価のために設計されたM3-AD-Benchの2つの補完データリソースと、リフレクション認識学習と信頼性評価の基礎を提供する。この基礎の上に構築されたRA-Monitorは、リフレクションを学習可能な決定修正プロセスとしてモデル化し、初期判断が信頼できない場合に制御された自己補正を行うようモデルに誘導し、決定の堅牢性を向上させる。 M3-AD-Benchで実施された大規模な実験により、RA-Monitorはゼロショット異常検出および異常解析タスクにおいて、複数のオープンソースおよび商用MLLMより優れていることが示された。コードはhttps://github.com/Yanhui-Lee/M3-ADでリリースされる。

関連論文リスト

Agentic Mixed-Source Multi-Modal Misinformation Detection with Adaptive Test-Time Scaling [41.61826091940538]
視覚言語モデル(VLM)は,社会プラットフォーム上でのマルチモーダル誤報の検出に有効であることが証明されている。しかしながら、単一のVLMの容量は、より複雑な混在するマルチモーダル誤情報検出タスクにおいて不足する。我々は,ゼロショット誤情報検出のためのマルチエージェントフレームワークであるAgentM3Dを提案する。
論文参考訳（メタデータ） (2026-03-03T02:07:52Z)
Advancing Adaptive Multi-Stage Video Anomaly Reasoning: A Benchmark Dataset and Method [96.63801368613177]
本稿では,記述的理解から構造化多段階推論への映像異常解析を向上するタスクを提案する。我々は8,641本のビデオからなる新しいデータセットを提示し、合計5万本以上のサンプルを作成し、ビデオ異常理解のための最大のデータセットの1つである。提案したタスクとデータセットに基づいて,適応的階層的推論とリスク認識意思決定をサポートする,Vad-R1-Plusと呼ばれるエンドツーエンドのMLLMベースのVARモデルを開発する。
論文参考訳（メタデータ） (2026-01-15T08:09:04Z)
AnomalyR1: A GRPO-based End-to-end MLLM for Industrial Anomaly Detection [40.34270276536052]
産業異常検出(IAD)は、欠陥サンプルの不足により深刻な課題となる。従来のアプローチは、手作りの機能やドメイン固有のエキスパートモデルによって制約されることが多いが、この制限に対処するのに苦労している。本稿では,マルチモーダル大規模言語モデル(MLLM)であるVLM-R1を活用する先駆的フレームワークであるAnomalyR1を紹介する。
論文参考訳（メタデータ） (2025-04-16T09:48:41Z)
Triad: Empowering LMM-based Anomaly Detection with Vision Expert-guided Visual Tokenizer and Manufacturing Process [67.99194145865165]
LLaVAモデルのAnyRes構造を変更し、既存のIADモデルによって同定された潜在的な異常領域をLMMに提供します。欠陥の発生が製造プロセスと密接に関連していることを考えると,製造駆動型IADパラダイムを提案する。本稿では、エキスパート誘導型領域トークン化と製造プロセスを組み合わせたLMMに基づく新しい手法であるTriadを提案する。
論文参考訳（メタデータ） (2025-03-17T13:56:57Z)
Rethinking Multi-Modal Object Detection from the Perspective of Mono-Modality Feature Learning [18.268054258939213]
MMOD(Multi-Modal Object Detection)は様々な用途に広く応用されている。本稿では,マルチモーダル検出器の線形探査評価について紹介する。 M$2$D-LIFという,モノモダリティ蒸留(M$2$D)法と局所照明対応核融合(LIF)モジュールからなる新しいフレームワークを構築した。
論文参考訳（メタデータ） (2025-03-14T18:15:53Z)
Robust Modality-incomplete Anomaly Detection: A Modality-instructive Framework with Benchmark [69.02666229531322]
モダリティ不完全産業異常検出(MIIAD)の先駆的研究を紹介する。その結果,既存のMIAD手法はMIIADベンチでは性能が悪く,性能が著しく低下していることが判明した。本稿では,新しい2段階のロバストモードアリティファジングと検出フレームwoRk(RADAR)を提案する。
論文参考訳（メタデータ） (2024-10-02T16:47:55Z)
PCA-Bench: Evaluating Multimodal Large Language Models in Perception-Cognition-Action Chain [37.448177723993346]
MLLM(Multimodal Large Language Models)の統合能力を評価するベンチマークであるPCA-Benchを提案する。タスク命令と多様なコンテキストが与えられたモデルでは、パーセプション、認知、アクションを推論チェーンにシームレスに統合する必要がある。自動評価プロトコルであるPCA-Evalを提案し,10種類のMLLMを評価した。
論文参考訳（メタデータ） (2024-02-21T07:09:58Z)
Multimodal Industrial Anomaly Detection via Hybrid Fusion [59.16333340582885]
ハイブリッド核融合方式を用いた新しいマルチモーダル異常検出法を提案する。本モデルでは,MVTecD-3 ADデータセットにおける検出精度とセグメンテーション精度の両面で,最先端(SOTA)手法より優れている。
論文参考訳（メタデータ） (2023-03-01T15:48:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。