Fugu-MT 論文翻訳(概要): MAU-GPT: Enhancing Multi-type Industrial Anomaly Understanding via Anomaly-aware and Generalist Experts Adaptation

論文の概要: MAU-GPT: Enhancing Multi-type Industrial Anomaly Understanding via Anomaly-aware and Generalist Experts Adaptation

arxiv url: http://arxiv.org/abs/2602.07011v1
Date: Sat, 31 Jan 2026 05:36:49 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-10 20:26:24.348775
Title: MAU-GPT: Enhancing Multi-type Industrial Anomaly Understanding via Anomaly-aware and Generalist Experts Adaptation
Title（参考訳）: MAU-GPT: Anomaly-Aware と Generalist Experts Adaptation による多種産業異常理解の強化
Authors: Zhuonan Wang, Zhenxuan Fan, Siwen Tan, Yu Zhong, Yuqian Yuan, Haoyuan Li, Hao Jiang, Wenqiao Zhang, Feifei Shao, Hongwei Wang, Jun Xiao,
Abstract要約: マルチタイプ産業異常理解のための包括的データセットであるMAU-Setを紹介する。そこで我々は,産業的異常理解に特化したドメイン適応型マルチモーダル大規模モデルMAU-GPTを提案する。 AMoE-LoRAメカニズムは、異常認識とジェネラリストの専門家の適応を統一し、多様な欠陥クラスに対する理解と推論の両方を強化する。
参考スコア（独自算出の注目度）: 31.60185302007424
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As industrial manufacturing scales, automating fine-grained product image analysis has become critical for quality control. However, existing approaches are hindered by limited dataset coverage and poor model generalization across diverse and complex anomaly patterns. To address these challenges, we introduce MAU-Set, a comprehensive dataset for Multi-type industrial Anomaly Understanding. It spans multiple industrial domains and features a hierarchical task structure, ranging from binary classification to complex reasoning. Alongside this dataset, we establish a rigorous evaluation protocol to facilitate fair and comprehensive model assessment. Building upon this foundation, we further present MAU-GPT, a domain-adapted multimodal large model specifically designed for industrial anomaly understanding. It incorporates a novel AMoE-LoRA mechanism that unifies anomaly-aware and generalist experts adaptation, enhancing both understanding and reasoning across diverse defect classes. Extensive experiments show that MAU-GPT consistently outperforms prior state-of-the-art methods across all domains, demonstrating strong potential for scalable and automated industrial inspection.
Abstract（参考訳）: 工業生産規模が拡大するにつれ、品質管理においては、きめ細かい製品画像解析の自動化が重要になっている。しかし、既存のアプローチは、限られたデータセットカバレッジと、多種多様な複雑な異常パターンにわたるモデルの一般化によって妨げられている。これらの課題に対処するために,多種産業異常理解のための包括的データセットMAU-Setを紹介する。複数の産業ドメインにまたがり、バイナリ分類から複雑な推論まで、階層的なタスク構造が特徴である。このデータセットとともに、公平で包括的なモデルアセスメントを容易にするための厳密な評価プロトコルを確立する。この基盤の上に構築されたMAU-GPTは,産業の異常理解に特化して設計されたドメイン適応型マルチモーダル大規模モデルである。 AMoE-LoRAメカニズムは、異常認識とジェネラリストの専門家の適応を統一し、多様な欠陥クラスに対する理解と推論の両方を強化する。大規模な実験により、MAU-GPTはすべての領域にわたる最先端の手法を一貫して上回り、スケーラブルで自動化された産業検査の強い可能性を示している。

関連論文リスト

Reasoning-Driven Multimodal LLM for Domain Generalization [72.00754603114187]
DomainBed-Reasoning データセットを用いた領域一般化における推論の役割について検討する。 MTCT(Multi-Task Cross-Training)とSARR(Self-Aligned Reasoning Regularization)の2つのコンポーネントからなるフレームワークであるRD-MLDGを提案する。標準のDomainBedデータセットの実験は、RD-MLDGが補完的な最先端のパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2026-02-27T08:10:06Z)
OFA-MAS: One-for-All Multi-Agent System Topology Design based on Mixture-of-Experts Graph Generative Models [57.94189874119267]
マルチエージェントシステム(MAS)は複雑な問題を解決するための強力なパラダイムを提供する。現在のグラフ学習に基づく設計手法は、しばしば「1対1」のパラダイムに準拠している。自然言語で記述されたタスクに対して適応的な協調グラフを生成する一対一のフレームワークOFA-TADを提案する。
論文参考訳（メタデータ） (2026-01-19T12:23:44Z)
SERM: Self-Evolving Relevance Model with Agent-Driven Learning from Massive Query Streams [53.78257200138774]
本稿では,2つの相補的マルチエージェントモジュールからなる自己進化関連モデル(SERM)を提案する。我々はSERMを大規模産業環境で評価し、毎日数十億のユーザリクエストを処理している。
論文参考訳（メタデータ） (2026-01-14T14:31:16Z)
Real-IAD Variety: Pushing Industrial Anomaly Detection Dataset to a Modern Era [110.83702639978469]
Real-IAD Varietyは、160の異なる対象カテゴリにわたる198,960の高解像度画像からなる、最大かつ最も多様なIADベンチマークである。その多様性は、28の産業、24の素材タイプ、22のカラーバリエーションを包括的にカバーすることで保証されている。この重要な分野のイノベーションを促進するために、Real-IAD Varietyが公開される。
論文参考訳（メタデータ） (2025-11-01T12:58:02Z)
AnomalyMoE: Towards a Language-free Generalist Model for Unified Visual Anomaly Detection [29.06542941993374]
AnomalyMoEは、Mixture-of-Expertsアーキテクチャに基づいた、新しく普遍的な異常検出フレームワークである。我々の重要な洞察は、複雑な異常検出問題を3つの異なる意味階層に分解することである。 AnomalyMoEはパッチ、コンポーネント、グローバルレベルで3つの専用の専門家ネットワークを使用している。
論文参考訳（メタデータ） (2025-08-08T10:33:18Z)
AD-FM: Multimodal LLMs for Anomaly Detection via Multi-Stage Reasoning and Fine-Grained Reward Optimization [43.86757207244911]
2つのシナジスティックな革新を通して制限に対処する包括的フレームワークを提案する。まず、地域識別から集中検査までモデルをガイドする多段階議論的推論プロセスを導入する。第2に、分類精度と局所化監督を組み込んだ微粒化報酬機構を開発する。
論文参考訳（メタデータ） (2025-08-06T08:00:27Z)
Generate Aligned Anomaly: Region-Guided Few-Shot Anomaly Image-Mask Pair Synthesis for Industrial Inspection [53.137651284042434]
異常検査は製造業において重要な役割を担っているが、異常サンプルの不足は既存の方法の有効性を制限している。本稿では,GAA (Generate grained Anomaly) を提案する。 GAAは少数のサンプルのみを用いて現実的で多様で意味的に整合した異常を発生させる。
論文参考訳（メタデータ） (2025-07-13T12:56:59Z)
SAGE: A Visual Language Model for Anomaly Detection via Fact Enhancement and Entropy-aware Alignment [12.388954043805235]
VLM(Vision-Language Models)は、しばしば産業の異常検出と推論に苦しむ。 SAGEは、自己ガイドFact Enhancement (SFE)とEntropy-aware Direct Preference Optimization (E-DPO)を通じて、異常推論を強化するVLMベースのフレームワークである。 SAGEはゼロショットおよびワンショット設定下での産業異常データセット上での優れたパフォーマンスを示す。
論文参考訳（メタデータ） (2025-07-10T17:23:42Z)
Anomaly Detection and Generation with Diffusion Models: A Survey [51.61574868316922]
異常検出(AD)は、サイバーセキュリティ、金融、医療、工業製造など、さまざまな分野において重要な役割を担っている。近年のディープラーニング,特に拡散モデル(DM)の進歩は,大きな関心を集めている。この調査は、研究者や実践者が様々なアプリケーションにまたがる革新的なADソリューションにDMを利用することをガイドすることを目的としている。
論文参考訳（メタデータ） (2025-06-11T03:29:18Z)
AnomalyR1: A GRPO-based End-to-end MLLM for Industrial Anomaly Detection [40.34270276536052]
産業異常検出(IAD)は、欠陥サンプルの不足により深刻な課題となる。従来のアプローチは、手作りの機能やドメイン固有のエキスパートモデルによって制約されることが多いが、この制限に対処するのに苦労している。本稿では,マルチモーダル大規模言語モデル(MLLM)であるVLM-R1を活用する先駆的フレームワークであるAnomalyR1を紹介する。
論文参考訳（メタデータ） (2025-04-16T09:48:41Z)
Can Multimodal Large Language Models be Guided to Improve Industrial Anomaly Detection? [5.979778557940213]
従来の産業異常検出モデルは、しばしば柔軟性と適応性に苦しむ。 MLLM(Multimodal Large Language Models)の最近の進歩は、これらの制限を克服することを約束している。 IADのためのMLLM性能を向上させるために設計された,新しいマルチエキスパートフレームワークであるEchoを提案する。
論文参考訳（メタデータ） (2025-01-27T05:41:10Z)
Myriad: Large Multimodal Model by Applying Vision Experts for Industrial Anomaly Detection [86.24898024621008]
産業異常検出に視覚専門家を適用した新しい大規模マルチモーダルモデルを提案する(略してMyriad)。我々は,視覚専門家が生成する異常マップをLMMのガイダンスとして利用し,視覚モデルが異常領域により多くの注意を払うように誘導する。提案手法は最先端の手法に対して良好に機能するだけでなく,IAD分野におけるLMMの柔軟性や命令追従性を継承する。
論文参考訳（メタデータ） (2023-10-29T16:49:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。