論文の概要: AnomalyR1: A GRPO-based End-to-end MLLM for Industrial Anomaly Detection
- arxiv url: http://arxiv.org/abs/2504.11914v1
- Date: Wed, 16 Apr 2025 09:48:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 14:39:35.422256
- Title: AnomalyR1: A GRPO-based End-to-end MLLM for Industrial Anomaly Detection
- Title(参考訳): AnomalyR1:産業用異常検出のためのGRPOベースのエンドツーエンドMLLM
- Authors: Yuhao Chao, Jie Liu, Jie Tang, Gangshan Wu,
- Abstract要約: 産業異常検出(IAD)は、欠陥サンプルの不足により深刻な課題となる。
従来のアプローチは、手作りの機能やドメイン固有のエキスパートモデルによって制約されることが多いが、この制限に対処するのに苦労している。
本稿では,マルチモーダル大規模言語モデル(MLLM)であるVLM-R1を活用する先駆的フレームワークであるAnomalyR1を紹介する。
- 参考スコア(独自算出の注目度): 40.34270276536052
- License:
- Abstract: Industrial Anomaly Detection (IAD) poses a formidable challenge due to the scarcity of defective samples, making it imperative to deploy models capable of robust generalization to detect unseen anomalies effectively. Traditional approaches, often constrained by hand-crafted features or domain-specific expert models, struggle to address this limitation, underscoring the need for a paradigm shift. We introduce AnomalyR1, a pioneering framework that leverages VLM-R1, a Multimodal Large Language Model (MLLM) renowned for its exceptional generalization and interpretability, to revolutionize IAD. By integrating MLLM with Group Relative Policy Optimization (GRPO), enhanced by our novel Reasoned Outcome Alignment Metric (ROAM), AnomalyR1 achieves a fully end-to-end solution that autonomously processes inputs of image and domain knowledge, reasons through analysis, and generates precise anomaly localizations and masks. Based on the latest multimodal IAD benchmark, our compact 3-billion-parameter model outperforms existing methods, establishing state-of-the-art results. As MLLM capabilities continue to advance, this study is the first to deliver an end-to-end VLM-based IAD solution that demonstrates the transformative potential of ROAM-enhanced GRPO, positioning our framework as a forward-looking cornerstone for next-generation intelligent anomaly detection systems in industrial applications with limited defective data.
- Abstract(参考訳): 産業異常検出(Industrial Anomaly Detection, IAD)は、欠陥サンプルの不足により深刻な課題となり、堅牢な一般化が可能なモデルをデプロイして、目に見えない異常を効果的に検出することが不可欠である。
従来のアプローチは、手作りの機能やドメイン固有のエキスパートモデルによって制約されることが多いが、この制限に対処するのに苦労し、パラダイムシフトの必要性を強調している。
我々は,その例外的な一般化と解釈可能性で有名なMLLM(Multimodal Large Language Model)であるVLM-R1を活用する先駆的フレームワークであるAnomalyR1を紹介し,IADに革命をもたらす。
AnomalyR1はMLLMとグループ相対ポリシー最適化(GRPO)を統合することで、画像およびドメイン知識の入力を自律的に処理し、解析を通じて理由を判断し、正確な局所化とマスクを生成する完全エンドツーエンドのソリューションを実現する。
最新のマルチモーダルIADベンチマークに基づいて、我々のコンパクトな3ビリオンパラメータモデルは既存の手法よりも優れており、最先端の結果が確立されている。
MLLMの能力が向上するにつれて、この研究は、ROAM強化GRPOの変換可能性を示す、エンドツーエンドのVLMベースのIADソリューションを初めて提供し、我々のフレームワークを、限られた欠陥データを持つ産業アプリケーションにおける次世代の知的異常検出システムの先進的な基盤として位置づける。
関連論文リスト
- AAD-LLM: Adaptive Anomaly Detection Using Large Language Models [35.286105732902065]
本研究は,Large Language Models (LLMs) を利用した異常検出モデルの伝達性の向上を目的とする。
この研究はまた、モデルとプラントオペレーターの間でより協調的な意思決定を可能にすることを目指している。
論文 参考訳(メタデータ) (2024-11-01T13:43:28Z) - RADAR: Robust Two-stage Modality-incomplete Industrial Anomaly Detection [61.71770293720491]
本稿では,2段階のロバスト・モードアリティ不完全融合とFlaAmewoRkの検出について提案する。
我々のブートストラッピング哲学は、MIIADの2段階を強化し、マルチモーダルトランスの堅牢性を向上させることである。
実験の結果,提案手法は従来のMIAD法よりも有効性とロバスト性に優れていた。
論文 参考訳(メタデータ) (2024-10-02T16:47:55Z) - VMAD: Visual-enhanced Multimodal Large Language Model for Zero-Shot Anomaly Detection [19.79027968793026]
Zero-shot Anomaly Detection (ZSAD)は、未確認のオブジェクト内の異常を認識し、ローカライズする。
既存のZSADメソッドは、クローズドワールド設定によって制限され、事前に定義されたプロンプトで見つからない欠陥に苦労する。
我々は、視覚的IAD知識ときめ細かい知覚でMLLMを強化する新しいフレームワークVMAD(Visual-enhanced MLLM Anomaly Detection)を提案する。
論文 参考訳(メタデータ) (2024-09-30T09:51:29Z) - Unveiling LLM Mechanisms Through Neural ODEs and Control Theory [4.084134914321567]
本稿では,ニューラル正規微分方程式(Neural ODE)とロバスト制御理論を組み合わせて,大規模言語モデル(LLM)の解釈可能性と制御性を高める枠組みを提案する。
実験結果から、ニューラルODEと制御理論の統合は出力の一貫性とモデルの解釈可能性を大幅に向上させ、説明可能なAI技術の開発を前進させることが示された。
論文 参考訳(メタデータ) (2024-06-23T22:56:34Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Large Multi-Modal Models (LMMs) as Universal Foundation Models for
AI-Native Wireless Systems [57.41621687431203]
大規模言語モデル (LLM) と基礎モデルは6Gシステムのゲームチェンジャーとして最近注目されている。
本稿では,人工知能(AI)ネイティブネットワークの展開に適したユニバーサルファンデーションモデルを設計するための包括的ビジョンを提案する。
論文 参考訳(メタデータ) (2024-01-30T00:21:41Z) - Myriad: Large Multimodal Model by Applying Vision Experts for Industrial Anomaly Detection [86.24898024621008]
産業異常検出に視覚専門家を適用した新しい大規模マルチモーダルモデルを提案する(略してMyriad)。
我々は,視覚専門家が生成する異常マップをLMMのガイダンスとして利用し,視覚モデルが異常領域により多くの注意を払うように誘導する。
提案手法は最先端の手法に対して良好に機能するだけでなく,IAD分野におけるLMMの柔軟性や命令追従性を継承する。
論文 参考訳(メタデータ) (2023-10-29T16:49:45Z) - Multi-Agent Reinforcement Learning for Adaptive Mesh Refinement [17.72127385405445]
完全協調型マルコフゲームとしてアダプティブメッシュリファインメント(AMR)の新たな定式化を提案する。
VDGN(Value Decomposition Graph Network)と呼ばれる新しい深層マルチエージェント強化学習アルゴリズムを設計する。
VDGNポリシは,グローバルエラーおよびコスト指標において,エラーしきい値に基づくポリシよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2022-11-02T00:41:32Z) - Relational Reasoning via Set Transformers: Provable Efficiency and
Applications to MARL [154.13105285663656]
置換不変エージェントフレームワークを用いたMARL(Multi-A gent R einforcement Learning)は,実世界のアプリケーションにおいて大きな実証的成功を収めた。
残念なことに、このMARL問題の理論的理解は、多くのエージェントの呪いと、既存の著作における関係推論の限定的な探索によって欠落している。
モデルフリーアルゴリズムとモデルベースアルゴリズムの最適度差は各エージェント数に独立して対数的であり、多くのエージェントの呪いを和らげる。
論文 参考訳(メタデータ) (2022-09-20T16:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。