論文の概要: AnomalyR1: A GRPO-based End-to-end MLLM for Industrial Anomaly Detection
- arxiv url: http://arxiv.org/abs/2504.11914v1
- Date: Wed, 16 Apr 2025 09:48:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-24 20:46:59.926278
- Title: AnomalyR1: A GRPO-based End-to-end MLLM for Industrial Anomaly Detection
- Title(参考訳): AnomalyR1:産業用異常検出のためのGRPOベースのエンドツーエンドMLLM
- Authors: Yuhao Chao, Jie Liu, Jie Tang, Gangshan Wu,
- Abstract要約: 産業異常検出(IAD)は、欠陥サンプルの不足により深刻な課題となる。
従来のアプローチは、手作りの機能やドメイン固有のエキスパートモデルによって制約されることが多いが、この制限に対処するのに苦労している。
本稿では,マルチモーダル大規模言語モデル(MLLM)であるVLM-R1を活用する先駆的フレームワークであるAnomalyR1を紹介する。
- 参考スコア(独自算出の注目度): 40.34270276536052
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Industrial Anomaly Detection (IAD) poses a formidable challenge due to the scarcity of defective samples, making it imperative to deploy models capable of robust generalization to detect unseen anomalies effectively. Traditional approaches, often constrained by hand-crafted features or domain-specific expert models, struggle to address this limitation, underscoring the need for a paradigm shift. We introduce AnomalyR1, a pioneering framework that leverages VLM-R1, a Multimodal Large Language Model (MLLM) renowned for its exceptional generalization and interpretability, to revolutionize IAD. By integrating MLLM with Group Relative Policy Optimization (GRPO), enhanced by our novel Reasoned Outcome Alignment Metric (ROAM), AnomalyR1 achieves a fully end-to-end solution that autonomously processes inputs of image and domain knowledge, reasons through analysis, and generates precise anomaly localizations and masks. Based on the latest multimodal IAD benchmark, our compact 3-billion-parameter model outperforms existing methods, establishing state-of-the-art results. As MLLM capabilities continue to advance, this study is the first to deliver an end-to-end VLM-based IAD solution that demonstrates the transformative potential of ROAM-enhanced GRPO, positioning our framework as a forward-looking cornerstone for next-generation intelligent anomaly detection systems in industrial applications with limited defective data.
- Abstract(参考訳): 産業異常検出(Industrial Anomaly Detection, IAD)は、欠陥サンプルの不足により深刻な課題となり、堅牢な一般化が可能なモデルをデプロイして、目に見えない異常を効果的に検出することが不可欠である。
従来のアプローチは、手作りの機能やドメイン固有のエキスパートモデルによって制約されることが多いが、この制限に対処するのに苦労し、パラダイムシフトの必要性を強調している。
我々は,その例外的な一般化と解釈可能性で有名なMLLM(Multimodal Large Language Model)であるVLM-R1を活用する先駆的フレームワークであるAnomalyR1を紹介し,IADに革命をもたらす。
AnomalyR1はMLLMとグループ相対ポリシー最適化(GRPO)を統合することで、画像およびドメイン知識の入力を自律的に処理し、解析を通じて理由を判断し、正確な局所化とマスクを生成する完全エンドツーエンドのソリューションを実現する。
最新のマルチモーダルIADベンチマークに基づいて、我々のコンパクトな3ビリオンパラメータモデルは既存の手法よりも優れており、最先端の結果が確立されている。
MLLMの能力が向上するにつれて、この研究は、ROAM強化GRPOの変換可能性を示す、エンドツーエンドのVLMベースのIADソリューションを初めて提供し、我々のフレームワークを、限られた欠陥データを持つ産業アプリケーションにおける次世代の知的異常検出システムの先進的な基盤として位置づける。
関連論文リスト
- LR-IAD:Mask-Free Industrial Anomaly Detection with Logical Reasoning [1.3124513975412255]
産業異常検出(IAD)は欠陥を特定することで製品品質を確保するために重要である。
既存の視覚言語モデル(VLM)とMLLM(Multimodal Large Language Models)はいくつかの制限に対処するが、マスクアノテーションに依存している。
授業の不均衡に対処するために,授業中に稀な欠陥パターンを動的に優先順位付けする報酬関数を提案する。
論文 参考訳(メタデータ) (2025-04-28T06:52:35Z) - Triad: Empowering LMM-based Anomaly Detection with Vision Expert-guided Visual Tokenizer and Manufacturing Process [67.99194145865165]
LLaVAモデルのAnyRes構造を変更し、既存のIADモデルによって同定された潜在的な異常領域をLMMに提供します。
欠陥の発生が製造プロセスと密接に関連していることを考えると,製造駆動型IADパラダイムを提案する。
本稿では、エキスパート誘導型領域トークン化と製造プロセスを組み合わせたLMMに基づく新しい手法であるTriadを提案する。
論文 参考訳(メタデータ) (2025-03-17T13:56:57Z) - RAAD-LLM: Adaptive Anomaly Detection Using LLMs and RAG Integration [2.879328762187361]
本稿では,適応型異常検出のための新しいフレームワークであるRAAD-LLMを提案する。
ドメイン固有の知識を効果的に活用することにより、RAAD-LLMは時系列データにおける異常の検出を強化する。
実際のデータセットでは,70.7%から88.6%に精度が向上した。
論文 参考訳(メタデータ) (2025-03-04T17:20:43Z) - RADAR: Robust Two-stage Modality-incomplete Industrial Anomaly Detection [61.71770293720491]
本稿では,2段階のロバスト・モードアリティ不完全融合とFlaAmewoRkの検出について提案する。
我々のブートストラッピング哲学は、MIIADの2段階を強化し、マルチモーダルトランスの堅牢性を向上させることである。
実験の結果,提案手法は従来のMIAD法よりも有効性とロバスト性に優れていた。
論文 参考訳(メタデータ) (2024-10-02T16:47:55Z) - VMAD: Visual-enhanced Multimodal Large Language Model for Zero-Shot Anomaly Detection [19.79027968793026]
Zero-shot Anomaly Detection (ZSAD)は、未確認のオブジェクト内の異常を認識し、ローカライズする。
既存のZSADメソッドは、クローズドワールド設定によって制限され、事前に定義されたプロンプトで見つからない欠陥に苦労する。
我々は、視覚的IAD知識ときめ細かい知覚でMLLMを強化する新しいフレームワークVMAD(Visual-enhanced MLLM Anomaly Detection)を提案する。
論文 参考訳(メタデータ) (2024-09-30T09:51:29Z) - Large Multi-Modal Models (LMMs) as Universal Foundation Models for
AI-Native Wireless Systems [57.41621687431203]
大規模言語モデル (LLM) と基礎モデルは6Gシステムのゲームチェンジャーとして最近注目されている。
本稿では,人工知能(AI)ネイティブネットワークの展開に適したユニバーサルファンデーションモデルを設計するための包括的ビジョンを提案する。
論文 参考訳(メタデータ) (2024-01-30T00:21:41Z) - Myriad: Large Multimodal Model by Applying Vision Experts for Industrial Anomaly Detection [86.24898024621008]
産業異常検出に視覚専門家を適用した新しい大規模マルチモーダルモデルを提案する(略してMyriad)。
我々は,視覚専門家が生成する異常マップをLMMのガイダンスとして利用し,視覚モデルが異常領域により多くの注意を払うように誘導する。
提案手法は最先端の手法に対して良好に機能するだけでなく,IAD分野におけるLMMの柔軟性や命令追従性を継承する。
論文 参考訳(メタデータ) (2023-10-29T16:49:45Z) - Multi-Agent Reinforcement Learning for Adaptive Mesh Refinement [17.72127385405445]
完全協調型マルコフゲームとしてアダプティブメッシュリファインメント(AMR)の新たな定式化を提案する。
VDGN(Value Decomposition Graph Network)と呼ばれる新しい深層マルチエージェント強化学習アルゴリズムを設計する。
VDGNポリシは,グローバルエラーおよびコスト指標において,エラーしきい値に基づくポリシよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2022-11-02T00:41:32Z) - Relational Reasoning via Set Transformers: Provable Efficiency and
Applications to MARL [154.13105285663656]
置換不変エージェントフレームワークを用いたMARL(Multi-A gent R einforcement Learning)は,実世界のアプリケーションにおいて大きな実証的成功を収めた。
残念なことに、このMARL問題の理論的理解は、多くのエージェントの呪いと、既存の著作における関係推論の限定的な探索によって欠落している。
モデルフリーアルゴリズムとモデルベースアルゴリズムの最適度差は各エージェント数に独立して対数的であり、多くのエージェントの呪いを和らげる。
論文 参考訳(メタデータ) (2022-09-20T16:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。