論文の概要: OmniAD: Detect and Understand Industrial Anomaly via Multimodal Reasoning
- arxiv url: http://arxiv.org/abs/2505.22039v1
- Date: Wed, 28 May 2025 07:02:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.459568
- Title: OmniAD: Detect and Understand Industrial Anomaly via Multimodal Reasoning
- Title(参考訳): OmniAD:マルチモーダル推論による産業異常の検出と理解
- Authors: Shifang Zhao, Yiheng Lin, Lu Han, Yao Zhao, Yunchao Wei,
- Abstract要約: 我々は,微粒化解析のための異常検出と理解を統一するフレームワークであるOmniADを紹介した。
ビジュアル推論は、Text-as-Maskを活用することで詳細なインスペクションを提供する。
Visual Guided Textual Reasoningは、視覚知覚を統合することで包括的な分析を行う。
- 参考スコア(独自算出の注目度): 76.90511414963265
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While anomaly detection has made significant progress, generating detailed analyses that incorporate industrial knowledge remains a challenge. To address this gap, we introduce OmniAD, a novel framework that unifies anomaly detection and understanding for fine-grained analysis. OmniAD is a multimodal reasoner that combines visual and textual reasoning processes. The visual reasoning provides detailed inspection by leveraging Text-as-Mask Encoding to perform anomaly detection through text generation without manually selected thresholds. Following this, Visual Guided Textual Reasoning conducts comprehensive analysis by integrating visual perception. To enhance few-shot generalization, we employ an integrated training strategy that combines supervised fine-tuning (SFT) with reinforcement learning (GRPO), incorporating three sophisticated reward functions. Experimental results demonstrate that OmniAD achieves a performance of 79.1 on the MMAD benchmark, surpassing models such as Qwen2.5-VL-7B and GPT-4o. It also shows strong results across multiple anomaly detection benchmarks. These results highlight the importance of enhancing visual perception for effective reasoning in anomaly understanding. All codes and models will be publicly available.
- Abstract(参考訳): 異常検出は大きな進歩を遂げているが、産業知識を組み込んだ詳細な分析は依然として課題である。
このギャップに対処するために、我々はOmniADという、微細な分析のための異常検出と理解を統一する新しいフレームワークを紹介します。
OmniADは、視覚的およびテキスト的推論プロセスを組み合わせたマルチモーダル推論である。
視覚的推論は、テキスト・アズ・マスク・エンコーディングを利用して、手動で選択したしきい値なしでテキスト生成による異常検出を行う。
これに続いて、ビジュアルガイドテクスチュアル推論は、視覚的知覚を統合することで包括的な分析を行う。
そこで我々は,教師付き微調整(SFT)と強化学習(GRPO)を組み合わせて,3つの高度な報酬関数を組み込んだ総合的な学習戦略を採用した。
実験の結果,OmniAD は Qwen2.5-VL-7B や GPT-4o を上回り,MMAD ベンチマークで 79.1 の性能を達成した。
また、複数の異常検出ベンチマークで強い結果を示す。
これらの結果は、異常理解における効果的な推論のための視覚知覚の向上の重要性を強調している。
すべてのコードとモデルは公開されます。
関連論文リスト
- VMAD: Visual-enhanced Multimodal Large Language Model for Zero-Shot Anomaly Detection [19.79027968793026]
Zero-shot Anomaly Detection (ZSAD)は、未確認のオブジェクト内の異常を認識し、ローカライズする。
既存のZSADメソッドは、クローズドワールド設定によって制限され、事前に定義されたプロンプトで見つからない欠陥に苦労する。
我々は、視覚的IAD知識ときめ細かい知覚でMLLMを強化する新しいフレームワークVMAD(Visual-enhanced MLLM Anomaly Detection)を提案する。
論文 参考訳(メタデータ) (2024-09-30T09:51:29Z) - A Comprehensive Library for Benchmarking Multi-class Visual Anomaly Detection [52.228708947607636]
本稿では,新しい手法のモジュラーフレームワークであるADerを包括的視覚異常検出ベンチマークとして紹介する。
このベンチマークには、産業ドメインと医療ドメインからの複数のデータセットが含まれており、15の最先端メソッドと9つの包括的なメトリクスを実装している。
我々は,異なる手法の長所と短所を客観的に明らかにし,多クラス視覚異常検出の課題と今後の方向性について考察する。
論文 参考訳(メタデータ) (2024-06-05T13:40:07Z) - SCL-VI: Self-supervised Context Learning for Visual Inspection of
Industrial Defects [4.487908181569429]
本稿では,有名なジグソーパズルに取り組むことで,最適なエンコーダを導出する自己教師型学習アルゴリズムを提案する。
提案手法では, 対象画像を9つのパッチに分割し, エンコーダに2つのパッチ間の相対的な位置関係を予測して, リッチなセマンティクスを抽出する。
論文 参考訳(メタデータ) (2023-11-11T08:01:40Z) - Myriad: Large Multimodal Model by Applying Vision Experts for Industrial Anomaly Detection [86.24898024621008]
産業異常検出に視覚専門家を適用した新しい大規模マルチモーダルモデルを提案する(略してMyriad)。
我々は,視覚専門家が生成する異常マップをLMMのガイダンスとして利用し,視覚モデルが異常領域により多くの注意を払うように誘導する。
提案手法は最先端の手法に対して良好に機能するだけでなく,IAD分野におけるLMMの柔軟性や命令追従性を継承する。
論文 参考訳(メタデータ) (2023-10-29T16:49:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。