Fugu-MT 論文翻訳(概要): OmniAD: Detect and Understand Industrial Anomaly via Multimodal Reasoning

論文の概要: OmniAD: Detect and Understand Industrial Anomaly via Multimodal Reasoning

arxiv url: http://arxiv.org/abs/2505.22039v1
Date: Wed, 28 May 2025 07:02:15 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-29 17:35:50.459568
Title: OmniAD: Detect and Understand Industrial Anomaly via Multimodal Reasoning
Title（参考訳）: OmniAD:マルチモーダル推論による産業異常の検出と理解
Authors: Shifang Zhao, Yiheng Lin, Lu Han, Yao Zhao, Yunchao Wei,
Abstract要約: 我々は,微粒化解析のための異常検出と理解を統一するフレームワークであるOmniADを紹介した。ビジュアル推論は、Text-as-Maskを活用することで詳細なインスペクションを提供する。 Visual Guided Textual Reasoningは、視覚知覚を統合することで包括的な分析を行う。
参考スコア（独自算出の注目度）: 76.90511414963265
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While anomaly detection has made significant progress, generating detailed analyses that incorporate industrial knowledge remains a challenge. To address this gap, we introduce OmniAD, a novel framework that unifies anomaly detection and understanding for fine-grained analysis. OmniAD is a multimodal reasoner that combines visual and textual reasoning processes. The visual reasoning provides detailed inspection by leveraging Text-as-Mask Encoding to perform anomaly detection through text generation without manually selected thresholds. Following this, Visual Guided Textual Reasoning conducts comprehensive analysis by integrating visual perception. To enhance few-shot generalization, we employ an integrated training strategy that combines supervised fine-tuning (SFT) with reinforcement learning (GRPO), incorporating three sophisticated reward functions. Experimental results demonstrate that OmniAD achieves a performance of 79.1 on the MMAD benchmark, surpassing models such as Qwen2.5-VL-7B and GPT-4o. It also shows strong results across multiple anomaly detection benchmarks. These results highlight the importance of enhancing visual perception for effective reasoning in anomaly understanding. All codes and models will be publicly available.
Abstract（参考訳）: 異常検出は大きな進歩を遂げているが、産業知識を組み込んだ詳細な分析は依然として課題である。このギャップに対処するために、我々はOmniADという、微細な分析のための異常検出と理解を統一する新しいフレームワークを紹介します。 OmniADは、視覚的およびテキスト的推論プロセスを組み合わせたマルチモーダル推論である。視覚的推論は、テキスト・アズ・マスク・エンコーディングを利用して、手動で選択したしきい値なしでテキスト生成による異常検出を行う。これに続いて、ビジュアルガイドテクスチュアル推論は、視覚的知覚を統合することで包括的な分析を行う。そこで我々は,教師付き微調整(SFT)と強化学習(GRPO)を組み合わせて,3つの高度な報酬関数を組み込んだ総合的な学習戦略を採用した。実験の結果,OmniAD は Qwen2.5-VL-7B や GPT-4o を上回り,MMAD ベンチマークで 79.1 の性能を達成した。また、複数の異常検出ベンチマークで強い結果を示す。これらの結果は、異常理解における効果的な推論のための視覚知覚の向上の重要性を強調している。すべてのコードとモデルは公開されます。

関連論文リスト

ADSeeker: A Knowledge-Infused Framework for Anomaly Detection and Reasoning [17.249025173985697]
本稿では,知識基底推論による検査性能向上を目的とした異常タスクアシスタントであるADSeekerを提案する。業界異常検出(IAD)データの制限に対処するため,最大規模のADデータセットであるMulA(Multi-type Anomaly)を導入する。我々のプラグイン・アンド・プレイフレームワークであるADSeekerは、いくつかのベンチマークデータセットで最先端のゼロショット性能を実現しています。
論文参考訳（メタデータ） (2025-08-05T05:05:06Z)
AIGI-Holmes: Towards Explainable and Generalizable AI-Generated Image Detection via Multimodal Large Language Models [78.08374249341514]
AI生成コンテンツ(AIGC)の急速な発展は、誤情報を拡散するAIGIの誤用につながった。大規模で包括的なデータセットであるHolmes-Setを導入し、画像がAI生成されているかどうかを解説したインストラクションチューニングデータセットを含む。本研究は,MLLMの構造化説明と品質管理によるデータ生成を効率化する,Multi-Expert Juryと呼ばれる効率的なデータアノテーション手法を提案する。さらに,視覚専門家による事前学習,教師付き微調整,直接選好最適化を含む3段階学習フレームワークであるHolmes Pipelineを提案する。
論文参考訳（メタデータ） (2025-07-03T14:26:31Z)
Towards Zero-Shot Anomaly Detection and Reasoning with Multimodal Large Language Models [29.078437003042357]
Zero-Shot Anomaly Detection (ZSAD)はADパラダイムである。本稿では,ZSAD と推論のための視覚アシスタントである Anomaly-OneVision (Anomaly-OV) を提案する。
論文参考訳（メタデータ） (2025-02-11T14:50:43Z)
LogicAD: Explainable Anomaly Detection via VLM-based Text Feature Extraction [4.959108380494595]
自動回帰マルチモーダル視覚言語モデル(AVLM)は、視覚的推論における異常なパフォーマンスのために、将来的な代替手段を提供する。本研究では,AVLMを用いて論理的異常検出を行い,その課題に適していることを示す。我々は、AUROCが86.4%、F1-maxが83.7%の公開ベンチマークであるMVTec LOCO ADにおいて、異常の説明とともにSOTA性能を達成する。
論文参考訳（メタデータ） (2025-01-03T11:40:41Z)
ForgerySleuth: Empowering Multimodal Large Language Models for Image Manipulation Detection [107.86009509291581]
我々はForgerySleuthを提案し、包括的ヒント融合を行い、改ざんされた領域を示すセグメンテーション出力を生成する。 ForgeryAnalysisの有効性を実証し,ForgerySleuthが既存手法の堅牢性,一般化性,説明可能性において著しく優れていたことを示す。
論文参考訳（メタデータ） (2024-11-29T04:35:18Z)
VMAD: Visual-enhanced Multimodal Large Language Model for Zero-Shot Anomaly Detection [19.79027968793026]
Zero-shot Anomaly Detection (ZSAD)は、未確認のオブジェクト内の異常を認識し、ローカライズする。既存のZSADメソッドは、クローズドワールド設定によって制限され、事前に定義されたプロンプトで見つからない欠陥に苦労する。我々は、視覚的IAD知識ときめ細かい知覚でMLLMを強化する新しいフレームワークVMAD(Visual-enhanced MLLM Anomaly Detection)を提案する。
論文参考訳（メタデータ） (2024-09-30T09:51:29Z)
A Comprehensive Library for Benchmarking Multi-class Visual Anomaly Detection [52.228708947607636]
本稿では,新しい手法のモジュラーフレームワークであるADerを包括的視覚異常検出ベンチマークとして紹介する。このベンチマークには、産業ドメインと医療ドメインからの複数のデータセットが含まれており、15の最先端メソッドと9つの包括的なメトリクスを実装している。我々は,異なる手法の長所と短所を客観的に明らかにし,多クラス視覚異常検出の課題と今後の方向性について考察する。
論文参考訳（メタデータ） (2024-06-05T13:40:07Z)
SCL-VI: Self-supervised Context Learning for Visual Inspection of Industrial Defects [4.487908181569429]
本稿では,有名なジグソーパズルに取り組むことで,最適なエンコーダを導出する自己教師型学習アルゴリズムを提案する。提案手法では, 対象画像を9つのパッチに分割し, エンコーダに2つのパッチ間の相対的な位置関係を予測して, リッチなセマンティクスを抽出する。
論文参考訳（メタデータ） (2023-11-11T08:01:40Z)
Myriad: Large Multimodal Model by Applying Vision Experts for Industrial Anomaly Detection [86.24898024621008]
産業異常検出に視覚専門家を適用した新しい大規模マルチモーダルモデルを提案する(略してMyriad)。我々は,視覚専門家が生成する異常マップをLMMのガイダンスとして利用し,視覚モデルが異常領域により多くの注意を払うように誘導する。提案手法は最先端の手法に対して良好に機能するだけでなく,IAD分野におけるLMMの柔軟性や命令追従性を継承する。
論文参考訳（メタデータ） (2023-10-29T16:49:45Z)
Exploiting Modality-Specific Features For Multi-Modal Manipulation Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文参考訳（メタデータ） (2023-09-22T06:55:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。