論文の概要: ZSG-IAD: A Multimodal Framework for Zero-Shot Grounded Industrial Anomaly Detection
- arxiv url: http://arxiv.org/abs/2604.17949v1
- Date: Mon, 20 Apr 2026 08:30:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.765921
- Title: ZSG-IAD: A Multimodal Framework for Zero-Shot Grounded Industrial Anomaly Detection
- Title(参考訳): ZSG-IAD:ゼロショット接地産業異常検出のためのマルチモーダルフレームワーク
- Authors: Qiuhui Chen, Jiaxiang Song, Shuai Tan, Weimin Zhong,
- Abstract要約: ZSG-IADはゼロショットの産業異常検出のためのフレームワークである。
構造化された異常レポートとピクセルレベルの異常マスクを生成する。
信頼性の高い産業異常検知システムに関する今後の研究を支援するためのコードとアノテーションをリリースする。
- 参考スコア(独自算出の注目度): 14.275030421757867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning-based industrial anomaly detectors often behave as black boxes, making it hard to justify decisions with physically meaningful defect evidence. We propose ZSG-IAD, a multimodal vision-language framework for zero-shot grounded industrial anomaly detection. Given RGB images, sensor images, and 3D point clouds, ZSG-IAD generates structured anomaly reports and pixel-level anomaly masks. ZSG-IAD introduces a language-guided two-hop grounding module: (1) anomaly-related sentences select evidence-like latent slots distilled from multimodal features, yielding coarse spatial support; (2) selected slots modulate feature maps via channel-spatial gating and a lightweight decoder to produce fine-grained masks. To improve reliability, we further apply Executable-Rule GRPO with verifiable rewards to promote structured outputs, anomaly-region consistency, and reasoning-conclusion coherence. Experiments across multiple industrial anomaly benchmarks show strong zero-shot performance and more transparent, physically grounded explanations than prior methods. We will release code and annotations to support future research on trustworthy industrial anomaly detection systems.
- Abstract(参考訳): 深層学習に基づく産業異常検知器は、しばしばブラックボックスとして振る舞うため、物理的に意味のある欠陥証拠で決定を正当化することは困難である。
ゼロショット接地産業異常検出のための多モード視覚言語フレームワークZSG-IADを提案する。
RGB画像、センサー画像、および3Dポイントクラウドが与えられた場合、ZSG-IADは構造化された異常レポートとピクセルレベルの異常マスクを生成する。
ZSG-IADは,(1)多モーダルな特徴から抽出されたエビデンスのような潜伏スロットを選択し,粗い空間的支持を与える,(2)チャネル空間的ゲーティングによる特徴マップを変調する,および,より軽量なデコーダにより,きめ細かなマスクを生成させる,言語誘導二脚接地モジュールを導入する。
信頼性を向上させるために,提案手法を検証可能な報奨付き実行可能ルールGRPOを適用し,構造的出力,異常領域の整合性,推論と結論の整合性を向上する。
複数の産業異常ベンチマークによる実験では、従来の方法よりも強いゼロショット性能と、より透明で物理的に基礎的な説明が示されている。
信頼性の高い産業異常検知システムに関する今後の研究を支援するためのコードとアノテーションをリリースする。
関連論文リスト
- Reason-IAD: Knowledge-Guided Dynamic Latent Reasoning for Explainable Industrial Anomaly Detection [85.29900916231655]
Reason-IADは、説明可能な産業異常検出のための知識誘導型動的潜在推論フレームワークである。
実験により、Reason-IADは最先端の手法よりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2026-02-10T14:54:17Z) - Unified Unsupervised Anomaly Detection via Matching Cost Filtering [113.43366521994396]
教師なし異常検出(UAD)は、通常のトレーニングデータのみを用いて画像レベルの異常と画素レベルの異常を識別することを目的としている。
UADモデルの異常コスト量を補正するための汎用的なポストホック精錬フレームワークであるUnified Cost Filtering (UCF) を提案する。
論文 参考訳(メタデータ) (2025-10-03T03:28:18Z) - Dual-path Frequency Discriminators for Few-shot Anomaly Detection [12.956761809902167]
本稿では、これらの問題に対処するために、周波数観点からDual-Path Frequency Discriminator (DFD)ネットワークを提案する。
識別者は擬似アノマリーの形で共同表現を学ぶ。
MVTec AD と VisA ベンチマークで行った実験では、DFD が現在の最先端手法を超越していることが示されている。
論文 参考訳(メタデータ) (2024-03-07T02:17:59Z) - Myriad: Large Multimodal Model by Applying Vision Experts for Industrial Anomaly Detection [86.24898024621008]
産業異常検出に視覚専門家を適用した新しい大規模マルチモーダルモデルを提案する(略してMyriad)。
我々は,視覚専門家が生成する異常マップをLMMのガイダンスとして利用し,視覚モデルが異常領域により多くの注意を払うように誘導する。
提案手法は最先端の手法に対して良好に機能するだけでなく,IAD分野におけるLMMの柔軟性や命令追従性を継承する。
論文 参考訳(メタデータ) (2023-10-29T16:49:45Z) - Multimodal Industrial Anomaly Detection via Hybrid Fusion [59.16333340582885]
ハイブリッド核融合方式を用いた新しいマルチモーダル異常検出法を提案する。
本モデルでは,MVTecD-3 ADデータセットにおける検出精度とセグメンテーション精度の両面で,最先端(SOTA)手法より優れている。
論文 参考訳(メタデータ) (2023-03-01T15:48:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。