論文の概要: Reason-IAD: Knowledge-Guided Dynamic Latent Reasoning for Explainable Industrial Anomaly Detection
- arxiv url: http://arxiv.org/abs/2602.09850v1
- Date: Tue, 10 Feb 2026 14:54:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.617196
- Title: Reason-IAD: Knowledge-Guided Dynamic Latent Reasoning for Explainable Industrial Anomaly Detection
- Title(参考訳): Reason-IAD: 説明可能な産業異常検出のための知識誘導動的潜時推論
- Authors: Peng Chen, Chao Huang, Yunkang Cao, Chengliang Liu, Wenqiang Wang, Mingbo Yang, Li Shen, Wenqi Ren, Xiaochun Cao,
- Abstract要約: Reason-IADは、説明可能な産業異常検出のための知識誘導型動的潜在推論フレームワークである。
実験により、Reason-IADは最先端の手法よりも一貫して優れていることが示された。
- 参考スコア(独自算出の注目度): 85.29900916231655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Industrial anomaly detection demands precise reasoning over fine-grained defect patterns. However, existing multimodal large language models (MLLMs), pretrained on general-domain data, often struggle to capture category-specific anomalies, thereby limiting both detection accuracy and interpretability. To address these limitations, we propose Reason-IAD, a knowledge-guided dynamic latent reasoning framework for explainable industrial anomaly detection. Reason-IAD comprises two core components. First, a retrieval-augmented knowledge module incorporates category-specific textual descriptions into the model input, enabling context-aware reasoning over domain-specific defects. Second, an entropy-driven latent reasoning mechanism conducts iterative exploration within a compact latent space using optimizable latent think tokens, guided by an entropy-based reward that encourages confident and stable predictions. Furthermore, a dynamic visual injection strategy selectively incorporates the most informative image patches into the latent sequence, directing the reasoning process toward regions critical for anomaly detection. Extensive experimental results demonstrate that Reason-IAD consistently outperforms state-of-the-art methods. The code will be publicly available at https://github.com/chenpeng052/Reason-IAD.
- Abstract(参考訳): 工業的異常検出はきめ細かい欠陥パターンの正確な推論を要求する。
しかし、一般的なドメインデータに基づいて事前訓練された既存のマルチモーダル大言語モデル(MLLM)は、しばしばカテゴリ固有の異常を捉え、検出精度と解釈可能性の両方を制限するのに苦労する。
これらの制約に対処するため,産業異常検出のための知識誘導型動的潜在推論フレームワークReason-IADを提案する。
Reason-IADは2つのコアコンポーネントから構成される。
まず、検索強化知識モジュールは、カテゴリ固有のテキスト記述をモデル入力に組み込んで、ドメイン固有の欠陥に対するコンテキスト認識推論を可能にする。
第二に、エントロピー駆動の潜在推論機構は、自信と安定な予測を促進するエントロピーに基づく報酬によって導かれる最適化可能な潜在思考トークンを用いて、コンパクトな潜在空間内で反復的な探索を行う。
さらに、動的ビジュアルインジェクション戦略は、最も情報性の高い画像パッチを遅延シーケンスに選択的に組み込んで、異常検出に不可欠な領域への推論プロセスを指示する。
大規模な実験結果から、Reason-IADは最先端の手法よりも一貫して優れていることが示された。
コードはhttps://github.com/chenpeng052/Reason-IADで公開される。
関連論文リスト
- Adversarial Yet Cooperative: Multi-Perspective Reasoning in Retrieved-Augmented Language Models [72.4149653187766]
本稿ではAdrialversa Reasoning RAG(ARR)というReasoner-Verifierフレームワークを提案する。
ReasonerとVerifierは、回収された証拠を推論し、プロセス認識の利点によってガイドされながら、互いの論理を批判する。
複数のベンチマーク実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2026-01-08T06:57:03Z) - SAGE: A Visual Language Model for Anomaly Detection via Fact Enhancement and Entropy-aware Alignment [12.388954043805235]
VLM(Vision-Language Models)は、しばしば産業の異常検出と推論に苦しむ。
SAGEは、自己ガイドFact Enhancement (SFE)とEntropy-aware Direct Preference Optimization (E-DPO)を通じて、異常推論を強化するVLMベースのフレームワークである。
SAGEはゼロショットおよびワンショット設定下での産業異常データセット上での優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-07-10T17:23:42Z) - OmniAD: Detect and Understand Industrial Anomaly via Multimodal Reasoning [76.90511414963265]
我々は,微粒化解析のための異常検出と理解を統一するフレームワークであるOmniADを紹介した。
ビジュアル推論は、Text-as-Maskを活用することで詳細なインスペクションを提供する。
Visual Guided Textual Reasoningは、視覚知覚を統合することで包括的な分析を行う。
論文 参考訳(メタデータ) (2025-05-28T07:02:15Z) - LAD-Reasoner: Tiny Multimodal Models are Good Reasoners for Logical Anomaly Detection [27.45348890285863]
本稿では,論理的推論を組み込んで従来の異常検出を拡張したReasoning Logical Anomaly Detection (RLAD)を提案する。
本稿では,Qwen2.5-VL 3B上に構築された小型マルチモーダル言語モデルであるLAD-Reasonerを提案する。
MVTec LOCO ADデータセットの実験では、LAD-Reasonerははるかに小さく、精度はQwen2.5-VL-72BとF1のスコアと一致している。
論文 参考訳(メタデータ) (2025-04-17T08:41:23Z) - Robust Distribution Alignment for Industrial Anomaly Detection under Distribution Shift [51.24522135151649]
異常検出は産業アプリケーションの品質管理において重要な役割を担っている。
既存の方法は、一般化可能なモデルをトレーニングすることで、ドメインシフトに対処しようとする。
提案手法は,最先端の異常検出法や領域適応法と比較して,優れた結果を示す。
論文 参考訳(メタデータ) (2025-03-19T05:25:52Z) - EIAD: Explainable Industrial Anomaly Detection Via Multi-Modal Large Language Models [23.898938659720503]
工業異常検出(IAD)は製造中の製品品質を確保するために重要である。
本稿では,コア特徴抽出からダイアログ機能を分離する専用マルチモーダル欠陥ローカライゼーションモジュールを提案する。
私たちはまた、Defect Detection Question Answering (DDQA) という、最初のマルチモーダル産業異常検出トレーニングデータセットにも貢献する。
論文 参考訳(メタデータ) (2025-03-18T11:33:29Z) - Myriad: Large Multimodal Model by Applying Vision Experts for Industrial Anomaly Detection [86.24898024621008]
産業異常検出に視覚専門家を適用した新しい大規模マルチモーダルモデルを提案する(略してMyriad)。
我々は,視覚専門家が生成する異常マップをLMMのガイダンスとして利用し,視覚モデルが異常領域により多くの注意を払うように誘導する。
提案手法は最先端の手法に対して良好に機能するだけでなく,IAD分野におけるLMMの柔軟性や命令追従性を継承する。
論文 参考訳(メタデータ) (2023-10-29T16:49:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。