論文の概要: IndusAgent: Reinforcing Open-Vocabulary Industrial Anomaly Detection with Agentic Tools
- arxiv url: http://arxiv.org/abs/2605.20682v1
- Date: Wed, 20 May 2026 03:52:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.471813
- Title: IndusAgent: Reinforcing Open-Vocabulary Industrial Anomaly Detection with Agentic Tools
- Title(参考訳): IndusAgent: エージェントツールを用いたオープンボキャブラリ産業異常検出の強化
- Authors: Rongbin Tan, Fangfang Lin, Zhenlong Yuan, Min Qiu, Kejin Cui, Mengmeng Wang, Yi Wang, Zijian Song, Zhiyuan Wang, Jiyuan Wang, Yue Wang, Shuhan Song§, Huawei Cao,
- Abstract要約: IndusAgentはオープン語彙異常検出のためのツール拡張エージェントフレームワークである。
IndusAgentは既存のすべての手法の中で最先端のゼロショット性能を実現していることを示す。
- 参考スコア(独自算出の注目度): 23.270402833986605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) have shown remarkable capability in bridging visual perception and textual reasoning, enabling zero-shot understanding across diverse industrial scenarios. However, their performance in open-vocabulary industrial anomaly detection (IAD) is often limited by domain-misaligned reasoning and hallucinated structural inferences. To address these challenges, we propose \textbf{IndusAgent}, a tool-augmented agentic framework for open-vocabulary IAD. Specifically, we first construct \textbf{Indus-CoT}, a structured dataset that integrates global visual observations, high-resolution local patches, and expert normalcy priors, providing supervision for fine-tuning the model on rigorous industrial inspection trajectories. Building on this, IndusAgent dynamically orchestrates a set of external tools, including dynamic region cropping, high-frequency feature enhancement, and prior retrieval, thus enabling the agent to actively resolve visual ambiguities and disentangle subtle anomalies. Furthermore, we introduce a gated reinforcement learning objective that jointly optimizes anomaly classification, localization accuracy, anomaly type reasoning, and efficient tool usage, ensuring that tool invocation occurs only when beneficial. Extensive evaluations on five industrial anomaly benchmarks, including MVTec-AD, VisA, MPDD, DTD, and SDD, demonstrate that IndusAgent achieves state-of-the-art zero-shot performance among all existing methods, validating our robustness and generalization capacity.
- Abstract(参考訳): マルチモーダルな大規模言語モデル(MLLM)は、視覚知覚とテキスト推論をブリッジすることで、様々な産業シナリオにおけるゼロショット理解を可能にしている。
しかし、オープンボキャブラリ産業異常検出(IAD)におけるそれらの性能は、ドメインミス整合推論と幻覚構造推論によって制限されることが多い。
これらの課題に対処するため,オープン語彙IADのためのツール拡張エージェントフレームワークであるtextbf{IndusAgent}を提案する。
具体的には、まず、グローバルな視覚観測、高分解能な局所パッチ、専門家の正規化を組み込んだ構造化データセットである \textbf{Indus-CoT} を構築し、厳密な産業検査軌道上でモデルを微調整するための監督を行う。
これに基づいて、IndusAgentは動的領域の収穫、高周波特徴強調、事前検索などの外部ツールのセットを動的にオーケストレーションすることで、エージェントが視覚的曖昧さを積極的に解決し、微妙な異常を解消することを可能にする。
さらに,異常分類,局所化精度,異常型推論,効率的なツール利用を共同で最適化するゲート強化学習手法を導入する。
MVTec-AD, VisA, MPDD, DTD, SDD を含む5つの産業異常ベンチマークの大規模評価は,IndusAgent が既存のすべての手法で最先端のゼロショット性能を実現し,ロバスト性と一般化能力の検証を行った。
関連論文リスト
- OmniVL-Guard Pro: A Tool-Augmented Agent for Omnibus Vision-Language Forensics [63.13200245209719]
ツール拡張エージェントである textbf OmniVL-Guard Pro を提案する。
高品質なツール推論トラジェクトリを生成するために,textbfTree-Structured Self-Evolving Tool Trajectory Generationを導入する。
また,回答が正しいが推論が歪んだ場合に対して,プロセスレベルの監督を行うためのtextbfChecker-Guided Agentic Reinforcement Learningを提案する。
論文 参考訳(メタデータ) (2026-05-16T12:26:04Z) - Agentic Spatio-Temporal Grounding via Collaborative Reasoning [80.83158605034465]
時間的ビデオグラウンド(Temporal Video Grounding)は、テキストクエリが与えられたビデオ内の対象物または人の時間的チューブを検索することを目的としている。
本稿では,STVGの課題に対して,オープンワールドおよびトレーニングフリーシナリオに向けたエージェント時空間グラウンド(ASTG)フレームワークを提案する。
具体的には、現代多言語モデル(MLLM)を活用した2つの特殊エージェントSRA(Spatial Reasoning Agent)とTRA(Temporal Reasoning Agent)である。
人気のあるベンチマークの実験は、既存の弱教師付きおよびゼロショットアプローチをマージンで上回る提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2026-02-10T10:16:27Z) - SpotAgent: Grounding Visual Geo-localization in Large Vision-Language Models through Agentic Reasoning [31.665287327579026]
SpotAgentは、地理的ローカライゼーションをエージェント推論プロセスにフォーマル化するフレームワークである。
外部ツール(例えば、Web検索、マップ)をReActダイアグラムを通じて活用することで、視覚的手がかりを積極的に探索し検証する。
最先端のパフォーマンスを実現し、効果的に幻覚を緩和し、正確で検証可能なジオローカライゼーションを提供する。
論文 参考訳(メタデータ) (2026-02-10T06:57:12Z) - SSVP: Synergistic Semantic-Visual Prompting for Industrial Zero-Shot Anomaly Detection [55.54007781679915]
本稿では,多種多様な視覚的エンコーディングを効率よく融合させ,モデルの微粒化知覚を高めるSynergistic Semantic-Visual Prompting (SSVP)を提案する。
SSVPは、MVTec-AD上で93.0%のImage-AUROCと92.2%のPixel-AUROCで最先端のパフォーマンスを達成し、既存のゼロショットアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2026-01-14T04:42:19Z) - Connecting the Dots: Training-Free Visual Grounding via Agentic Reasoning [63.109585527799005]
GroundingAgentは、タスク固有の微調整なしで動作するビジュアルグラウンドティングフレームワークである。
広く使用されているベンチマークでは、平均ゼロショットグラウンドの精度は65.1%である。
また、強い解釈可能性を提供し、各推論ステップを透過的に照らす。
論文 参考訳(メタデータ) (2025-11-24T03:11:08Z) - SAGE: A Visual Language Model for Anomaly Detection via Fact Enhancement and Entropy-aware Alignment [12.388954043805235]
VLM(Vision-Language Models)は、しばしば産業の異常検出と推論に苦しむ。
SAGEは、自己ガイドFact Enhancement (SFE)とEntropy-aware Direct Preference Optimization (E-DPO)を通じて、異常推論を強化するVLMベースのフレームワークである。
SAGEはゼロショットおよびワンショット設定下での産業異常データセット上での優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-07-10T17:23:42Z) - Exploring Large Vision-Language Models for Robust and Efficient Industrial Anomaly Detection [4.691083532629246]
CLAD(Contrastive Cross-Modal Training)を用いた視覚言語異常検出法を提案する。
CLADは、視覚的特徴とテキスト的特徴をコントラスト学習を用いて共有埋め込み空間に整列する。
CLADは画像レベルの異常検出と画素レベルの異常局所化の両方において最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2024-12-01T17:00:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。