論文の概要: AnomalyAgent: Training-Free Agentic Models for Zero-/Few-Shot Anomaly Detection
- arxiv url: http://arxiv.org/abs/2605.30140v1
- Date: Thu, 28 May 2026 16:05:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.46401
- Title: AnomalyAgent: Training-Free Agentic Models for Zero-/Few-Shot Anomaly Detection
- Title(参考訳): AnomalyAgent:Zero-/Few-Shot 異常検出のための訓練不要エージェントモデル
- Authors: Yi Zhang, Jiawen Zhu, Lele Fu, Guansong Pang,
- Abstract要約: 異常検出のためのトレーニング不要なエージェントフレームワークである textbfAnomalyAgent を提案する。
textbf1) は包括的な異常中心のツールセットであり、textbf2) はカスタマイズされたメモリモジュールである。
AnomalyAgent はトレーニング不要な VLM ベースの AD やジェネリックエージェント手法に比べ,性能が大幅に向上することを示した。
- 参考スコア(独自算出の注目度): 43.187781277950386
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Benefiting from generalizability of vision-language models (VLMs) such as CLIP, many zero-/few-shot anomaly detection (AD) approaches have achieved impressive detection performance across various datasets. Nevertheless, they require substantial training on large auxiliary datasets to adapt VLMs to anomaly detection, and their inference largely relies on visual-text embedding similarity-based anomaly scores, lacking reasoning abilities to detect complex anomalies that require in-depth contextual understanding. To address this limitation, we propose \textbf{AnomalyAgent}, a novel training-free, agentic framework that leverages the advanced reasoning and generalization capabilities of multimodal large language models (MLLMs) for anomaly detection. The key ingredients include \textbf{1)} a comprehensive anomaly-centric toolset that enables adaptive MLLM-driven, agentic anomaly reasoning in zero-shot settings, and \textbf{2)} a customized memory module that grounds anomaly reasoning with few-shot, in-context reference examples. We extend evaluation beyond the detection of simple anomalies (e.g., surface defects like cracks and dents and clear lesions) in widely used benchmarks to more diverse types of anomalies such as logical/contextual anomalies in logistics and manufacturing settings. Extensive experiment results demonstrate that our AnomalyAgent achieves substantially better performance compared to training-free VLM-based AD and generic agentic methods, highlighting its superior generalization capability in both zero-shot and few-shot anomaly detection settings. The code implementation can be find at this address.
- Abstract(参考訳): CLIPのような視覚言語モデル(VLM)の一般化性から、多くのゼロ/ファウショット異常検出(AD)アプローチは、様々なデータセット間で印象的な検出性能を達成している。
それにもかかわらず、VLMを異常検出に適応させるためには、大規模な補助データセットのかなりのトレーニングが必要であり、その推論は視覚テキストの埋め込み類似性に基づく異常スコアに依存しており、深い文脈理解を必要とする複雑な異常を検出するための推論能力が欠如している。
この制限に対処するために,マルチモーダルな大規模言語モデル(MLLM)の高度な推論と一般化機能を活用した,新しい学習自由エージェントフレームワークである‘textbf{AnomalyAgent} を提案する。
主な構成要素は、MLLM駆動の、ゼロショット設定でのエージェント異常推論を可能にする包括的な異常中心のツールセットである‘textbf{1} と、少数ショットのインコンテキスト参照例で異常推論を基盤とするカスタマイズメモリモジュールである \textbf{2} である。
我々は, 簡易な異常(例えば, 亀裂や象牙質, 明瞭な病変などの表面欠陥)の検出以上の評価を, 物流や製造環境における論理的・コンテキスト的異常など, より多様な種類の異常に拡張する。
AnomalyAgentはトレーニング不要なVLMベースのAD法や汎用エージェント法に比べて性能が大幅に向上し、ゼロショットおよび少数ショットの異常検出設定において、その優れた一般化能力が強調された。
コードの実装はこのアドレスで見つけることができる。
関連論文リスト
- CLIP Meets Diffusion: A Synergistic Approach to Anomaly Detection [49.11819337853632]
異常検出は、異常の定義の曖昧さ、異常型の多様性、トレーニングデータの不足による複雑な問題である。
識別的基盤モデルと生成的基礎モデルの両方を活用するCLIPfusionを提案する。
本手法は, 異常検出の多面的課題に対処する上で, マルチモーダル・マルチモデル融合の有効性を裏付けるものである。
論文 参考訳(メタデータ) (2025-06-13T13:30:15Z) - VMAD: Visual-enhanced Multimodal Large Language Model for Zero-Shot Anomaly Detection [19.79027968793026]
Zero-shot Anomaly Detection (ZSAD)は、未確認のオブジェクト内の異常を認識し、ローカライズする。
既存のZSADメソッドは、クローズドワールド設定によって制限され、事前に定義されたプロンプトで見つからない欠陥に苦労する。
我々は、視覚的IAD知識ときめ細かい知覚でMLLMを強化する新しいフレームワークVMAD(Visual-enhanced MLLM Anomaly Detection)を提案する。
論文 参考訳(メタデータ) (2024-09-30T09:51:29Z) - MeLIAD: Interpretable Few-Shot Anomaly Detection with Metric Learning and Entropy-based Scoring [2.394081903745099]
本稿では,新たな異常検出手法であるMeLIADを提案する。
MeLIADはメートル法学習に基づいており、真の異常の事前分布仮定に頼ることなく、設計による解釈可能性を達成する。
解釈可能性の定量的かつ定性的な評価を含む5つの公開ベンチマークデータセットの実験は、MeLIADが異常検出とローカライゼーション性能の改善を達成することを実証している。
論文 参考訳(メタデータ) (2024-09-20T16:01:43Z) - Toward Generalist Anomaly Detection via In-context Residual Learning with Few-shot Sample Prompts [25.629973843455495]
Generalist Anomaly Detection (GAD)は、ターゲットデータにさらなるトレーニングを加えることなく、さまざまなアプリケーションドメインからさまざまなデータセットの異常を検出するために一般化可能な、単一の検出モデルをトレーニングすることを目的としている。
InCTRLと呼ばれるGADのための文脈内残差学習モデルを学習する新しい手法を提案する。
InCTRLは最高のパフォーマーであり、最先端の競合手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-03-11T08:07:46Z) - MLAD: A Unified Model for Multi-system Log Anomaly Detection [35.68387377240593]
複数のシステムにまたがる意味的関係推論を組み込んだ新しい異常検出モデルMLADを提案する。
具体的には、Sentence-bertを用いてログシーケンス間の類似性を捉え、それらを高次元の学習可能な意味ベクトルに変換する。
我々は,各キーワードのシーケンスにおける意義を識別し,マルチシステムデータセットの全体分布をモデル化するために,アテンション層の公式を改訂する。
論文 参考訳(メタデータ) (2024-01-15T12:51:13Z) - Open-Vocabulary Video Anomaly Detection [57.552523669351636]
監視の弱いビデオ異常検出(VAD)は、ビデオフレームが正常であるか異常であるかを識別するためにビデオレベルラベルを利用する際、顕著な性能を達成した。
近年の研究は、より現実的な、オープンセットのVADに取り組み、異常や正常なビデオから見えない異常を検出することを目的としている。
本稿ではさらに一歩前進し、未確認および未確認の異常を検知・分類するために訓練済みの大規模モデルを活用することを目的とした、オープン語彙ビデオ異常検出(OVVAD)について検討する。
論文 参考訳(メタデータ) (2023-11-13T02:54:17Z) - Explainable Deep Few-shot Anomaly Detection with Deviation Networks [123.46611927225963]
本稿では,弱い教師付き異常検出フレームワークを導入し,検出モデルを訓練する。
提案手法は,ラベル付き異常と事前確率を活用することにより,識別正規性を学習する。
我々のモデルはサンプル効率が高く頑健であり、クローズドセットとオープンセットの両方の設定において最先端の競合手法よりもはるかに優れている。
論文 参考訳(メタデータ) (2021-08-01T14:33:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。