論文の概要: Reasoning-Driven Anomaly Detection and Localization with Image-Level Supervision
- arxiv url: http://arxiv.org/abs/2603.27179v1
- Date: Sat, 28 Mar 2026 07:34:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.829716
- Title: Reasoning-Driven Anomaly Detection and Localization with Image-Level Supervision
- Title(参考訳): 画像レベルスーパービジョンによる推論駆動異常検出と位置決め
- Authors: Yizhou Jin, Yuezhu Feng, Jinjin Zhang, Peng Wang, Qingjie Liu, Yunhong Wang,
- Abstract要約: 本研究では,MLLMの本質的推論能力を活性化し,画像レベルの監視のみから異常検出,画素レベルのローカライゼーション,解釈可能な推論を行う。
具体的には,Reasoning-Driven Anomaly Localization (ReAL)を提案する。これは自己回帰推論プロセスから異常関連トークンを抽出し,その注意応答を集約して画素レベルの異常マップを生成する。
- 参考スコア(独自算出の注目度): 41.94832792442927
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) have recently demonstrated remarkable reasoning and perceptual abilities for anomaly detection. However, most approaches remain confined to image-level anomaly detection and textual reasoning, while pixel-level localization still relies on external vision modules and dense annotations. In this work, we activate the intrinsic reasoning potential of MLLMs to perform anomaly detection, pixel-level localization, and interpretable reasoning solely from image-level supervision, without any auxiliary components or pixel-wise labels. Specifically, we propose Reasoning-Driven Anomaly Localization (ReAL), which extracts anomaly-related tokens from the autoregressive reasoning process and aggregates their attention responses to produce pixel-level anomaly maps. We further introduce a Consistency-Guided Reasoning Optimization (CGRO) module that leverages reinforcement learning to align reasoning tokens with visual attentions, resulting in more coherent reasoning and accurate anomaly localization. Extensive experiments on four public benchmarks demonstrate that our method significantly improves anomaly detection, localization, and interpretability. Remarkably, despite relying solely on image-level supervision, our approach achieves performance competitive with MLLM-based methods trained under dense pixel-level supervision. Code is available at https://github.com/YizhouJin313/ReADL.
- Abstract(参考訳): MLLM(Multimodal large language model)は近年,異常検出のための顕著な推論と知覚能力を示した。
しかし、ほとんどのアプローチは画像レベルの異常検出とテキスト推論に限定され、画素レベルのローカライゼーションは依然として外部視覚モジュールや高密度アノテーションに依存している。
本研究では,MLLMの本質的推論ポテンシャルを活性化し,異常検出,画素レベルの局所化,画像レベルの監視からのみ解釈可能な推論を行う。
具体的には,Reasoning-Driven Anomaly Localization (ReAL)を提案する。これは自己回帰推論プロセスから異常関連トークンを抽出し,その注意応答を集約して画素レベルの異常マップを生成する。
さらに、強化学習を利用した一貫性誘導推論最適化(CGRO)モジュールを導入し、推論トークンを視覚的注意に合わせることにより、より一貫性のある推論と正確な異常な局所化を実現する。
4つの公開ベンチマークによる大規模な実験により,本手法は異常検出,局所化,解釈可能性を大幅に改善することが示された。
画像レベルの監視のみに頼っているにも関わらず,本手法は高密度画素レベルの監視の下で訓練されたMLLMベースの手法と性能を競合させる。
コードはhttps://github.com/YizhouJin313/ReADLで入手できる。
関連論文リスト
- Rethinking VLMs for Image Forgery Detection and Localization [55.32700985102152]
本稿では,視覚言語モデル(VLM)をフル活用して画像偽造検出・局所化(IFDL)タスクを支援する方法について検討する。
これらの知見に基づいて,IFDL-VLMと呼ばれる新しいIFDLパイプラインを提案する。
実験結果から, 検出, 局所化, 解釈可能性において, 常に新しい最先端性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2026-03-13T12:21:31Z) - Steering and Rectifying Latent Representation Manifolds in Frozen Multi-modal LLMs for Video Anomaly Detection [52.5174167737992]
ビデオ異常検出(VAD)は、ビデオ内の異常事象を特定することを目的としている。
本稿では,MLLMに基づくVADを受動的に読み上げから内部表現を積極的に操り,修正するSteerVADを提案する。
本手法は、トレーニングデータの1%しか必要としないチューニングフリーアプローチにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2026-02-27T13:48:50Z) - DevPrompt: Deviation-Based Prompt Learning for One-Normal ShotImage Anomaly Detection [0.0]
FNSAD (Few-normal shot anomaly detection) は、画像内の異常領域を検出することを目的としている。
最近のアプローチでは、CLIPのような視覚言語モデルとプロンプトベースの学習を利用して、画像とテキストの特徴を整合させる。
本稿では,視覚言語モデルのセマンティックパワーと,偏差に基づくスコアリングの統計的信頼性を統合した偏差誘導型即時学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-21T20:35:51Z) - Towards Fine-Grained Vision-Language Alignment for Few-Shot Anomaly Detection [65.29550320117526]
我々はFinGrainedADという新しいフレームワークを提案し、異常なローカライゼーション性能を改善する。
実験により、提案されたFinGrainedADは、数ショット設定で全体的なパフォーマンスが優れていることが示された。
論文 参考訳(メタデータ) (2025-10-30T13:09:00Z) - Weakly-Supervised Image Forgery Localization via Vision-Language Collaborative Reasoning Framework [16.961220047066792]
ViLaCoは視覚言語の共同推論フレームワークで、事前訓練された視覚言語モデルから抽出した補助的セマンティックインスペクションを導入する。
ViLaCoは既存のWSIFL法を大幅に上回り、検出精度とローカライゼーション精度の両方で最先端の性能を達成する。
論文 参考訳(メタデータ) (2025-08-02T12:14:29Z) - Beyond Fully Supervised Pixel Annotations: Scribble-Driven Weakly-Supervised Framework for Image Manipulation Localization [11.10178274806454]
アノテーションの効率と検出性能を向上させる弱監督方式を提案する。
我々は、スクリブルラベルでメインストリームのMLデータセットを再注釈し、最初のスクリブルベースのMLデータセットを提案する。
モデルが一貫した予測を生成することを奨励するために,構造的整合性を損なう自己教師型トレーニングを採用する。
論文 参考訳(メタデータ) (2025-07-17T11:45:27Z) - VMAD: Visual-enhanced Multimodal Large Language Model for Zero-Shot Anomaly Detection [19.79027968793026]
Zero-shot Anomaly Detection (ZSAD)は、未確認のオブジェクト内の異常を認識し、ローカライズする。
既存のZSADメソッドは、クローズドワールド設定によって制限され、事前に定義されたプロンプトで見つからない欠陥に苦労する。
我々は、視覚的IAD知識ときめ細かい知覚でMLLMを強化する新しいフレームワークVMAD(Visual-enhanced MLLM Anomaly Detection)を提案する。
論文 参考訳(メタデータ) (2024-09-30T09:51:29Z) - Pixel-Inconsistency Modeling for Image Manipulation Localization [59.968362815126326]
デジタル画像法医学は、画像認証と操作のローカライゼーションにおいて重要な役割を果たす。
本稿では,画素不整合アーチファクトの解析を通じて,一般化されたロバストな操作ローカライゼーションモデルを提案する。
実験により,本手法は固有の画素不整合偽指紋を抽出することに成功した。
論文 参考訳(メタデータ) (2023-09-30T02:54:51Z) - Self-supervised Equivariant Attention Mechanism for Weakly Supervised
Semantic Segmentation [93.83369981759996]
本稿では,自己監督同変注意機構(SEAM)を提案する。
本手法は,完全教師付きセマンティックセグメンテーションにおいて,同値が暗黙の制約であることを示す。
本稿では,ネットワーク学習のための自己スーパービジョンを提供するために,様々な変換画像から予測されたCAMの整合性正則化を提案する。
論文 参考訳(メタデータ) (2020-04-09T14:57:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。