論文の概要: TMUAD: Enhancing Logical Capabilities in Unified Anomaly Detection Models with a Text Memory Bank
- arxiv url: http://arxiv.org/abs/2508.21795v1
- Date: Fri, 29 Aug 2025 17:22:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:11.130133
- Title: TMUAD: Enhancing Logical Capabilities in Unified Anomaly Detection Models with a Text Memory Bank
- Title(参考訳): TMUAD:テキストメモリバンクを用いた統一異常検出モデルにおける論理機能向上
- Authors: Jiawei Liu, Jiahe Hou, Wei Wang, Jinsong Du, Yang Cong, Huijie Fan,
- Abstract要約: 通常のデータ量が限られているため、異常検出は困難である。
論理異常の検出を強化するために,テキストメモリバンクを導入する。
TMUADは、7つの公開データセットで最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 28.548782041501422
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Anomaly detection, which aims to identify anomalies deviating from normal patterns, is challenging due to the limited amount of normal data available. Unlike most existing unified methods that rely on carefully designed image feature extractors and memory banks to capture logical relationships between objects, we introduce a text memory bank to enhance the detection of logical anomalies. Specifically, we propose a Three-Memory framework for Unified structural and logical Anomaly Detection (TMUAD). First, we build a class-level text memory bank for logical anomaly detection by the proposed logic-aware text extractor, which can capture rich logical descriptions of objects from input images. Second, we construct an object-level image memory bank that preserves complete object contours by extracting features from segmented objects. Third, we employ visual encoders to extract patch-level image features for constructing a patch-level memory bank for structural anomaly detection. These three complementary memory banks are used to retrieve and compare normal images that are most similar to the query image, compute anomaly scores at multiple levels, and fuse them into a final anomaly score. By unifying structural and logical anomaly detection through collaborative memory banks, TMUAD achieves state-of-the-art performance across seven publicly available datasets involving industrial and medical domains. The model and code are available at https://github.com/SIA-IDE/TMUAD.
- Abstract(参考訳): 異常検出は、通常のパターンから逸脱した異常を識別することを目的としており、通常のデータが少ないため困難である。
オブジェクト間の論理的関係を捉えるために、画像特徴抽出器やメモリバンクを慎重に設計した既存の統一手法とは異なり、論理的異常の検出を強化するために、テキストメモリバンクを導入する。
具体的には,TMUAD(Unified Structure and logical Anomaly Detection)のための3つのメモリフレームワークを提案する。
まず,提案した論理認識テキスト抽出器による論理異常検出のためのクラスレベルのテキストメモリバンクを構築し,入力画像からオブジェクトのリッチな論理記述をキャプチャする。
第2に、セグメント化されたオブジェクトから特徴を抽出することにより、完全なオブジェクト輪郭を保存するオブジェクトレベルのイメージメモリバンクを構築する。
第3に、構造異常検出のためのパッチレベルのメモリバンクを構築するために、視覚エンコーダを用いてパッチレベルの画像特徴を抽出する。
これら3つの補完記憶バンクは、クエリ画像と最もよく似た通常の画像を取得し比較し、複数のレベルで異常スコアを計算し、最終的な異常スコアに融合するために使用される。
TMUADは、コラボレーティブメモリバンクを通じて構造的および論理的異常検出を統一することにより、産業ドメインと医療ドメインを含む7つの公開データセットの最先端のパフォーマンスを達成する。
モデルとコードはhttps://github.com/SIA-IDE/TMUAD.comで公開されている。
関連論文リスト
- SAM-LAD: Segment Anything Model Meets Zero-Shot Logic Anomaly Detection [17.32019706857109]
視覚異常検出は、産業的欠陥検出や診断など、現実世界の応用において不可欠である。
我々は,任意のシーンにおける論理的異常検出のためのゼロショット・プラグイン・アンド・プレイフレームワークSAM-LADを提案する。
産業用データセットを含む様々なベンチマークを用いて,提案するSAM-LADを検証する。
論文 参考訳(メタデータ) (2024-06-02T06:08:26Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - Occlusion-Aware Instance Segmentation via BiLayer Network Architectures [73.45922226843435]
本稿では,2層畳み込みネットワーク(BCNet)を提案する。このネットワークでは,トップ層がオブジェクト(オブオーバ)を検出し,ボトム層が部分的にオブオーバドされたインスタンス(オブオーバド)を推測する。
一般的な畳み込みネットワーク設計,すなわちFCN(Fully Convolutional Network)とGCN(Graph Convolutional Network)を用いた2層構造の有効性について検討する。
論文 参考訳(メタデータ) (2022-08-08T21:39:26Z) - MeMOT: Multi-Object Tracking with Memory [97.48960039220823]
私たちのモデルはMeMOTと呼ばれ、トランスフォーマーベースの3つの主要モジュールで構成されています。
MeMOTは広く採用されているMOTデータセット上で非常に競争力のあるパフォーマンスを観測する。
論文 参考訳(メタデータ) (2022-03-31T02:33:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。