論文の概要: MRAD: Zero-Shot Anomaly Detection with Memory-Driven Retrieval
- arxiv url: http://arxiv.org/abs/2602.00522v1
- Date: Sat, 31 Jan 2026 05:30:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.233864
- Title: MRAD: Zero-Shot Anomaly Detection with Memory-Driven Retrieval
- Title(参考訳): MRAD:メモリ駆動検索によるゼロショット異常検出
- Authors: Chaoran Xu, Chengkan Lv, Qiyu Chen, Feng Zhang, Zhengtao Zhang,
- Abstract要約: MRAD(Memory-Retrieval Anomaly Detection)は、パラメトリックフィッティングを直接メモリ検索に置き換える統合フレームワークである。
16の産業用および医療用データセットに対して、MRADフレームワークは、常に優れたパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 16.654541753670348
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot anomaly detection (ZSAD) often leverages pretrained vision or vision-language models, but many existing methods use prompt learning or complex modeling to fit the data distribution, resulting in high training or inference cost and limited cross-domain stability. To address these limitations, we propose Memory-Retrieval Anomaly Detection method (MRAD), a unified framework that replaces parametric fitting with a direct memory retrieval. The train-free base model, MRAD-TF, freezes the CLIP image encoder and constructs a two-level memory bank (image-level and pixel-level) from auxiliary data, where feature-label pairs are explicitly stored as keys and values. During inference, anomaly scores are obtained directly by similarity retrieval over the memory bank. Based on the MRAD-TF, we further propose two lightweight variants as enhancements: (i) MRAD-FT fine-tunes the retrieval metric with two linear layers to enhance the discriminability between normal and anomaly; (ii) MRAD-CLIP injects the normal and anomalous region priors from the MRAD-FT as dynamic biases into CLIP's learnable text prompts, strengthening generalization to unseen categories. Across 16 industrial and medical datasets, the MRAD framework consistently demonstrates superior performance in anomaly classification and segmentation, under both train-free and training-based settings. Our work shows that fully leveraging the empirical distribution of raw data, rather than relying only on model fitting, can achieve stronger anomaly detection performance. The code will be publicly released at https://github.com/CROVO1026/MRAD.
- Abstract(参考訳): ゼロショット異常検出(ZSAD)は、事前訓練された視覚モデルや視覚言語モデルを利用することが多いが、既存の多くの手法では、データ分散に適合するために、迅速な学習や複雑なモデリングを使用して、高いトレーニングや推論コスト、ドメイン間の安定性が制限される。
これらの制約に対処するために、パラメトリックフィッティングを直接メモリ検索に置き換える統合フレームワークであるメモリ検索異常検出法(MRAD)を提案する。
トレインフリーベースモデルであるMRAD-TFは、CLIPイメージエンコーダを凍結し、補助データから2レベルメモリバンク(画像レベルとピクセルレベル)を構築し、特徴ラベルペアをキーと値として明示的に格納する。
推測中、メモリバンク上の類似性検索により、異常スコアを直接取得する。
MRAD-TFに基づいて、拡張として2つの軽量な変種を提案する。
(i)MRAD-FTは、正常と異常の識別性を高めるために、2つの線形層による検索基準を微調整する。
(II) MRAD-CLIPは、MRAD-FTから正常領域と異常領域を注入し、CLIPの学習可能なテキストプロンプトに動的バイアスを生じさせ、一般化を未確認カテゴリに強化する。
16の産業用および医療用データセットにまたがって、MRADフレームワークは、列車なしおよび訓練ベースの設定の両方の下で、異常分類とセグメンテーションにおける優れたパフォーマンスを一貫して示す。
本研究は, モデルフィッティングのみに頼らず, 生データの経験的分布を十分に活用することで, より強力な異常検出性能が得られることを示す。
コードはhttps://github.com/CROVO1026/MRADで公開される。
関連論文リスト
- Is Training Necessary for Anomaly Detection? [12.22745989422548]
現在の異常検出法は、異常を再構築するためのエンコーダ・デコーダモデルの訓練に依存している。
検索型異常検出(RAD)を提案する。
RADは、メモリに異常のない特徴を格納し、マルチレベル検索によって異常を検出する、トレーニング不要のアプローチである。
論文 参考訳(メタデータ) (2026-01-30T09:40:42Z) - Source-Free Object Detection with Detection Transformer [59.33653163035064]
Source-Free Object Detection (SFOD) は、ソースデータにアクセスすることなく、ソースドメインから教師なしのターゲットドメインへの知識転送を可能にする。
ほとんどの既存のSFODアプローチは、より高速なR-CNNのような従来のオブジェクト検出(OD)モデルに限られるか、新しいODアーキテクチャ、特に検出変換器(DETR)に適合しない一般的なソリューションとして設計されている。
本稿では,DTRのクエリ中心の機能強化を特化して設計された新しいSFODフレームワークであるFeature Reweighting ANd Contrastive Learning NetworK(FRANCK)を紹介する。
論文 参考訳(メタデータ) (2025-10-13T07:35:04Z) - Hierarchical Self-Supervised Representation Learning for Depression Detection from Speech [51.14752758616364]
音声による抑うつ検出 (SDD) は、従来の臨床評価に代わる有望で非侵襲的な代替手段である。
HAREN-CTCは,マルチタスク学習フレームワーク内でのクロスアテンションを用いて,多層SSL機能を統合した新しいアーキテクチャである。
このモデルはDAIC-WOZで0.81、MODMAで0.82の最先端マクロF1スコアを達成し、両方の評価シナリオで先行手法より優れている。
論文 参考訳(メタデータ) (2025-10-05T09:32:12Z) - AHDMIL: Asymmetric Hierarchical Distillation Multi-Instance Learning for Fast and Accurate Whole-Slide Image Classification [51.525891360380285]
AHDMILは非対称な階層的蒸留マルチインスタンス学習フレームワークである。
2段階のトレーニングプロセスを通じて、無関係なパッチを排除します。
分類性能と推論速度の両方において、従来の最先端手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-08-07T07:47:16Z) - MadCLIP: Few-shot Medical Anomaly Detection with CLIP [14.023527193608142]
医療データに事前訓練されたCLIPモデルを活用する,革新的な数発の異常検出手法を提案する。
学習可能なアダプタを用いて,正常な特徴と異常な特徴を別々に捉えるために,デュアルブランチ設計を提案する。
セマンティックアライメントを改善するために、学習可能なテキストプロンプトを使用して視覚的特徴をリンクする。
論文 参考訳(メタデータ) (2025-06-30T12:56:17Z) - Crane: Context-Guided Prompt Learning and Attention Refinement for Zero-Shot Anomaly Detection [50.343419243749054]
異常検出は、医学診断や工業的欠陥検出などの分野において重要である。
CLIPの粗粒化画像テキストアライメントは、微粒化異常に対する局所化と検出性能を制限する。
クレーンは最先端のZSADを2%から28%に改善し、画像レベルとピクセルレベルの両方で、推論速度では競争力を維持している。
論文 参考訳(メタデータ) (2025-04-15T10:42:25Z) - DMAD: Dual Memory Bank for Real-World Anomaly Detection [90.97573828481832]
我々は、DMAD(Anomaly Detection)のための表現学習を強化したDual Memory Bankという新しいフレームワークを提案する。
DMADはデュアルメモリバンクを用いて特徴距離を計算し、正常パターンと異常パターンの間の特徴注意を計算している。
DMADをMVTec-ADおよびVisAデータセット上で評価した。
論文 参考訳(メタデータ) (2024-03-19T02:16:32Z) - Multi-level Memory-augmented Appearance-Motion Correspondence Framework
for Video Anomaly Detection [1.9511777443446219]
マルチレベルメモリ拡張外見対応フレームワークを提案する。
外観と動きの潜在的対応は、外見と動きのセマンティックスアライメントとセマンティックス代替トレーニングによって探索される。
我々のフレームワークは最先端の手法より優れており、UCSD Ped2、CUHK Avenue、ShanghaiTechのデータセットで99.6%、93.8%、76.3%のAUCを達成した。
論文 参考訳(メタデータ) (2023-03-09T08:43:06Z) - Dual Memory Units with Uncertainty Regulation for Weakly Supervised
Video Anomaly Detection [15.991784541576788]
ビデオとセグメントレベルのラベル指向の既存のアプローチは、主に異常データの表現の抽出に重点を置いている。
本研究では、正規データの表現と異常データの識別特徴の両方を学習するために、不確実性制御デュアルメモリユニット(UR-DMU)モデルを提案する。
我々の手法は、最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2023-02-10T10:39:40Z) - Discriminative-Generative Dual Memory Video Anomaly Detection [81.09977516403411]
近年,ビデオ異常検出(VAD)には,トレーニングプロセス中に通常のデータに代えて,いくつかの異常を使おうと試みている。
本稿では,いくつかの異常を生かしてデータの不均衡を解決するために,識別生成型デュアルメモリ(dream)異常検出モデルを提案する。
論文 参考訳(メタデータ) (2021-04-29T15:49:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。