論文の概要: TIPS Over Tricks: Simple Prompts for Effective Zero-shot Anomaly Detection
- arxiv url: http://arxiv.org/abs/2602.03594v1
- Date: Tue, 03 Feb 2026 14:48:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.519832
- Title: TIPS Over Tricks: Simple Prompts for Effective Zero-shot Anomaly Detection
- Title(参考訳): TIPS over Tricks: 効率的なゼロショット異常検出のためのシンプルなプロンプト
- Authors: Alireza Salehi, Ehsan Karami, Sepehr Noey, Sahand Noey, Makoto Yamada, Reshad Hosseini, Mohammad Sabokrou,
- Abstract要約: 異常検出は、安全クリティカルな設定における期待された行動からの離脱を特定する。
我々のパイプラインは、7つの産業データセットで画像レベルのパフォーマンスを1.1-3.9%改善し、ピクセルレベルのパフォーマンスを1.5-6.9%向上させた。
- 参考スコア(独自算出の注目度): 19.691698434869657
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Anomaly detection identifies departures from expected behavior in safety-critical settings. When target-domain normal data are unavailable, zero-shot anomaly detection (ZSAD) leverages vision-language models (VLMs). However, CLIP's coarse image-text alignment limits both localization and detection due to (i) spatial misalignment and (ii) weak sensitivity to fine-grained anomalies; prior work compensates with complex auxiliary modules yet largely overlooks the choice of backbone. We revisit the backbone and use TIPS-a VLM trained with spatially aware objectives. While TIPS alleviates CLIP's issues, it exposes a distributional gap between global and local features. We address this with decoupled prompts-fixed for image-level detection and learnable for pixel-level localization-and by injecting local evidence into the global score. Without CLIP-specific tricks, our TIPS-based pipeline improves image-level performance by 1.1-3.9% and pixel-level by 1.5-6.9% across seven industrial datasets, delivering strong generalization with a lean architecture. Code is available at github.com/AlirezaSalehy/Tipsomaly.
- Abstract(参考訳): 異常検出は、安全クリティカルな設定における期待された行動からの離脱を特定する。
ターゲットドメインの正規データが利用できない場合、ゼロショット異常検出(ZSAD)は視覚言語モデル(VLM)を利用する。
しかし、CLIPの粗い画像テキストアライメントは、局所化と検出の両方を制限している。
(i)空間的不整合、及び
(II) 微粒な異常に対する弱い感度; 先行処理は複雑な補助モジュールを補うが、バックボーンの選択をほとんど見落としている。
我々は,背骨を再考し,空間的に認識された目的で訓練されたTIPS-a VLMを使用する。
TIPSはCLIPの問題を軽減するが、グローバル機能とローカル機能の間の分散的なギャップを露呈する。
画像レベルの検出のために分離されたプロンプトを固定し、画素レベルのローカライゼーションを学習し、局所的な証拠をグローバルスコアに注入することでこの問題に対処する。
CLIP固有のトリックがなければ、当社のTIPSベースのパイプラインは、画像レベルのパフォーマンスを1.1-3.9%改善し、7つの産業データセットで1.5-6.9%向上し、リーンアーキテクチャによる強力な一般化を実現しています。
コードはgithub.com/AlirezaSalehy/Tipsomalyで入手できる。
関連論文リスト
- AF-CLIP: Zero-Shot Anomaly Detection via Anomaly-Focused CLIP Adaptation [8.252046294696585]
AF-CLIP(Anomaly-Focused CLIP)を提案する。
本稿では,視覚的特徴の異常関連パターンを強調する軽量アダプタを提案する。
また,余分なメモリバンクによる数ショットのシナリオにも拡張されている。
論文 参考訳(メタデータ) (2025-07-26T13:34:38Z) - Bridge Feature Matching and Cross-Modal Alignment with Mutual-filtering for Zero-shot Anomaly Detection [25.349261412750586]
本研究では,ZSAD 用 textbfFiSeCLIP とトレーニング不要 textbfCLIP を導入し,特徴マッチングとクロスモーダルアライメントを組み合わせた。
本手法は,異常検出ベンチマークにおいて,異常分類とセグメンテーションの両方において優れた性能を示す。
論文 参考訳(メタデータ) (2025-07-15T05:42:17Z) - Crane: Context-Guided Prompt Learning and Attention Refinement for Zero-Shot Anomaly Detection [50.343419243749054]
異常検出は、医学診断や工業的欠陥検出などの分野において重要である。
CLIPの粗粒化画像テキストアライメントは、微粒化異常に対する局所化と検出性能を制限する。
クレーンは最先端のZSADを2%から28%に改善し、画像レベルとピクセルレベルの両方で、推論速度では競争力を維持している。
論文 参考訳(メタデータ) (2025-04-15T10:42:25Z) - GlocalCLIP: Object-agnostic Global-Local Prompt Learning for Zero-shot Anomaly Detection [5.530212768657544]
グローバルプロンプトとローカルプロンプトの相補的学習を改善するために,局所的コントラスト学習を導入する。
ZSADにおけるGlocalCLIPの一般化性能を実世界の15のデータセットで実証した。
論文 参考訳(メタデータ) (2024-11-09T05:22:13Z) - Bootstrap Fine-Grained Vision-Language Alignment for Unified Zero-Shot
Anomaly Localization [63.61093388441298]
対照的な言語-画像事前学習モデルは、ゼロショット視覚認識タスクで有望なパフォーマンスを示した。
本研究では,ゼロショット異常局所化のためのAnoCLIPを提案する。
論文 参考訳(メタデータ) (2023-08-30T10:35:36Z) - Spatial-Aware Token for Weakly Supervised Object Localization [137.0570026552845]
タスク固有の空間認識トークンを,弱教師付き方式で条件定位に提案する。
実験の結果、SATはCUB-200とImageNetの両方で、98.45%と73.13%のGT-known Locで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2023-03-18T15:38:17Z) - Towards Effective Image Manipulation Detection with Proposal Contrastive
Learning [61.5469708038966]
本稿では,効果的な画像操作検出のためのコントラスト学習(PCL)を提案する。
我々のPCLは、RGBとノイズビューから2種類のグローバル特徴を抽出し、2ストリームアーキテクチャで構成されている。
我々のPCLは、実際にラベル付けされていないデータに容易に適用でき、手作業によるラベル付けコストを削減し、より一般化可能な機能を促進することができる。
論文 参考訳(メタデータ) (2022-10-16T13:30:13Z) - Global-Local Dynamic Feature Alignment Network for Person
Re-Identification [5.202841879001503]
本研究では,歩行者の局所ストライプにスライド窓を設置することにより,2つの画像の局所的特徴を動的に整列させる,シンプルで効率的な局所スライディングアライメント(LSA)戦略を提案する。
LSAは空間的不整合を効果的に抑制することができ、追加の監視情報を導入する必要はない。
GLDFA-NetのローカルブランチにLSAを導入し、距離メトリクスの計算をガイドし、テストフェーズの精度をさらに向上させる。
論文 参考訳(メタデータ) (2021-09-13T07:53:36Z) - Inter-Image Communication for Weakly Supervised Localization [77.2171924626778]
弱教師付きローカライゼーションは、画像レベルの監督のみを使用して対象対象領域を見つけることを目的としている。
我々は,より正確な物体位置を学習するために,異なる物体間の画素レベルの類似性を活用することを提案する。
ILSVRC検証セット上でトップ1のローカライズ誤差率45.17%を達成する。
論文 参考訳(メタデータ) (2020-08-12T04:14:11Z) - High-Order Information Matters: Learning Relation and Topology for
Occluded Person Re-Identification [84.43394420267794]
本稿では,高次関係とトポロジ情報を識別的特徴とロバストなアライメントのために学習し,新しい枠組みを提案する。
我々のフレームワークはOccluded-Dukeデータセットで最先端の6.5%mAPスコアを大幅に上回っている。
論文 参考訳(メタデータ) (2020-03-18T12:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。