論文の概要: CoPS: Conditional Prompt Synthesis for Zero-Shot Anomaly Detection
- arxiv url: http://arxiv.org/abs/2508.03447v1
- Date: Tue, 05 Aug 2025 13:47:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.988042
- Title: CoPS: Conditional Prompt Synthesis for Zero-Shot Anomaly Detection
- Title(参考訳): CoPS:ゼロショット異常検出のための条件付きプロンプト合成
- Authors: Qiyu Chen, Zhen Qu, Wei Luo, Haiming Yao, Yunkang Cao, Yuxin Jiang, Yinan Duan, Huiyuan Luo, Chengkan Lv, Zhengtao Zhang,
- Abstract要約: Conditional Prompt Synthesis (CoPS)は、視覚的特徴に条件付き動的プロンプトを合成し、ZSAD性能を向上させる新しいフレームワークである。
CoPSは、13の産業および医療データセットの分類とセグメンテーションの両方において、最先端の手法を2.5%AUROCで上回っている。
- 参考スコア(独自算出の注目度): 6.1568149026052374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, large pre-trained vision-language models have shown remarkable performance in zero-shot anomaly detection (ZSAD). With fine-tuning on a single auxiliary dataset, the model enables cross-category anomaly detection on diverse datasets covering industrial defects and medical lesions. Compared to manually designed prompts, prompt learning eliminates the need for expert knowledge and trial-and-error. However, it still faces the following challenges: (i) static learnable tokens struggle to capture the continuous and diverse patterns of normal and anomalous states, limiting generalization to unseen categories; (ii) fixed textual labels provide overly sparse category information, making the model prone to overfitting to a specific semantic subspace. To address these issues, we propose Conditional Prompt Synthesis (CoPS), a novel framework that synthesizes dynamic prompts conditioned on visual features to enhance ZSAD performance. Specifically, we extract representative normal and anomaly prototypes from fine-grained patch features and explicitly inject them into prompts, enabling adaptive state modeling. Given the sparsity of class labels, we leverage a variational autoencoder to model semantic image features and implicitly fuse varied class tokens into prompts. Additionally, integrated with our spatially-aware alignment mechanism, extensive experiments demonstrate that CoPS surpasses state-of-the-art methods by 2.5% AUROC in both classification and segmentation across 13 industrial and medical datasets. Code will be available at https://github.com/cqylunlun/CoPS.
- Abstract(参考訳): 近年,ゼロショット異常検出(ZSAD)では,大規模な事前学習型視覚言語モデルの性能が顕著である。
単一の補助データセットを微調整することで、産業的欠陥や医学的障害を含む多様なデータセットのカテゴリ間異常検出が可能になる。
手動で設計したプロンプトと比較すると、プロンプト学習は専門家の知識や試行錯誤の必要性を排除している。
しかし、それでも以下の課題に直面している。
(i)静的学習可能なトークンは、正規および異常状態の連続的かつ多様なパターンを捉え、一般化を目に見えないカテゴリーに限定するのに苦労する。
(II)固定テキストラベルは、過度に疎いカテゴリ情報を提供し、モデルが特定の意味的部分空間に過度に適合する傾向がある。
このような問題に対処するために,視覚的特徴に条件付き動的プロンプトを合成し,ZSAD性能を向上させる新しいフレームワークであるConditional Prompt Synthesis (CoPS)を提案する。
具体的には、細粒度のパッチ特徴から代表正規および異常なプロトタイプを抽出し、それらをプロンプトに明示的に注入し、適応状態モデリングを可能にする。
クラスラベルの空間性を考えると、変動型オートエンコーダを利用してセマンティックイメージの特徴をモデル化し、さまざまなクラストークンを暗黙的にプロンプトに融合する。
さらに、我々の空間認識アライメント機構と統合して、CoPSが13の産業および医療データセットの分類とセグメンテーションの両方において最先端の手法を2.5%超えることを示した。
コードはhttps://github.com/cqylunlun/CoPS.comから入手できる。
関連論文リスト
- Zero-Shot Anomaly Detection with Dual-Branch Prompt Learning [17.263625932911534]
Zero-shot Anomaly Detection (ZSAD) は、見えないカテゴリの欠陥を識別し、ローカライズする。
既存のZSADメソッドは、固定または学習プロンプトを使用しても、トレーニングデータが限られたトレーニングドメインから導出されるため、ドメインシフトの下で苦労する。
PILOTは2つの重要なイノベーションを通じてこれらの課題を克服するために設計されたフレームワークです。
論文 参考訳(メタデータ) (2025-08-01T17:00:12Z) - Generate Aligned Anomaly: Region-Guided Few-Shot Anomaly Image-Mask Pair Synthesis for Industrial Inspection [53.137651284042434]
異常検査は製造業において重要な役割を担っているが、異常サンプルの不足は既存の方法の有効性を制限している。
本稿では,GAA (Generate grained Anomaly) を提案する。
GAAは少数のサンプルのみを用いて現実的で多様で意味的に整合した異常を発生させる。
論文 参考訳(メタデータ) (2025-07-13T12:56:59Z) - Benchmarking Unified Face Attack Detection via Hierarchical Prompt Tuning [58.16354555208417]
PADとFFDはそれぞれ物理メディアベースのプレゼンテーションアタックとデジタル編集ベースのDeepFakeから顔データを保護するために提案されている。
これら2つのカテゴリの攻撃を同時に処理する統一顔攻撃検出モデルがないことは、主に2つの要因に起因する。
本稿では,異なる意味空間から複数の分類基準を適応的に探索する,視覚言語モデルに基づく階層型プロンプトチューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-19T16:35:45Z) - Crane: Context-Guided Prompt Learning and Attention Refinement for Zero-Shot Anomaly Detections [50.343419243749054]
異常検出(AD)は、通常のデータ分布から逸脱を識別する。
本稿では,視覚エンコーダから抽出した画像コンテキストに基づいて,テキストエンコーダのプロンプトを条件付ける手法を提案する。
提案手法は,14のデータセットにおいて,各メトリクスに対して2%から29%の性能向上を実現している。
論文 参考訳(メタデータ) (2025-04-15T10:42:25Z) - Generalized Semantic Contrastive Learning via Embedding Side Information for Few-Shot Object Detection [52.490375806093745]
マイクロショットオブジェクト検出(FSOD)の目的は、少数のトレーニングサンプルで新しいオブジェクトを検出することである。
本稿では,特徴空間とサンプル視点から得られる負の影響を緩和する側面情報を紹介する。
我々のモデルは従来の最先端手法よりも優れており、ほとんどのショット/スプリットにおけるFSODの能力は大幅に向上している。
論文 参考訳(メタデータ) (2025-04-09T17:24:05Z) - Bayesian Prompt Flow Learning for Zero-Shot Anomaly Detection [17.590853105242864]
視覚言語モデル(例えばCLIP)はゼロショット異常検出(ZSAD)において顕著な性能を示した。
Bayes-PFL は画像固有の分布と画像に依存しない分布の両方を学習するために設計されており、テキストプロンプト空間を正規化し、未知のカテゴリにおけるモデルの一般化を改善するために共同で使用される。
15の産業用および医療用データセットに対する実験により,本手法の優れた性能が示された。
論文 参考訳(メタデータ) (2025-03-13T06:05:35Z) - Fine-grained Abnormality Prompt Learning for Zero-shot Anomaly Detection [88.34095233600719]
FAPromptは、より正確なZSADのためにきめ細かい異常プロンプトを学習するために設計された新しいフレームワークである。
画像レベルおよび画素レベルのZSADタスクにおいて、最先端の手法を少なくとも3%-5%のAUC/APで大幅に上回っている。
論文 参考訳(メタデータ) (2024-10-14T08:41:31Z) - Generalizable Whole Slide Image Classification with Fine-Grained Visual-Semantic Interaction [17.989559761931435]
本稿では,WSI分類のための"Fine-fine Visual-Semantic Interaction"フレームワークを提案する。
局所的な視覚パターンと微細な病理的意味論の相互作用を活用することにより、モデルの一般化性を高めるように設計されている。
本手法は, TCGA肺がんデータセットにおいて, 高い一般化性, 強い転移性を示す。
論文 参考訳(メタデータ) (2024-02-29T16:29:53Z) - Open-Vocabulary Video Anomaly Detection [57.552523669351636]
監視の弱いビデオ異常検出(VAD)は、ビデオフレームが正常であるか異常であるかを識別するためにビデオレベルラベルを利用する際、顕著な性能を達成した。
近年の研究は、より現実的な、オープンセットのVADに取り組み、異常や正常なビデオから見えない異常を検出することを目的としている。
本稿ではさらに一歩前進し、未確認および未確認の異常を検知・分類するために訓練済みの大規模モデルを活用することを目的とした、オープン語彙ビデオ異常検出(OVVAD)について検討する。
論文 参考訳(メタデータ) (2023-11-13T02:54:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。