論文の概要: Bayesian Prompt Flow Learning for Zero-Shot Anomaly Detection
- arxiv url: http://arxiv.org/abs/2503.10080v1
- Date: Thu, 13 Mar 2025 06:05:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:53:03.668801
- Title: Bayesian Prompt Flow Learning for Zero-Shot Anomaly Detection
- Title(参考訳): ゼロショット異常検出のためのベイズ確率流学習
- Authors: Zhen Qu, Xian Tao, Xinyi Gong, Shichen Qu, Qiyu Chen, Zhengtao Zhang, Xingang Wang, Guiguang Ding,
- Abstract要約: 視覚言語モデル(例えばCLIP)はゼロショット異常検出(ZSAD)において顕著な性能を示した。
Bayes-PFL は画像固有の分布と画像に依存しない分布の両方を学習するために設計されており、テキストプロンプト空間を正規化し、未知のカテゴリに対するモデルの一般化を強化するために共同で使用される。
15の産業用および医療用データセットに対する実験により,本手法の優れた性能が示された。
- 参考スコア(独自算出の注目度): 17.590853105242864
- License:
- Abstract: Recently, vision-language models (e.g. CLIP) have demonstrated remarkable performance in zero-shot anomaly detection (ZSAD). By leveraging auxiliary data during training, these models can directly perform cross-category anomaly detection on target datasets, such as detecting defects on industrial product surfaces or identifying tumors in organ tissues. Existing approaches typically construct text prompts through either manual design or the optimization of learnable prompt vectors. However, these methods face several challenges: 1) handcrafted prompts require extensive expert knowledge and trial-and-error; 2) single-form learnable prompts struggle to capture complex anomaly semantics; and 3) an unconstrained prompt space limit generalization to unseen categories. To address these issues, we propose Bayesian Prompt Flow Learning (Bayes-PFL), which models the prompt space as a learnable probability distribution from a Bayesian perspective. Specifically, a prompt flow module is designed to learn both image-specific and image-agnostic distributions, which are jointly utilized to regularize the text prompt space and enhance the model's generalization on unseen categories. These learned distributions are then sampled to generate diverse text prompts, effectively covering the prompt space. Additionally, a residual cross-attention (RCA) module is introduced to better align dynamic text embeddings with fine-grained image features. Extensive experiments on 15 industrial and medical datasets demonstrate our method's superior performance.
- Abstract(参考訳): 近年,ゼロショット異常検出(ZSAD)では視覚言語モデル(例えばCLIP)が顕著な性能を示した。
トレーニング中に補助的なデータを活用することで、これらのモデルは、工業製品表面の欠陥の検出や臓器組織内の腫瘍の特定など、ターゲットデータセットのカテゴリ間異常検出を直接行うことができる。
既存のアプローチは通常、手動設計または学習可能なプロンプトベクトルの最適化を通じてテキストプロンプトを構築する。
しかし、これらの手法はいくつかの課題に直面している。
1)手作りのプロンプトには,広範な専門家の知識と試行錯誤が必要である。
2)シングルフォーム学習可能なプロンプトは、複雑な異常な意味を捉えるのに苦労する。
3) 制約のないプロンプト空間極限の非可視圏への一般化。
これらの問題に対処するために,ベイズ的確率流学習(Bayes-PFL)を提案し,ベイズ的視点から学習可能な確率分布としてプロンプト空間をモデル化する。
具体的には、プロンプトフローモジュールは、画像固有の分布と画像に依存しない分布の両方を学習するために設計され、共同でテキストプロンプト空間の正規化と、目に見えないカテゴリにおけるモデルの一般化を強化するために使用される。
これらの学習された分布をサンプル化し、多様なテキストプロンプトを生成し、プロンプト空間を効果的にカバーする。
さらに、動的テキスト埋め込みときめ細かい画像特徴との整合性を改善するために、RCAモジュールが導入された。
15の産業用および医療用データセットに対する大規模な実験により,本手法の優れた性能が示された。
関連論文リスト
- Prompt Diffusion Robustifies Any-Modality Prompt Learning [43.35989471544046]
本稿では,各試料にカスタマイズされたプロンプトを得るために,拡散モデルを用いてプロンプトを徐々に洗練するプロンプト拡散法を提案する。
試験されたすべての素早い学習方法に対して、迅速な拡散を加えることで、15の多様なデータセットでテストされた分類タスクにおいて、ベース・ツー・ニューな一般化、クロスデータセットの一般化、ドメインの一般化のためのより堅牢な結果が得られる。
論文 参考訳(メタデータ) (2024-10-26T12:36:25Z) - Dude: Dual Distribution-Aware Context Prompt Learning For Large Vision-Language Model [27.56988000960972]
ドメイン共有コンテキストとクラス固有コンテキストの両方の2つのコンテキストに基づいた新しいフレームワークを導入する。
このような二重プロンプト手法は、大規模言語モデルで符号化された暗黙的および明示的な要素を結合することによって、モデルの特徴表現を強化する。
また、構築されたプロンプトと視覚トークンの関係を定量化するために、不均衡最適輸送(UOT)理論を定式化する。
論文 参考訳(メタデータ) (2024-07-05T13:15:29Z) - PromptAD: Learning Prompts with only Normal Samples for Few-Shot Anomaly Detection [59.34973469354926]
本稿では,PromptADと呼ばれる,数発の異常検出のための一級プロンプト学習手法を提案する。
画像レベル/ピクセルレベルの異常検出のために、PromptADはMVTecとVisAで11/12のショット設定で1位を達成した。
論文 参考訳(メタデータ) (2024-04-08T06:53:30Z) - Random Word Data Augmentation with CLIP for Zero-Shot Anomaly Detection [3.75292409381511]
本稿では,ゼロショット異常検出のためのデータソースとして,視覚言語モデルCLIPを利用する新しい手法を提案する。
生成された埋め込みをトレーニングデータとして使用することにより、フィードフォワードニューラルネットワークは、CLIPの埋め込みから正常および異常の特徴を抽出する。
実験により, ゼロショット設定において, 精巧なプロンプトアンサンブルを伴わずに, 最先端の性能を達成できることが実証された。
論文 参考訳(メタデータ) (2023-08-22T01:55:03Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - Discovering Failure Modes of Text-guided Diffusion Models via
Adversarial Search [52.519433040005126]
テキスト誘導拡散モデル(TDM)は広く応用されているが、予期せず失敗することがある。
本研究は,TDMの障害モードについて,より詳細に研究し,理解することを目的としている。
本稿では,TDM上での最初の逆探索手法であるSAGEを提案する。
論文 参考訳(メタデータ) (2023-06-01T17:59:00Z) - Bayesian Prompt Learning for Image-Language Model Generalization [64.50204877434878]
我々はベイズ法の正規化能力を用いて、変分推論問題としてプロンプト学習をフレーム化する。
提案手法は,プロンプト空間を正規化し,目に見えないプロンプトへの過剰適合を低減し,目に見えないプロンプトのプロンプト一般化を改善する。
ベイジアン・プロンプト学習がプロンプト空間の適切なカバレッジを提供する15のベンチマークを実証的に示す。
論文 参考訳(メタデータ) (2022-10-05T17:05:56Z) - PromptDet: Expand Your Detector Vocabulary with Uncurated Images [47.600059694034]
この作業の目的は、ゼロマニュアルアノテーションを使用して、新しい/見えないカテゴリに向けてオブジェクト検出器を拡張するスケーラブルなパイプラインを確立することである。
本稿では,事前学習された視覚言語モデルのテキストエンコーダから生成された分類器を用いて,各ボックスの提案を分類する2段階のオープン語彙オブジェクト検出器を提案する。
より広い範囲のオブジェクトを検出するための学習手順をスケールアップするために、利用可能なオンラインリソースを活用し、プロンプトを反復的に更新し、その後、ノイズの多い未修正画像の大規模なコーパス上に生成された擬似ラベルを用いて、提案した検出器を自己学習する。
論文 参考訳(メタデータ) (2022-03-30T17:50:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。