論文の概要: StackCLIP: Clustering-Driven Stacked Prompt in Zero-Shot Industrial Anomaly Detection
- arxiv url: http://arxiv.org/abs/2506.23577v1
- Date: Mon, 30 Jun 2025 07:29:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.957555
- Title: StackCLIP: Clustering-Driven Stacked Prompt in Zero-Shot Industrial Anomaly Detection
- Title(参考訳): StackCLIP:ゼロショット産業異常検出におけるクラスタリング駆動型スタックドプロンプト
- Authors: Yanning Hou, Yanran Ruan, Junfa Li, Shanshan Wang, Jianfeng Qiu, Ke Xu,
- Abstract要約: そこで本研究では,カテゴリ名を複数カテゴリにスタッキングすることで,階層化されたプロンプトを生成する手法を提案する。
Clustering-Driven Stacked Prompts (CSP)モジュールは、意味論的に類似したカテゴリを積み重ねることで、ジェネリックプロンプトを構成する。
Ensemble Feature Alignment (EFA)モジュールは、各スタッククラスタに適した知識固有の線形レイヤをトレーニングする。
- 参考スコア(独自算出の注目度): 5.390045840354081
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Enhancing the alignment between text and image features in the CLIP model is a critical challenge in zero-shot industrial anomaly detection tasks. Recent studies predominantly utilize specific category prompts during pretraining, which can cause overfitting to the training categories and limit model generalization. To address this, we propose a method that transforms category names through multicategory name stacking to create stacked prompts, forming the basis of our StackCLIP model. Our approach introduces two key components. The Clustering-Driven Stacked Prompts (CSP) module constructs generic prompts by stacking semantically analogous categories, while utilizing multi-object textual feature fusion to amplify discriminative anomalies among similar objects. The Ensemble Feature Alignment (EFA) module trains knowledge-specific linear layers tailored for each stack cluster and adaptively integrates them based on the attributes of test categories. These modules work together to deliver superior training speed, stability, and convergence, significantly boosting anomaly segmentation performance. Additionally, our stacked prompt framework offers robust generalization across classification tasks. To further improve performance, we introduce the Regulating Prompt Learning (RPL) module, which leverages the generalization power of stacked prompts to refine prompt learning, elevating results in anomaly detection classification tasks. Extensive testing on seven industrial anomaly detection datasets demonstrates that our method achieves state-of-the-art performance in both zero-shot anomaly detection and segmentation tasks.
- Abstract(参考訳): CLIPモデルにおけるテキストと画像の特徴の整合性を高めることは、ゼロショット産業異常検出タスクにおいて重要な課題である。
近年の研究では、プレトレーニング中に特定のカテゴリプロンプトを主に利用しており、トレーニングカテゴリに過度に適合し、モデル一般化を制限することができる。
そこで本研究では,カテゴリ名を複数カテゴリ名スタックに変換して,スタック化されたプロンプトを生成する手法を提案し,StackCLIPモデルの基礎となる。
このアプローチでは2つの重要なコンポーネントを導入しています。
Clustering-Driven Stacked Prompts (CSP)モジュールは、セマンティックな類似のカテゴリを積み重ねることでジェネリックプロンプトを構築し、類似したオブジェクト間の差別的異常を増幅するために、多目的テキスト特徴融合を利用する。
Ensemble Feature Alignment (EFA)モジュールは、各スタッククラスタに適した知識固有の線形レイヤをトレーニングし、テストカテゴリの属性に基づいてそれらを適応的に統合する。
これらのモジュールは協調して、訓練速度、安定性、収束性を向上し、異常セグメンテーション性能を大幅に向上させる。
さらに、当社のスタックドプロンプトフレームワークは、分類タスクにまたがる堅牢な一般化を提供する。
さらに性能を向上させるために,重ねられたプロンプトの一般化力を活用して即時学習を洗練し,異常検出分類タスクにおける結果を向上するRegulation Prompt Learning (RPL)モジュールを導入する。
7つの産業的異常検出データセットの広範囲な試験により, ゼロショット異常検出とセグメント化の両タスクにおいて, この手法が最先端の性能を達成することが示された。
関連論文リスト
- Intelligently Augmented Contrastive Tensor Factorization: Empowering Multi-dimensional Time Series Classification in Low-Data Environments [4.77513566805416]
我々は、多機能でデータ効率のよいフレームワークITA-CTF(Intelligently Augmented Contrastive Factorization)を提案する。
ITA-CTFモジュールは多次元時系列から効率的な表現を学習する。
類似性学習とクラス認識に対する新しい対照的な損失最適化が組み込まれている。
標準およびいくつかのDLベンチマークと比較して、注目すべきパフォーマンス改善は18.7%に達した。
論文 参考訳(メタデータ) (2025-05-03T11:28:13Z) - GenCLIP: Generalizing CLIP Prompts for Zero-shot Anomaly Detection [13.67800822455087]
ZSADの重要な課題は、一般的なプロンプトを安定して学び、効果的に活用することである。
我々は,ジェネラルプロンプトをより効果的に学習し活用する新しいフレームワークであるGenCLIPを提案する。
本稿では、視覚強調分岐が細粒度のカテゴリ特化特徴を捉え、クエリ専用分岐が一般化を優先するデュアルブランチ推論戦略を提案する。
論文 参考訳(メタデータ) (2025-04-21T07:38:25Z) - Category-Adaptive Cross-Modal Semantic Refinement and Transfer for Open-Vocabulary Multi-Label Recognition [59.203152078315235]
本稿では,カテゴリ適応型クロスモーダル・セマンティック・リファインメント・アンド・トランスファー(C$2$SRT)フレームワークを提案する。
提案するフレームワークは,2つの相補的モジュール,すなわち,カテゴリ内セマンティックリファインメント(ISR)モジュールと,カテゴリ間セマンティックトランスファー(IST)モジュールから構成される。
OV-MLRベンチマークの実験は、提案されたC$2$SRTフレームワークが現在の最先端アルゴリズムより優れていることを明らかに示している。
論文 参考訳(メタデータ) (2024-12-09T04:00:18Z) - Revitalizing Reconstruction Models for Multi-class Anomaly Detection via Class-Aware Contrastive Learning [19.114941437668705]
クラス認識型コントラスト学習(CL)を取り入れたプラグアンドプレイ修正を提案する。
4つのデータセットにまたがる実験により、我々のアプローチの有効性が検証され、高度な手法と比較して大幅に改善され、性能が向上した。
論文 参考訳(メタデータ) (2024-12-06T04:31:09Z) - MMCL: Boosting Deformable DETR-Based Detectors with Multi-Class Min-Margin Contrastive Learning for Superior Prohibited Item Detection [8.23801404004195]
X線画像における禁止項目検出は、最も効果的なセキュリティ検査方法の1つである。
X線画像における特異な現象が重なり合うと、前景と背景の特徴が結合する。
コンテンツクエリのカテゴリ意味情報を明らかにするために,Multi-class Min-Margin Contrastive Learning (MMCL)法を提案する。
論文 参考訳(メタデータ) (2024-06-05T12:07:58Z) - CFPL-FAS: Class Free Prompt Learning for Generalizable Face Anti-spoofing [66.6712018832575]
ドメイン一般化 (DG) ベースの Face Anti-Spoofing (FAS) は、目に見えないドメインにおけるモデルの性能を改善することを目的としている。
私たちはCLIPのような大規模VLMを利用し、テキスト機能を利用して分類器の重みを動的に調整し、一般化可能な視覚的特徴を探索する。
論文 参考訳(メタデータ) (2024-03-21T11:58:50Z) - Toward Multi-class Anomaly Detection: Exploring Class-aware Unified Model against Inter-class Interference [67.36605226797887]
統一型異常検出(MINT-AD)のためのマルチクラスインプリシトニューラル表現変換器を提案する。
マルチクラス分布を学習することにより、モデルが変換器デコーダのクラス対応クエリ埋め込みを生成する。
MINT-ADは、カテゴリと位置情報を特徴埋め込み空間に投影することができ、さらに分類と事前確率損失関数によって監督される。
論文 参考訳(メタデータ) (2024-03-21T08:08:31Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - Learning Prompt-Enhanced Context Features for Weakly-Supervised Video
Anomaly Detection [37.99031842449251]
弱い監督下での映像異常検出は重大な課題を呈する。
本稿では,効率的なコンテキストモデリングとセマンティック識別性の向上に焦点をあてた,弱教師付き異常検出フレームワークを提案する。
提案手法は,特定の異常なサブクラスの検出精度を大幅に向上させ,その実用的価値と有効性を裏付けるものである。
論文 参考訳(メタデータ) (2023-06-26T06:45:16Z) - Anomaly Detection using Ensemble Classification and Evidence Theory [62.997667081978825]
本稿では,アンサンブル分類とエビデンス理論を用いた新しい検出手法を提案する。
固体アンサンブル分類器を構築するためのプール選択戦略が提示される。
我々は異常検出手法の不確実性を利用する。
論文 参考訳(メタデータ) (2022-12-23T00:50:41Z) - Learning Label Modular Prompts for Text Classification in the Wild [56.66187728534808]
そこで本研究では,非定常学習/テスト段階の異なるテキスト分類手法を提案する。
複雑なタスクをモジュラー成分に分解することで、そのような非定常環境下での堅牢な一般化が可能になる。
テキスト分類タスクのためのラベルモジュール型プロンプトチューニングフレームワークMODcularPROMPTを提案する。
論文 参考訳(メタデータ) (2022-11-30T16:26:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。