論文の概要: CLIP-AD: A Language-Guided Staged Dual-Path Model for Zero-shot Anomaly
Detection
- arxiv url: http://arxiv.org/abs/2311.00453v1
- Date: Wed, 1 Nov 2023 11:39:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 13:56:09.025253
- Title: CLIP-AD: A Language-Guided Staged Dual-Path Model for Zero-shot Anomaly
Detection
- Title(参考訳): CLIP-AD:ゼロショット異常検出のための言語ガイド付き段数パスモデル
- Authors: Xuhai Chen, Jiangning Zhang, Guanzhong Tian, Haoyang He, Wuhao Zhang,
Yabiao Wang, Chengjie Wang, Yunsheng Wu, Yong Liu
- Abstract要約: 本稿では,0ショット異常検出(AD)について検討し,テスト対象の参照画像なしでADを実行する。
我々は、言語誘導型戦略を採用し、大規模視覚言語モデルCLIPの優れたゼロショット分類機能を活用する、シンプルなyet- EffectiveアーキテクチャCLIP-ADを提案する。
- 参考スコア(独自算出の注目度): 48.13924517527657
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper considers zero-shot Anomaly Detection (AD), a valuable yet
under-studied task, which performs AD without any reference images of the test
objects. Specifically, we employ a language-guided strategy and propose a
simple-yet-effective architecture CLIP-AD, leveraging the superior zero-shot
classification capabilities of the large vision-language model CLIP. A natural
idea for anomaly segmentation is to directly calculate the similarity between
text/image features, but we observe opposite predictions and irrelevant
highlights in the results. Inspired by the phenomena, we introduce a Staged
Dual-Path model (SDP) that effectively uses features from various levels and
applies architecture and feature surgery to address these issues. Furthermore,
delving beyond surface phenomena, we identify the problem arising from
misalignment of text/image features in the joint embedding space. Thus, we
introduce a fine-tuning strategy by adding linear layers and construct an
extended model SDP+, further enhancing the performance. Abundant experiments
demonstrate the effectiveness of our approach, e.g., on VisA, SDP outperforms
SOTA by +1.0/+1.2 in classification/segmentation F1 scores, while SDP+ achieves
+1.9/+11.7 improvements.
- Abstract(参考訳): 本稿では,テスト対象の参照画像を用いずにadを実行する,価値ある未検証タスクであるゼロショット異常検出(ad)について考察する。
具体的には、言語誘導型戦略を採用し、大規模視覚言語モデルCLIPの優れたゼロショット分類機能を活用する、シンプルなyet- EffectiveアーキテクチャCLIP-ADを提案する。
anomaly segmentationの自然なアイデアは、テキストと画像の類似度を直接計算することだが、結果の反対の予測と無関係なハイライトを観察する。
この現象にインスパイアされたSDP(Staged Dual-Path Model)は,様々なレベルの特徴を効果的に活用し,これらの問題に対処するためのアーキテクチャと機能手術を適用する。
さらに, 表面現象を超えて, 埋め込み空間におけるテキスト・画像特徴の誤認から生じる問題を明らかにする。
そこで我々は,線形層を追加し,拡張モデル SDP+ を構築することによって微調整戦略を導入し,さらなる性能向上を図る。
例えば、VisAではSDPがSOTAを+1.0/+1.2で上回り、SDP+は+1.9/+11.7で改善した。
関連論文リスト
- Fine-Tuning CLIP's Last Visual Projector: A Few-Shot Cornucopia [45.93202559299953]
本稿では、最適化に「外部」パラメータを追加することなく、CLIP適応のための代替手法を提案する。
視覚の最後のプロジェクション行列を微調整するだけで、既存のベースラインと比較して高い性能が得られることが分かりました。
おそらく驚くべきことに、このアプローチはProLIPと呼ばれ、11のスクリーンショット分類ベンチマークの最先端よりも同等かそれ以上のパフォーマンスが得られる。
論文 参考訳(メタデータ) (2024-10-07T17:59:59Z) - Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition [58.79807861739438]
既存の歩行者認識アルゴリズム(PAR)は主に静的画像に基づいて開発されている。
本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
論文 参考訳(メタデータ) (2024-04-27T14:43:32Z) - DetCLIPv3: Towards Versatile Generative Open-vocabulary Object Detection [111.68263493302499]
DetCLIPv3は、オープンボキャブラリオブジェクト検出と階層ラベルの両方で優れた高性能検出器である。
DetCLIPv3は,1)Versatileモデルアーキテクチャ,2)高情報密度データ,3)効率的なトレーニング戦略の3つのコア設計によって特徴付けられる。
DetCLIPv3は、GLIPv2, GroundingDINO, DetCLIPv2をそれぞれ18.0/19.6/6 APで上回り、優れたオープン語彙検出性能を示す。
論文 参考訳(メタデータ) (2024-04-14T11:01:44Z) - Sample Complexity Characterization for Linear Contextual MDPs [67.79455646673762]
文脈決定プロセス(CMDP)は、遷移カーネルと報酬関数がコンテキスト変数によってインデックス付けされた異なるMDPで時間とともに変化できる強化学習のクラスを記述する。
CMDPは、時間とともに変化する環境で多くの現実世界のアプリケーションをモデル化するための重要なフレームワークとして機能する。
CMDPを2つの線形関数近似モデルで検討する: 文脈変化表現とすべての文脈に対する共通線形重み付きモデルIと、すべての文脈に対する共通表現と文脈変化線形重み付きモデルIIである。
論文 参考訳(メタデータ) (2024-02-05T03:25:04Z) - Pedestrian Attribute Recognition via CLIP based Prompt Vision-Language Fusion [23.62010759076202]
我々は、PARを視覚言語融合問題として定式化し、歩行者画像と属性ラベルの関係を完全に活用する。
提案するPARアルゴリズムは, 微調整手法と比較して0.75%しか学習可能なパラメータを調整できない。
論文 参考訳(メタデータ) (2023-12-17T11:59:14Z) - VadCLIP: Adapting Vision-Language Models for Weakly Supervised Video
Anomaly Detection [58.47940430618352]
弱教師付きビデオ異常検出(WSVAD)のための新しいパラダイムであるVadCLIPを提案する。
VadCLIPは、CLIPの強度に関する視覚と言語の間のきめ細かい関連をフル活用している。
本稿では,VadCLIPが粗粒度および細粒度 WSVAD の両面において最高の性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-08-22T14:58:36Z) - CLIP Brings Better Features to Visual Aesthetics Learners [12.0962117940694]
画像美学評価(IAA)は,主観的かつ高価なラベル付け手法により,このような手法の理想的な適用シナリオの1つである。
本研究は,テキストbfCLIPベースのテキストbfSemi-supervised textbfKnowledge textbfDistillationパラダイム,すなわちtextbftextitCSKDを提案する。
論文 参考訳(メタデータ) (2023-07-28T16:00:21Z) - Adapting Contrastive Language-Image Pretrained (CLIP) Models for
Out-of-Distribution Detection [1.597617022056624]
本研究では,視覚的アウトオブディストリビューション(OOD)検出のための事前訓練された特徴抽出器に関する総合的研究を行った。
我々は,OOD検出のための視覚言語モデルに適応するスタイリット擬似ラベル探索(PLP)と呼ばれる,シンプルでスケーラブルな新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-10T10:02:18Z) - SPTS v2: Single-Point Scene Text Spotting [146.98118405786445]
新たなフレームワークであるSPTS v2では,単一ポイントアノテーションを用いて高いパフォーマンスのテキストスポッティングモデルをトレーニングすることができる。
SPTS v2は、より少ないパラメータで従来の最先端のシングルポイントテキストスポッターより優れていることを示す。
実験により、シーンテキストスポッティングにおける単一点表現の潜在的好みが示唆される。
論文 参考訳(メタデータ) (2023-01-04T14:20:14Z) - CALIP: Zero-Shot Enhancement of CLIP with Parameter-free Attention [31.84299688413136]
コントラスト言語-画像事前学習は、大きな伝達性を持つ視覚表現を学習することが示されている。
既存の作業では、CLIPに新たな学習可能なモジュールを提案し、数ショットのトレーニングセットでそれらを微調整する。
本稿では,パラメータフリーアテンションモジュールを通じてCLIPのゼロショット性能を向上させるために,フリーランチ拡張手法であるCALIPを導入する。
論文 参考訳(メタデータ) (2022-09-28T15:22:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。