Fugu-MT 論文翻訳(概要): CLIP-AD: A Language-Guided Staged Dual-Path Model for Zero-shot Anomaly Detection

論文の概要: CLIP-AD: A Language-Guided Staged Dual-Path Model for Zero-shot Anomaly Detection

arxiv url: http://arxiv.org/abs/2311.00453v2
Date: Sat, 2 Mar 2024 13:54:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-05 20:26:34.818172
Title: CLIP-AD: A Language-Guided Staged Dual-Path Model for Zero-shot Anomaly Detection
Title（参考訳）: CLIP-AD:ゼロショット異常検出のための言語ガイド付き段数パスモデル
Authors: Xuhai Chen, Jiangning Zhang, Guanzhong Tian, Haoyang He, Wuhao Zhang, Yabiao Wang, Chengjie Wang, Yong Liu
Abstract要約: 大規模視覚言語モデルCLIPのゼロショット機能を活用するために,CLIP-ADというフレームワークを提案する。異常写像の直接計算における逆の予測と無関係なハイライトについて述べる。
参考スコア（独自算出の注目度）: 49.510604614688745
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper considers zero-shot Anomaly Detection (AD), performing AD without reference images of the test objects. We propose a framework called CLIP-AD to leverage the zero-shot capabilities of the large vision-language model CLIP. Firstly, we reinterpret the text prompts design from a distributional perspective and propose a Representative Vector Selection (RVS) paradigm to obtain improved text features. Secondly, we note opposite predictions and irrelevant highlights in the direct computation of the anomaly maps. To address these issues, we introduce a Staged Dual-Path model (SDP) that leverages features from various levels and applies architecture and feature surgery. Lastly, delving deeply into the two phenomena, we point out that the image and text features are not aligned in the joint embedding space. Thus, we introduce a fine-tuning strategy by adding linear layers and construct an extended model SDP+, further enhancing the performance. Abundant experiments demonstrate the effectiveness of our approach, e.g., on MVTec-AD, SDP outperforms the SOTA WinCLIP by +4.2/+10.7 in segmentation metrics F1-max/PRO, while SDP+ achieves +8.3/+20.5 improvements.
Abstract（参考訳）: 本稿では、テスト対象の参照画像なしでADを行うゼロショット異常検出(AD)について考察する。大規模視覚言語モデルCLIPのゼロショット機能を活用するために,CLIP-ADというフレームワークを提案する。まず,分布的視点からテキストプロンプト設計を再解釈し,改良されたテキスト特徴を得るために代表ベクトル選択(rvs)パラダイムを提案する。第二に、異常写像の直接計算における逆の予測と無関係なハイライトについて述べる。これらの問題に対処するために、様々なレベルの特徴を活用し、アーキテクチャと機能手術を適用したStaged Dual-Path Model (SDP)を導入する。最後に,2つの現象を深く掘り下げて,画像とテキストの特徴が結合埋め込み空間内で一致していないことを指摘する。そこで我々は,線形層を追加し,拡張モデル SDP+ を構築することによって微調整戦略を導入し,さらなる性能向上を図る。例えばMVTec-ADでは、SDPはセグメンテーションの指標F1-max/PROにおいてSOTA WinCLIPを+4.2/+10.7で上回り、SDP+は+8.3/+20.5で改善している。

関連論文リスト

PIP: Perturbation-based Iterative Pruning for Large Language Models [5.511065308044068]
PIP (Perturbation-based Iterative Pruning) は,大規模言語モデルを最適化する新しい二重ビュー構造化プルーニング手法である。実験の結果,PIPは元のモデルの精度の85%以上を維持しつつ,パラメータ数を約20%削減できることがわかった。
論文参考訳（メタデータ） (2025-01-25T17:10:50Z)
Fine-Tuning CLIP's Last Visual Projector: A Few-Shot Cornucopia [45.93202559299953]
本稿では、最適化に「外部」パラメータを追加することなく、CLIP適応のための代替手法を提案する。視覚の最後のプロジェクション行列を微調整するだけで、既存のベースラインと比較して高い性能が得られることが分かりました。おそらく驚くべきことに、このアプローチはProLIPと呼ばれ、11のスクリーンショット分類ベンチマークの最先端よりも同等かそれ以上のパフォーマンスが得られる。
論文参考訳（メタデータ） (2024-10-07T17:59:59Z)
Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition [58.79807861739438]
既存の歩行者認識アルゴリズム(PAR)は主に静的画像に基づいて開発されている。本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
論文参考訳（メタデータ） (2024-04-27T14:43:32Z)
DetCLIPv3: Towards Versatile Generative Open-vocabulary Object Detection [111.68263493302499]
DetCLIPv3は、オープンボキャブラリオブジェクト検出と階層ラベルの両方で優れた高性能検出器である。 DetCLIPv3は,1)Versatileモデルアーキテクチャ,2)高情報密度データ,3)効率的なトレーニング戦略の3つのコア設計によって特徴付けられる。 DetCLIPv3は、GLIPv2, GroundingDINO, DetCLIPv2をそれぞれ18.0/19.6/6 APで上回り、優れたオープン語彙検出性能を示す。
論文参考訳（メタデータ） (2024-04-14T11:01:44Z)
Sample Complexity Characterization for Linear Contextual MDPs [67.79455646673762]
文脈決定プロセス(CMDP)は、遷移カーネルと報酬関数がコンテキスト変数によってインデックス付けされた異なるMDPで時間とともに変化できる強化学習のクラスを記述する。 CMDPは、時間とともに変化する環境で多くの現実世界のアプリケーションをモデル化するための重要なフレームワークとして機能する。 CMDPを2つの線形関数近似モデルで検討する: 文脈変化表現とすべての文脈に対する共通線形重み付きモデルIと、すべての文脈に対する共通表現と文脈変化線形重み付きモデルIIである。
論文参考訳（メタデータ） (2024-02-05T03:25:04Z)
Pedestrian Attribute Recognition via CLIP based Prompt Vision-Language Fusion [23.62010759076202]
我々は、PARを視覚言語融合問題として定式化し、歩行者画像と属性ラベルの関係を完全に活用する。提案するPARアルゴリズムは, 微調整手法と比較して0.75%しか学習可能なパラメータを調整できない。
論文参考訳（メタデータ） (2023-12-17T11:59:14Z)
VadCLIP: Adapting Vision-Language Models for Weakly Supervised Video Anomaly Detection [58.47940430618352]
弱教師付きビデオ異常検出(WSVAD)のための新しいパラダイムであるVadCLIPを提案する。 VadCLIPは、CLIPの強度に関する視覚と言語の間のきめ細かい関連をフル活用している。本稿では,VadCLIPが粗粒度および細粒度 WSVAD の両面において最高の性能を発揮することを示す。
論文参考訳（メタデータ） (2023-08-22T14:58:36Z)
CLIP Brings Better Features to Visual Aesthetics Learners [12.0962117940694]
画像美学評価(IAA)は,主観的かつ高価なラベル付け手法により,このような手法の理想的な適用シナリオの1つである。本研究は,テキストbfCLIPベースのテキストbfSemi-supervised textbfKnowledge textbfDistillationパラダイム,すなわちtextbftextitCSKDを提案する。
論文参考訳（メタデータ） (2023-07-28T16:00:21Z)
Adapting Contrastive Language-Image Pretrained (CLIP) Models for Out-of-Distribution Detection [1.597617022056624]
本研究では,視覚的アウトオブディストリビューション(OOD)検出のための事前訓練された特徴抽出器に関する総合的研究を行った。我々は,OOD検出のための視覚言語モデルに適応するスタイリット擬似ラベル探索(PLP)と呼ばれる,シンプルでスケーラブルな新しい手法を提案する。
論文参考訳（メタデータ） (2023-03-10T10:02:18Z)
SPTS v2: Single-Point Scene Text Spotting [146.98118405786445]
新たなフレームワークであるSPTS v2では,単一ポイントアノテーションを用いて高いパフォーマンスのテキストスポッティングモデルをトレーニングすることができる。 SPTS v2は、より少ないパラメータで従来の最先端のシングルポイントテキストスポッターより優れていることを示す。実験により、シーンテキストスポッティングにおける単一点表現の潜在的好みが示唆される。
論文参考訳（メタデータ） (2023-01-04T14:20:14Z)
PP-StructureV2: A Stronger Document Analysis System [9.846187457305879]
大量の文書データは、テキスト情報のない原画像のような構造化されていない形で存在する。本稿では、レイアウト情報抽出とキー情報抽出という2つのサブシステムを含むPP-StructureV2を提案する。上記のモデルとコードは、すべてGitHubリポジトリPaddleOCRでオープンソース化されている。
論文参考訳（メタデータ） (2022-10-11T12:07:32Z)
CALIP: Zero-Shot Enhancement of CLIP with Parameter-free Attention [31.84299688413136]
コントラスト言語-画像事前学習は、大きな伝達性を持つ視覚表現を学習することが示されている。既存の作業では、CLIPに新たな学習可能なモジュールを提案し、数ショットのトレーニングセットでそれらを微調整する。本稿では,パラメータフリーアテンションモジュールを通じてCLIPのゼロショット性能を向上させるために,フリーランチ拡張手法であるCALIPを導入する。
論文参考訳（メタデータ） (2022-09-28T15:22:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。