論文の概要: 2nd Place Winning Solution for the CVPR2023 Visual Anomaly and Novelty
Detection Challenge: Multimodal Prompting for Data-centric Anomaly Detection
- arxiv url: http://arxiv.org/abs/2306.09067v2
- Date: Tue, 5 Sep 2023 14:44:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 04:47:32.067586
- Title: 2nd Place Winning Solution for the CVPR2023 Visual Anomaly and Novelty
Detection Challenge: Multimodal Prompting for Data-centric Anomaly Detection
- Title(参考訳): CVPR2023視覚異常とノベルティ検出のための第2位入賞ソリューション:データ中心異常検出のためのマルチモーダルプロンプト
- Authors: Yunkang Cao, Xiaohao Xu, Chen Sun, Yuqi Cheng, Liang Gao, Weiming Shen
- Abstract要約: 本稿では,CVPR2023 Visual Anomaly and Novelty Detection (VAND) の課題に対して,Segment Any Anomaly チームが勝利したソリューションを紹介した。
マルチモーダルプロンプトを用いたゼロショット異常セグメンテーションのための新しいフレームワーク、すなわちセグメンツ・アノマリー + (SAA$+$) を提案する。
CVPR2023 VANで勝利したソリューションのコードを公開します。
- 参考スコア(独自算出の注目度): 10.682758791557436
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: This technical report introduces the winning solution of the team Segment Any
Anomaly for the CVPR2023 Visual Anomaly and Novelty Detection (VAND) challenge.
Going beyond uni-modal prompt, e.g., language prompt, we present a novel
framework, i.e., Segment Any Anomaly + (SAA$+$), for zero-shot anomaly
segmentation with multi-modal prompts for the regularization of cascaded modern
foundation models. Inspired by the great zero-shot generalization ability of
foundation models like Segment Anything, we first explore their assembly (SAA)
to leverage diverse multi-modal prior knowledge for anomaly localization.
Subsequently, we further introduce multimodal prompts (SAA$+$) derived from
domain expert knowledge and target image context to enable the non-parameter
adaptation of foundation models to anomaly segmentation. The proposed SAA$+$
model achieves state-of-the-art performance on several anomaly segmentation
benchmarks, including VisA and MVTec-AD, in the zero-shot setting. We will
release the code of our winning solution for the CVPR2023 VAN.
- Abstract(参考訳): この技術レポートでは、CVPR2023 Visual Anomaly and Novelty Detection (VAND)チャレンジに対するSegment Any Anomalyチームの勝利ソリューションを紹介します。
ユニモーダルなプロンプト、例えば言語プロンプトを超えて、カスケードされた現代基礎モデルの正規化のためのマルチモーダルなプロンプトを持つゼロショット異常セグメンテーションのための新しいフレームワーク、すなわちセグメンツ・アノマリー + (SAA$+$) を提示する。
Segment Anythingのような基礎モデルのゼロショット一般化能力に触発されて、我々はまずそれらのアセンブリ(SAA)を探索し、異常な局所化のために多様なマルチモーダル事前知識を活用する。
その後、ドメインエキスパートの知識とターゲット画像コンテキストから派生したマルチモーダルプロンプト(SAA$+$)を導入し、基礎モデルの異常セグメンテーションへの非パラメータ適応を可能にする。
提案したSAA$+$モデルは、ゼロショット設定において、VisAやMVTec-ADを含むいくつかの異常セグメンテーションベンチマークの最先端性能を達成する。
我々は、cvpr2023バンの勝利ソリューションのコードをリリースする。
関連論文リスト
- Anomaly Detection by Adapting a pre-trained Vision Language Model [48.225404732089515]
トレーニング済みのCLIPモデルに適応することで,異常検出のためのCLIP-ADAという統合フレームワークを提案する。
学習可能なプロンプトを導入し、自己教師付き学習を通して異常パターンに関連付けることを提案する。
MVTec-AD と VisA の異常検出と局所化のための最新技術 97.5/55.6 と 89.3/33.1 を実現した。
論文 参考訳(メタデータ) (2024-03-14T15:35:07Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Segment Any Anomaly without Training via Hybrid Prompt Regularization [15.38935129648466]
ハイブリットプロンプト正規化を伴うゼロショット異常セグメンテーションのための新しいフレームワーク、すなわちセグメンツ・アノマリー+(SAA+)を提案する。
提案したSAA+モデルは,VasA,MVTec-AD,MTD,KSDD2など,いくつかの異常セグメンテーションベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-05-18T05:52:06Z) - Exploring Multi-Modal Representations for Ambiguity Detection &
Coreference Resolution in the SIMMC 2.0 Challenge [60.616313552585645]
会話型AIにおける効果的なあいまいさ検出と参照解決のためのモデルを提案する。
具体的には,TOD-BERTとLXMERTをベースとしたモデルを用いて,多数のベースラインと比較し,アブレーション実験を行う。
以上の結果から,(1)言語モデルでは曖昧さを検出するためにデータの相関を活用でき,(2)言語モデルではビジョンコンポーネントの必要性を回避できることがわかった。
論文 参考訳(メタデータ) (2022-02-25T12:10:02Z) - Modality Completion via Gaussian Process Prior Variational Autoencoders
for Multi-Modal Glioma Segmentation [75.58395328700821]
本稿では,患者スキャンに欠落するサブモダリティを1つ以上のインプットするために,MGP-VAE(Multi-modal Gaussian Process Prior Variational Autoencoder)を提案する。
MGP-VAEは、変分オートエンコーダ(VAE)に先立ってガウス過程(GP)を利用して、被験者/患者およびサブモダリティ相関を利用することができる。
4つのサブモダリティのうち2つ、または3つが欠落している脳腫瘍に対するMGP-VAEの適用性を示す。
論文 参考訳(メタデータ) (2021-07-07T19:06:34Z) - MISA: Modality-Invariant and -Specific Representations for Multimodal
Sentiment Analysis [48.776247141839875]
本稿では,2つの異なる部分空間に各モダリティを投影する新しいフレームワーク MISA を提案する。
最初の部分空間はモダリティ不変(modality-invariant)であり、モダリティにまたがる表現はその共通点を学び、モダリティギャップを減少させる。
一般的な感情分析ベンチマークであるMOSIとMOSEIの実験は、最先端モデルよりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2020-05-07T15:13:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。