論文の概要: Winning Solution for the CVPR2023 Visual Anomaly and Novelty Detection
Challenge: Multimodal Prompting for Data-centric Anomaly Detection
- arxiv url: http://arxiv.org/abs/2306.09067v1
- Date: Thu, 15 Jun 2023 11:49:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 15:05:18.339650
- Title: Winning Solution for the CVPR2023 Visual Anomaly and Novelty Detection
Challenge: Multimodal Prompting for Data-centric Anomaly Detection
- Title(参考訳): cvpr2023視覚異常の勝利解と新奇性検出課題 : データ中心異常検出のためのマルチモーダルプロンプト
- Authors: Yunkang Cao, Xiaohao Xu, Chen Sun, Yuqi Cheng, Liang Gao, Weiming Shen
- Abstract要約: 本稿では,CVPR2023 Visual Anomaly and Novelty Detection (VAND)チャレンジに対するチームテキストSegment Any Anomalyの勝利ソリューションを紹介する。
マルチモーダルプロンプトを用いたゼロショット異常セグメンテーションのための新しいフレームワーク、textiti.e., Segment Any Anomaly + (SAA$+$)を提案する。
- 参考スコア(独自算出の注目度): 16.306800113609526
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: This technical report introduces the winning solution of the team
\textit{Segment Any Anomaly} for the CVPR2023 Visual Anomaly and Novelty
Detection (VAND) challenge. Going beyond uni-modal prompt, \textit{e.g.},
language prompt, we present a novel framework, \textit{i.e.}, Segment Any
Anomaly + (SAA$+$), for zero-shot anomaly segmentation with multi-modal prompts
for the regularization of cascaded modern foundation models. Inspired by the
great zero-shot generalization ability of foundation models like Segment
Anything, we first explore their assembly (SAA) to leverage diverse multi-modal
prior knowledge for anomaly localization. Subsequently, we further introduce
multimodal prompts (SAA$+$) derived from domain expert knowledge and target
image context to enable the non-parameter adaptation of foundation models to
anomaly segmentation. The proposed SAA$+$ model achieves state-of-the-art
performance on several anomaly segmentation benchmarks, including VisA and
MVTec-AD, in the zero-shot setting. We will release the code of our winning
solution for the CVPR2023 VAND challenge at
\href{Segment-Any-Anomaly}{https://github.com/caoyunkang/Segment-Any-Anomaly}
\footnote{The extended-version paper with more details is available at
~\cite{cao2023segment}.}
- Abstract(参考訳): この技術レポートでは、CVPR2023 Visual Anomaly and Novelty Detection (VAND) チャレンジに対するチーム \textit{Segment Any Anomaly} の勝利ソリューションを紹介します。
ユニモーダルプロンプト (uni-modal prompt, \textit{e.g}, language prompt) を超えて、新しいフレームワーク \textit{i.e.}, segment any anomaly + (saa$+$), for zero-shot anomaly segmentation with multi-modal prompts for regularization for the regularization of cascaded modern foundation models。
Segment Anythingのような基礎モデルのゼロショット一般化能力に触発されて、我々はまずそれらのアセンブリ(SAA)を探索し、異常な局所化のために多様なマルチモーダル事前知識を活用する。
その後、ドメインエキスパートの知識とターゲット画像コンテキストから派生したマルチモーダルプロンプト(SAA$+$)を導入し、基礎モデルの異常セグメンテーションへの非パラメータ適応を可能にする。
提案したSAA$+$モデルは、ゼロショット設定において、VisAやMVTec-ADを含むいくつかの異常セグメンテーションベンチマークの最先端性能を達成する。
私たちは、cvpr2023 vand challengeの勝利ソリューションのコードを、 \href{segment-any-anomaly}{https://github.com/caoyunkang/segment-any-anomaly} \footnote{ ~\cite{cao2023segment}でリリースします。
}
関連論文リスト
- All in One Framework for Multimodal Re-identification in the Wild [58.380708329455466]
オールインワン(AIO)という,ReID導入のためのマルチモーダル学習パラダイム
AIOは、凍結したトレーニング済みのビッグデータをエンコーダとして利用し、追加の微調整なしに効果的なマルチモーダル検索を可能にする。
クロスモーダルおよびマルチモーダルReIDの実験により、AIOは様々なモーダルデータを扱うだけでなく、困難な状況でも優れていることが明らかになった。
論文 参考訳(メタデータ) (2024-05-08T01:04:36Z) - Multi-Agent VQA: Exploring Multi-Agent Foundation Models in Zero-Shot Visual Question Answering [48.7363941445826]
本稿では,オブジェクト検出とカウントにおける基礎モデルの限界を克服するために,Multi-Agent VQAという適応型マルチエージェントシステムを提案する。
ゼロショットシナリオで予備実験結果を示し、いくつかの障害事例を強調し、今後の研究の方向性を示す。
論文 参考訳(メタデータ) (2024-03-21T18:57:25Z) - Anomaly Detection by Adapting a pre-trained Vision Language Model [48.225404732089515]
トレーニング済みのCLIPモデルに適応することで,異常検出のためのCLIP-ADAという統合フレームワークを提案する。
学習可能なプロンプトを導入し、自己教師付き学習を通して異常パターンに関連付けることを提案する。
MVTec-AD と VisA の異常検出と局所化のための最新技術 97.5/55.6 と 89.3/33.1 を実現した。
論文 参考訳(メタデータ) (2024-03-14T15:35:07Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Segment Any Anomaly without Training via Hybrid Prompt Regularization [15.38935129648466]
ハイブリットプロンプト正規化を伴うゼロショット異常セグメンテーションのための新しいフレームワーク、すなわちセグメンツ・アノマリー+(SAA+)を提案する。
提案したSAA+モデルは,VasA,MVTec-AD,MTD,KSDD2など,いくつかの異常セグメンテーションベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-05-18T05:52:06Z) - Exploring Multi-Modal Representations for Ambiguity Detection &
Coreference Resolution in the SIMMC 2.0 Challenge [60.616313552585645]
会話型AIにおける効果的なあいまいさ検出と参照解決のためのモデルを提案する。
具体的には,TOD-BERTとLXMERTをベースとしたモデルを用いて,多数のベースラインと比較し,アブレーション実験を行う。
以上の結果から,(1)言語モデルでは曖昧さを検出するためにデータの相関を活用でき,(2)言語モデルではビジョンコンポーネントの必要性を回避できることがわかった。
論文 参考訳(メタデータ) (2022-02-25T12:10:02Z) - Modality Completion via Gaussian Process Prior Variational Autoencoders
for Multi-Modal Glioma Segmentation [75.58395328700821]
本稿では,患者スキャンに欠落するサブモダリティを1つ以上のインプットするために,MGP-VAE(Multi-modal Gaussian Process Prior Variational Autoencoder)を提案する。
MGP-VAEは、変分オートエンコーダ(VAE)に先立ってガウス過程(GP)を利用して、被験者/患者およびサブモダリティ相関を利用することができる。
4つのサブモダリティのうち2つ、または3つが欠落している脳腫瘍に対するMGP-VAEの適用性を示す。
論文 参考訳(メタデータ) (2021-07-07T19:06:34Z) - MISA: Modality-Invariant and -Specific Representations for Multimodal
Sentiment Analysis [48.776247141839875]
本稿では,2つの異なる部分空間に各モダリティを投影する新しいフレームワーク MISA を提案する。
最初の部分空間はモダリティ不変(modality-invariant)であり、モダリティにまたがる表現はその共通点を学び、モダリティギャップを減少させる。
一般的な感情分析ベンチマークであるMOSIとMOSEIの実験は、最先端モデルよりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2020-05-07T15:13:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。