論文の概要: 2nd Place Winning Solution for the CVPR2023 Visual Anomaly and Novelty
Detection Challenge: Multimodal Prompting for Data-centric Anomaly Detection
- arxiv url: http://arxiv.org/abs/2306.09067v2
- Date: Tue, 5 Sep 2023 14:44:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 04:47:32.067586
- Title: 2nd Place Winning Solution for the CVPR2023 Visual Anomaly and Novelty
Detection Challenge: Multimodal Prompting for Data-centric Anomaly Detection
- Title(参考訳): CVPR2023視覚異常とノベルティ検出のための第2位入賞ソリューション:データ中心異常検出のためのマルチモーダルプロンプト
- Authors: Yunkang Cao, Xiaohao Xu, Chen Sun, Yuqi Cheng, Liang Gao, Weiming Shen
- Abstract要約: 本稿では,CVPR2023 Visual Anomaly and Novelty Detection (VAND) の課題に対して,Segment Any Anomaly チームが勝利したソリューションを紹介した。
マルチモーダルプロンプトを用いたゼロショット異常セグメンテーションのための新しいフレームワーク、すなわちセグメンツ・アノマリー + (SAA$+$) を提案する。
CVPR2023 VANで勝利したソリューションのコードを公開します。
- 参考スコア(独自算出の注目度): 10.682758791557436
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: This technical report introduces the winning solution of the team Segment Any
Anomaly for the CVPR2023 Visual Anomaly and Novelty Detection (VAND) challenge.
Going beyond uni-modal prompt, e.g., language prompt, we present a novel
framework, i.e., Segment Any Anomaly + (SAA$+$), for zero-shot anomaly
segmentation with multi-modal prompts for the regularization of cascaded modern
foundation models. Inspired by the great zero-shot generalization ability of
foundation models like Segment Anything, we first explore their assembly (SAA)
to leverage diverse multi-modal prior knowledge for anomaly localization.
Subsequently, we further introduce multimodal prompts (SAA$+$) derived from
domain expert knowledge and target image context to enable the non-parameter
adaptation of foundation models to anomaly segmentation. The proposed SAA$+$
model achieves state-of-the-art performance on several anomaly segmentation
benchmarks, including VisA and MVTec-AD, in the zero-shot setting. We will
release the code of our winning solution for the CVPR2023 VAN.
- Abstract(参考訳): この技術レポートでは、CVPR2023 Visual Anomaly and Novelty Detection (VAND)チャレンジに対するSegment Any Anomalyチームの勝利ソリューションを紹介します。
ユニモーダルなプロンプト、例えば言語プロンプトを超えて、カスケードされた現代基礎モデルの正規化のためのマルチモーダルなプロンプトを持つゼロショット異常セグメンテーションのための新しいフレームワーク、すなわちセグメンツ・アノマリー + (SAA$+$) を提示する。
Segment Anythingのような基礎モデルのゼロショット一般化能力に触発されて、我々はまずそれらのアセンブリ(SAA)を探索し、異常な局所化のために多様なマルチモーダル事前知識を活用する。
その後、ドメインエキスパートの知識とターゲット画像コンテキストから派生したマルチモーダルプロンプト(SAA$+$)を導入し、基礎モデルの異常セグメンテーションへの非パラメータ適応を可能にする。
提案したSAA$+$モデルは、ゼロショット設定において、VisAやMVTec-ADを含むいくつかの異常セグメンテーションベンチマークの最先端性能を達成する。
我々は、cvpr2023バンの勝利ソリューションのコードをリリースする。
関連論文リスト
- First Place Solution to the ECCV 2024 BRAVO Challenge: Evaluating Robustness of Vision Foundation Models for Semantic Segmentation [1.8570591025615457]
我々はECCV 2024 BRAVO Challengeの第1位となるソリューションを提示する。
モデルはCityscapesでトレーニングされ、その堅牢性はいくつかのアウト・オブ・ディストリビューションデータセットで評価される。
このアプローチは、より複雑な既存のアプローチよりも優れており、チャレンジにおいて第一位を達成しています。
論文 参考訳(メタデータ) (2024-09-25T16:15:06Z) - Sample-agnostic Adversarial Perturbation for Vision-Language Pre-training Models [7.350203999073509]
AIセキュリティに関する最近の研究は、画像やテキストの微妙で意図的に設計された摂動に対するビジョンランゲージ事前学習モデルの脆弱性を強調している。
私たちの知る限りでは、どんな画像にも当てはまる普遍的でサンプルに依存しない摂動の生成を探索する、マルチモーダルな決定境界による最初の研究である。
論文 参考訳(メタデータ) (2024-08-06T06:25:39Z) - Integrating Text and Image Pre-training for Multi-modal Algorithmic Reasoning [7.84845040922464]
本稿では,CVPRマルチモーダルアルゴリズム推論タスク2024におけるSMART-101の課題について述べる。
従来の視覚的な質問や回答タスクとは異なり、この課題はニューラルネットワークの抽象化、推論、一般化能力を評価する。
本モデルは,テキストと画像からそれぞれ特徴を抽出する2つの事前学習モデルに基づく。
論文 参考訳(メタデータ) (2024-06-08T01:45:06Z) - All in One Framework for Multimodal Re-identification in the Wild [58.380708329455466]
オールインワン(AIO)という,ReID導入のためのマルチモーダル学習パラダイム
AIOは、凍結したトレーニング済みのビッグデータをエンコーダとして利用し、追加の微調整なしに効果的なマルチモーダル検索を可能にする。
クロスモーダルおよびマルチモーダルReIDの実験により、AIOは様々なモーダルデータを扱うだけでなく、困難な状況でも優れていることが明らかになった。
論文 参考訳(メタデータ) (2024-05-08T01:04:36Z) - Multi-Agent VQA: Exploring Multi-Agent Foundation Models in Zero-Shot Visual Question Answering [48.7363941445826]
本稿では,オブジェクト検出とカウントにおける基礎モデルの限界を克服するために,Multi-Agent VQAという適応型マルチエージェントシステムを提案する。
ゼロショットシナリオで予備実験結果を示し、いくつかの障害事例を強調し、今後の研究の方向性を示す。
論文 参考訳(メタデータ) (2024-03-21T18:57:25Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Segment Any Anomaly without Training via Hybrid Prompt Regularization [15.38935129648466]
ハイブリットプロンプト正規化を伴うゼロショット異常セグメンテーションのための新しいフレームワーク、すなわちセグメンツ・アノマリー+(SAA+)を提案する。
提案したSAA+モデルは,VasA,MVTec-AD,MTD,KSDD2など,いくつかの異常セグメンテーションベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-05-18T05:52:06Z) - Exploring Multi-Modal Representations for Ambiguity Detection &
Coreference Resolution in the SIMMC 2.0 Challenge [60.616313552585645]
会話型AIにおける効果的なあいまいさ検出と参照解決のためのモデルを提案する。
具体的には,TOD-BERTとLXMERTをベースとしたモデルを用いて,多数のベースラインと比較し,アブレーション実験を行う。
以上の結果から,(1)言語モデルでは曖昧さを検出するためにデータの相関を活用でき,(2)言語モデルではビジョンコンポーネントの必要性を回避できることがわかった。
論文 参考訳(メタデータ) (2022-02-25T12:10:02Z) - Modality Completion via Gaussian Process Prior Variational Autoencoders
for Multi-Modal Glioma Segmentation [75.58395328700821]
本稿では,患者スキャンに欠落するサブモダリティを1つ以上のインプットするために,MGP-VAE(Multi-modal Gaussian Process Prior Variational Autoencoder)を提案する。
MGP-VAEは、変分オートエンコーダ(VAE)に先立ってガウス過程(GP)を利用して、被験者/患者およびサブモダリティ相関を利用することができる。
4つのサブモダリティのうち2つ、または3つが欠落している脳腫瘍に対するMGP-VAEの適用性を示す。
論文 参考訳(メタデータ) (2021-07-07T19:06:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。