Fugu-MT 論文翻訳(概要): Winning Solution for the CVPR2023 Visual Anomaly and Novelty Detection Challenge: Multimodal Prompting for Data-centric Anomaly Detection

論文の概要: Winning Solution for the CVPR2023 Visual Anomaly and Novelty Detection Challenge: Multimodal Prompting for Data-centric Anomaly Detection

arxiv url: http://arxiv.org/abs/2306.09067v1
Date: Thu, 15 Jun 2023 11:49:44 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-16 15:05:18.339650
Title: Winning Solution for the CVPR2023 Visual Anomaly and Novelty Detection Challenge: Multimodal Prompting for Data-centric Anomaly Detection
Title（参考訳）: cvpr2023視覚異常の勝利解と新奇性検出課題 : データ中心異常検出のためのマルチモーダルプロンプト
Authors: Yunkang Cao, Xiaohao Xu, Chen Sun, Yuqi Cheng, Liang Gao, Weiming Shen
Abstract要約: 本稿では,CVPR2023 Visual Anomaly and Novelty Detection (VAND)チャレンジに対するチームテキストSegment Any Anomalyの勝利ソリューションを紹介する。マルチモーダルプロンプトを用いたゼロショット異常セグメンテーションのための新しいフレームワーク、textiti.e., Segment Any Anomaly + (SAA$+$)を提案する。
参考スコア（独自算出の注目度）: 16.306800113609526
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: This technical report introduces the winning solution of the team \textit{Segment Any Anomaly} for the CVPR2023 Visual Anomaly and Novelty Detection (VAND) challenge. Going beyond uni-modal prompt, \textit{e.g.}, language prompt, we present a novel framework, \textit{i.e.}, Segment Any Anomaly + (SAA$+$), for zero-shot anomaly segmentation with multi-modal prompts for the regularization of cascaded modern foundation models. Inspired by the great zero-shot generalization ability of foundation models like Segment Anything, we first explore their assembly (SAA) to leverage diverse multi-modal prior knowledge for anomaly localization. Subsequently, we further introduce multimodal prompts (SAA$+$) derived from domain expert knowledge and target image context to enable the non-parameter adaptation of foundation models to anomaly segmentation. The proposed SAA$+$ model achieves state-of-the-art performance on several anomaly segmentation benchmarks, including VisA and MVTec-AD, in the zero-shot setting. We will release the code of our winning solution for the CVPR2023 VAND challenge at \href{Segment-Any-Anomaly}{https://github.com/caoyunkang/Segment-Any-Anomaly} \footnote{The extended-version paper with more details is available at ~\cite{cao2023segment}.}
Abstract（参考訳）: この技術レポートでは、CVPR2023 Visual Anomaly and Novelty Detection (VAND) チャレンジに対するチーム \textit{Segment Any Anomaly} の勝利ソリューションを紹介します。ユニモーダルプロンプト (uni-modal prompt, \textit{e.g}, language prompt) を超えて、新しいフレームワーク \textit{i.e.}, segment any anomaly + (saa$+$), for zero-shot anomaly segmentation with multi-modal prompts for regularization for the regularization of cascaded modern foundation models。 Segment Anythingのような基礎モデルのゼロショット一般化能力に触発されて、我々はまずそれらのアセンブリ(SAA)を探索し、異常な局所化のために多様なマルチモーダル事前知識を活用する。その後、ドメインエキスパートの知識とターゲット画像コンテキストから派生したマルチモーダルプロンプト(SAA$+$)を導入し、基礎モデルの異常セグメンテーションへの非パラメータ適応を可能にする。提案したSAA$+$モデルは、ゼロショット設定において、VisAやMVTec-ADを含むいくつかの異常セグメンテーションベンチマークの最先端性能を達成する。私たちは、cvpr2023 vand challengeの勝利ソリューションのコードを、 \href{segment-any-anomaly}{https://github.com/caoyunkang/segment-any-anomaly} \footnote{ ~\cite{cao2023segment}でリリースします。 }

関連論文リスト

Continual Learning for VLMs: A Survey and Taxonomy Beyond Forgetting [70.83781268763215]
視覚言語モデル(VLM)は、大規模事前学習を活用することで、多様なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。 VLMは、クロスモーダル機能ドリフト、共有アーキテクチャによるパラメータ干渉、ゼロショット機能侵食など、ユニークな課題に直面している。本調査は、生涯の視覚言語システムを開発する研究者にとって、包括的かつ診断的な基準となることを目的としている。
論文参考訳（メタデータ） (2025-08-06T09:03:10Z)
SVC 2025: the First Multimodal Deception Detection Challenge [16.070848946361696]
SVC 2025 Multimodal Deception Detection Challengeは、音声・視覚的偽装検出におけるクロスドメインの一般化を評価するために設計された新しいベンチマークである。我々は,より適応し,説明し,実践的に展開可能な偽造検知システムの開発を促進することを目的としている。
論文参考訳（メタデータ） (2025-08-06T06:56:39Z)
AuxDet: Auxiliary Metadata Matters for Omni-Domain Infrared Small Target Detection [58.67129770371016]
シーン認識最適化のためのテキストメタデータを組み込むことにより、IRSTDパラダイムを再定義する新しいIRSTDフレームワークを提案する。 AuxDetは最先端の手法を一貫して上回り、堅牢性と正確性を改善する上で補助情報の重要な役割を検証している。
論文参考訳（メタデータ） (2025-05-21T07:02:05Z)
Benchmarking Unified Face Attack Detection via Hierarchical Prompt Tuning [58.16354555208417]
PADとFFDはそれぞれ物理メディアベースのプレゼンテーションアタックとデジタル編集ベースのDeepFakeから顔データを保護するために提案されている。これら2つのカテゴリの攻撃を同時に処理する統一顔攻撃検出モデルがないことは、主に2つの要因に起因する。本稿では,異なる意味空間から複数の分類基準を適応的に探索する,視覚言語モデルに基づく階層型プロンプトチューニングフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-19T16:35:45Z)
AMM-Diff: Adaptive Multi-Modality Diffusion Network for Missing Modality Imputation [2.8498944632323755]
臨床実践において、フルイメージングは必ずしも実現可能ではなく、多くの場合、複雑な取得プロトコル、厳格なプライバシ規則、特定の臨床ニーズのためである。有望な解決策は、利用可能なものから欠落したモダリティが生成されるデータ計算の欠如である。適応多モード拡散ネットワーク (AMM-Diff) を提案する。
論文参考訳（メタデータ） (2025-01-22T12:29:33Z)
First Place Solution to the ECCV 2024 BRAVO Challenge: Evaluating Robustness of Vision Foundation Models for Semantic Segmentation [1.8570591025615457]
我々はECCV 2024 BRAVO Challengeの第1位となるソリューションを提示する。モデルはCityscapesでトレーニングされ、その堅牢性はいくつかのアウト・オブ・ディストリビューションデータセットで評価される。このアプローチは、より複雑な既存のアプローチよりも優れており、チャレンジにおいて第一位を達成しています。
論文参考訳（メタデータ） (2024-09-25T16:15:06Z)
Sample-agnostic Adversarial Perturbation for Vision-Language Pre-training Models [7.350203999073509]
AIセキュリティに関する最近の研究は、画像やテキストの微妙で意図的に設計された摂動に対するビジョンランゲージ事前学習モデルの脆弱性を強調している。私たちの知る限りでは、どんな画像にも当てはまる普遍的でサンプルに依存しない摂動の生成を探索する、マルチモーダルな決定境界による最初の研究である。
論文参考訳（メタデータ） (2024-08-06T06:25:39Z)
Integrating Text and Image Pre-training for Multi-modal Algorithmic Reasoning [7.84845040922464]
本稿では,CVPRマルチモーダルアルゴリズム推論タスク2024におけるSMART-101の課題について述べる。従来の視覚的な質問や回答タスクとは異なり、この課題はニューラルネットワークの抽象化、推論、一般化能力を評価する。本モデルは,テキストと画像からそれぞれ特徴を抽出する2つの事前学習モデルに基づく。
論文参考訳（メタデータ） (2024-06-08T01:45:06Z)
All in One Framework for Multimodal Re-identification in the Wild [58.380708329455466]
オールインワン(AIO)という,ReID導入のためのマルチモーダル学習パラダイム AIOは、凍結したトレーニング済みのビッグデータをエンコーダとして利用し、追加の微調整なしに効果的なマルチモーダル検索を可能にする。クロスモーダルおよびマルチモーダルReIDの実験により、AIOは様々なモーダルデータを扱うだけでなく、困難な状況でも優れていることが明らかになった。
論文参考訳（メタデータ） (2024-05-08T01:04:36Z)
Multi-Agent VQA: Exploring Multi-Agent Foundation Models in Zero-Shot Visual Question Answering [48.7363941445826]
本稿では,オブジェクト検出とカウントにおける基礎モデルの限界を克服するために,Multi-Agent VQAという適応型マルチエージェントシステムを提案する。ゼロショットシナリオで予備実験結果を示し、いくつかの障害事例を強調し、今後の研究の方向性を示す。
論文参考訳（メタデータ） (2024-03-21T18:57:25Z)
Exploiting Modality-Specific Features For Multi-Modal Manipulation Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文参考訳（メタデータ） (2023-09-22T06:55:41Z)
Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文参考訳（メタデータ） (2023-07-31T10:22:33Z)
Segment Any Anomaly without Training via Hybrid Prompt Regularization [15.38935129648466]
ハイブリットプロンプト正規化を伴うゼロショット異常セグメンテーションのための新しいフレームワーク、すなわちセグメンツ・アノマリー+(SAA+)を提案する。提案したSAA+モデルは,VasA,MVTec-AD,MTD,KSDD2など,いくつかの異常セグメンテーションベンチマークにおける最先端性能を実現する。
論文参考訳（メタデータ） (2023-05-18T05:52:06Z)
Exploring Multi-Modal Representations for Ambiguity Detection & Coreference Resolution in the SIMMC 2.0 Challenge [60.616313552585645]
会話型AIにおける効果的なあいまいさ検出と参照解決のためのモデルを提案する。具体的には,TOD-BERTとLXMERTをベースとしたモデルを用いて,多数のベースラインと比較し,アブレーション実験を行う。以上の結果から,(1)言語モデルでは曖昧さを検出するためにデータの相関を活用でき,(2)言語モデルではビジョンコンポーネントの必要性を回避できることがわかった。
論文参考訳（メタデータ） (2022-02-25T12:10:02Z)
Modality Completion via Gaussian Process Prior Variational Autoencoders for Multi-Modal Glioma Segmentation [75.58395328700821]
本稿では,患者スキャンに欠落するサブモダリティを1つ以上のインプットするために,MGP-VAE(Multi-modal Gaussian Process Prior Variational Autoencoder)を提案する。 MGP-VAEは、変分オートエンコーダ(VAE)に先立ってガウス過程(GP)を利用して、被験者/患者およびサブモダリティ相関を利用することができる。 4つのサブモダリティのうち2つ、または3つが欠落している脳腫瘍に対するMGP-VAEの適用性を示す。
論文参考訳（メタデータ） (2021-07-07T19:06:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。