論文の概要: GPT-4V-AD: Exploring Grounding Potential of VQA-oriented GPT-4V for Zero-shot Anomaly Detection
- arxiv url: http://arxiv.org/abs/2311.02612v2
- Date: Tue, 16 Apr 2024 11:35:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 01:50:05.233924
- Title: GPT-4V-AD: Exploring Grounding Potential of VQA-oriented GPT-4V for Zero-shot Anomaly Detection
- Title(参考訳): GPT-4V-AD:ゼロショット異常検出のためのVQA指向型GPT-4Vの接地電位探索
- Authors: Jiangning Zhang, Haoyang He, Xuhai Chen, Zhucun Xue, Yabiao Wang, Chengjie Wang, Lei Xie, Yong Liu,
- Abstract要約: 本稿では、一般的な視覚異常検出(AD)タスクにおけるVQA指向のGPT-4Vの可能性について検討する。
MVTec ADとVisAデータセットで定性的かつ定量的な評価を行ったのは、これが初めてである。
- 参考スコア(独自算出の注目度): 51.43589678946244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Multimodal Model (LMM) GPT-4V(ision) endows GPT-4 with visual grounding capabilities, making it possible to handle certain tasks through the Visual Question Answering (VQA) paradigm. This paper explores the potential of VQA-oriented GPT-4V in the recently popular visual Anomaly Detection (AD) and is the first to conduct qualitative and quantitative evaluations on the popular MVTec AD and VisA datasets. Considering that this task requires both image-/pixel-level evaluations, the proposed GPT-4V-AD framework contains three components: \textbf{\textit{1)}} Granular Region Division, \textbf{\textit{2)}} Prompt Designing, \textbf{\textit{3)}} Text2Segmentation for easy quantitative evaluation, and have made some different attempts for comparative analysis. The results show that GPT-4V can achieve certain results in the zero-shot AD task through a VQA paradigm, such as achieving image-level 77.1/88.0 and pixel-level 68.0/76.6 AU-ROCs on MVTec AD and VisA datasets, respectively. However, its performance still has a certain gap compared to the state-of-the-art zero-shot method, \eg, WinCLIP and CLIP-AD, and further researches are needed. This study provides a baseline reference for the research of VQA-oriented LMM in the zero-shot AD task, and we also post several possible future works. Code is available at \url{https://github.com/zhangzjn/GPT-4V-AD}.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM) GPT-4V(ision)は、視覚的グラウンドリング機能を備えたGPT-4を提供し、視覚的質問応答(VQA)パラダイムを通じて特定のタスクを処理可能にする。
本稿では,最近普及している視覚異常検出(AD)におけるVQA指向のGPT-4Vの可能性について検討し,MVTec ADとVisAデータセットの質的,定量的な評価を行った。
このタスクは画像とピクセルレベルの評価の両方を必要とするため、提案されたGPT-4V-ADフレームワークは以下の3つのコンポーネントを含む: \textbf{\textit{1)}} 粒界分割、 \textbf{\textit{2)}} プロンプト設計、 \textbf{\textit{3)}} 簡単な定量的評価のためのText2Segmentation 。
その結果,MVTec AD と VisA のデータセット上で,画像レベル 77.1/88.0 と画素レベル 68.0/76.6 AU-ROC をそれぞれ達成するなど,VQA パラダイムによるゼロショット AD タスクにおいて,GPT-4V が一定の結果を得ることができた。
しかし、その性能は、最先端のゼロショット法である \eg、WinCLIP、CLIP-AD と比較しても一定の差があり、さらなる研究が必要である。
本研究は, ゼロショットADタスクにおけるVQA指向LMMの研究の基準となる基準を提供するとともに, いくつかの今後の課題も提示する。
コードは \url{https://github.com/zhangzjn/GPT-4V-AD} で公開されている。
関連論文リスト
- Realizing Visual Question Answering for Education: GPT-4V as a Multimodal AI [0.6278186810520364]
画像データの質的な分析と説明は、機械による自動化なしに人間の研究者によって行われてきた。
最近のVisual Question Answering (VQA)技術は、使用可能なビジュアル言語モデルを実現している。
本稿では,教育研究のためのVQAの導入を目標とし,教育研究方法論のマイルストーンを提供する。
論文 参考訳(メタデータ) (2024-05-12T05:05:31Z) - An Evaluation of GPT-4V and Gemini in Online VQA [31.77015255871848]
GPT-4VとGeminiの2つの最先端LMMを,新しい視覚的質問応答データセットを用いて評価した。
約2000の視覚的質問に対して,7種類のメタデータを生成し,きめ細かい分析を行う。
ゼロショットのパフォーマンス分析では、両方のモデルで最も難しい質問のタイプを強調しています。
論文 参考訳(メタデータ) (2023-12-17T07:38:43Z) - Exploring Plain ViT Reconstruction for Multi-class Unsupervised Anomaly Detection [128.40330044868293]
Vision Transformer (ViT) では、より単純なアーキテクチャが複数のドメインで有効であることが証明されている。
ViTADはMVTec AD、VisA、Uni-Medicalデータセット上で最先端の結果と効率を達成する。
論文 参考訳(メタデータ) (2023-12-12T18:28:59Z) - GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition? [82.40761196684524]
本稿では,ゼロショット視覚認識タスクにおけるGPT-4の言語的・視覚的能力の評価に焦点を当てる。
我々は、画像、ビデオ、点群にわたるGPT-4の性能を評価するための広範な実験を行った。
言語記述が充実したGPT-4はゼロショット認識を著しく改善した。
論文 参考訳(メタデータ) (2023-11-27T11:29:10Z) - Exploring Recommendation Capabilities of GPT-4V(ision): A Preliminary
Case Study [26.17177931611486]
本報告では,OpenAI が最近リリースした LMM である GPT-4V(ison) のレコメンデーション能力について予備的検討を行う。
提案手法では,複数の領域にまたがる定性的なテストサンプルを用いて,推薦シナリオにおけるGPT-4Vの応答の質を評価する。
また,GPT-4Vを推奨用として使用する場合,同様の入力が与えられた場合に同様の反応を示す傾向など,いくつかの制限が指摘されている。
論文 参考訳(メタデータ) (2023-11-07T18:39:10Z) - GPT-4V(ision) as a Generalist Evaluator for Vision-Language Tasks [70.98062518872999]
我々は,GPT-4Vの性能評価,基本画像からテキストへの合成,高レベル画像から画像への変換,複数画像からテキストへのアライメントといったタスクに対処する能力を検証する。
特に、GPT-4Vは、様々なタスクや評価方法にまたがって人間と有望な合意を示し、マルチモーダルLCMを評価対象として持つ可能性を示している。
論文 参考訳(メタデータ) (2023-11-02T16:11:09Z) - Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V [103.68138147783614]
大規模マルチモーダルモデルの視覚的グラウンド化能力を解き放つために,新しい視覚的プロンプト手法であるSet-of-Mark(SoM)を提案する。
我々は、SEEM/SAMのような市販のインタラクティブセグメンテーションモデルを用いて、画像を領域に分割し、これらの領域を一連のマークでオーバーレイする。
マークされたイメージを入力として使用することで、GPT-4Vは視覚的な接地を必要とする質問に答えることができる。
論文 参考訳(メタデータ) (2023-10-17T17:51:31Z) - The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) [121.42924593374127]
我々は,最新のモデルであるGPT-4Vを分析し,LMMの理解を深める。
GPT-4Vは、任意にインターリーブされたマルチモーダル入力を処理するという前例のない能力により、強力なマルチモーダルジェネラリストシステムとなっている。
GPT-4Vの、入力画像に描かれた視覚マーカーを理解するユニークな能力は、新しい人間とコンピュータの相互作用方法をもたらす。
論文 参考訳(メタデータ) (2023-09-29T17:34:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。