論文の概要: Exploring Grounding Potential of VQA-oriented GPT-4V for Zero-shot
Anomaly Detection
- arxiv url: http://arxiv.org/abs/2311.02612v1
- Date: Sun, 5 Nov 2023 10:01:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 16:39:05.166323
- Title: Exploring Grounding Potential of VQA-oriented GPT-4V for Zero-shot
Anomaly Detection
- Title(参考訳): ゼロショット異常検出のためのVQA指向GPT-4Vの接地電位探索
- Authors: Jiangning Zhang, Xuhai Chen, Zhucun Xue, Yabiao Wang, Chengjie Wang,
Yong Liu
- Abstract要約: 本稿では、一般的な視覚異常検出(AD)タスクにおけるVQA指向のGPT-4Vの可能性について検討する。
MVTec ADとVisAデータセットで定性的かつ定量的な評価を行ったのは、これが初めてである。
- 参考スコア(独自算出の注目度): 53.44730981817424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Multimodal Model (LMM) GPT-4V(ision) endows GPT-4 with visual grounding
capabilities, making it possible to handle certain tasks through the Visual
Question Answering (VQA) paradigm. This paper explores the potential of
VQA-oriented GPT-4V in the recently popular visual Anomaly Detection (AD) and
is the first to conduct qualitative and quantitative evaluations on the popular
MVTec AD and VisA datasets. Considering that this task requires both
image-/pixel-level evaluations, the proposed GPT-4V-AD framework contains three
components: 1) Granular Region Division, 2) Prompt Designing, 3)
Text2Segmentation for easy quantitative evaluation, and have made some
different attempts for comparative analysis. The results show that GPT-4V can
achieve certain results in the zero-shot AD task through a VQA paradigm, such
as achieving image-level 77.1/88.0 and pixel-level 68.0/76.6 AU-ROCs on MVTec
AD and VisA datasets, respectively. However, its performance still has a
certain gap compared to the state-of-the-art zero-shot method, e.g., WinCLIP
ann CLIP-AD, and further research is needed. This study provides a baseline
reference for the research of VQA-oriented LMM in the zero-shot AD task, and we
also post several possible future works. Code is available at
\url{https://github.com/zhangzjn/GPT-4V-AD}.
- Abstract(参考訳): 大規模マルチモーダルモデル (lmm) gpt-4v (ision) endows gpt-4 は視覚接地機能を備えており、視覚質問応答 (vqa) パラダイムを通じて特定のタスクを処理できる。
本稿では,最近普及している視覚異常検出(AD)におけるVQA指向のGPT-4Vの可能性について検討し,MVTec ADとVisAデータセットの質的,定量的な評価を行った。
このタスクは画像/ピクセルレベルの評価を必要とするため,提案したGPT-4V-ADフレームワークには3つのコンポーネントが含まれている。
1)粒状地域区分
2)プロンプト設計
3) 簡易な定量的評価のためのtext2セグメンテーションと, 比較分析のためのいくつかの異なる試みを行った。
その結果,MVTec AD と VisA のデータセット上で,画像レベル 77.1/88.0 と画素レベル 68.0/76.6 AU-ROC をそれぞれ達成するなど,VQA パラダイムによるゼロショット AD タスクにおいて,GPT-4V が一定の結果を得ることができた。
しかし、その性能は、WinCLIP ann CLIP-ADのような最先端のゼロショット法と比較しても一定の差があり、さらなる研究が必要である。
本研究は, ゼロショットADタスクにおけるVQA指向LMMの研究の基準となる基準を提供するとともに, いくつかの今後の課題も提示する。
コードは \url{https://github.com/zhangzjn/gpt-4v-ad} で入手できる。
関連論文リスト
- Realizing Visual Question Answering for Education: GPT-4V as a Multimodal AI [0.6278186810520364]
画像データの質的な分析と説明は、機械による自動化なしに人間の研究者によって行われてきた。
最近のVisual Question Answering (VQA)技術は、使用可能なビジュアル言語モデルを実現している。
本稿では,教育研究のためのVQAの導入を目標とし,教育研究方法論のマイルストーンを提供する。
論文 参考訳(メタデータ) (2024-05-12T05:05:31Z) - An Evaluation of GPT-4V and Gemini in Online VQA [31.77015255871848]
GPT-4VとGeminiの2つの最先端LMMを,新しい視覚的質問応答データセットを用いて評価した。
約2000の視覚的質問に対して,7種類のメタデータを生成し,きめ細かい分析を行う。
ゼロショットのパフォーマンス分析では、両方のモデルで最も難しい質問のタイプを強調しています。
論文 参考訳(メタデータ) (2023-12-17T07:38:43Z) - Exploring Plain ViT Reconstruction for Multi-class Unsupervised Anomaly Detection [128.40330044868293]
Vision Transformer (ViT) では、より単純なアーキテクチャが複数のドメインで有効であることが証明されている。
ViTADはMVTec AD、VisA、Uni-Medicalデータセット上で最先端の結果と効率を達成する。
論文 参考訳(メタデータ) (2023-12-12T18:28:59Z) - GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition? [82.40761196684524]
本稿では,ゼロショット視覚認識タスクにおけるGPT-4の言語的・視覚的能力の評価に焦点を当てる。
我々は、画像、ビデオ、点群にわたるGPT-4の性能を評価するための広範な実験を行った。
言語記述が充実したGPT-4はゼロショット認識を著しく改善した。
論文 参考訳(メタデータ) (2023-11-27T11:29:10Z) - Exploring Recommendation Capabilities of GPT-4V(ision): A Preliminary
Case Study [26.17177931611486]
本報告では,OpenAI が最近リリースした LMM である GPT-4V(ison) のレコメンデーション能力について予備的検討を行う。
提案手法では,複数の領域にまたがる定性的なテストサンプルを用いて,推薦シナリオにおけるGPT-4Vの応答の質を評価する。
また,GPT-4Vを推奨用として使用する場合,同様の入力が与えられた場合に同様の反応を示す傾向など,いくつかの制限が指摘されている。
論文 参考訳(メタデータ) (2023-11-07T18:39:10Z) - GPT-4V(ision) as a Generalist Evaluator for Vision-Language Tasks [70.98062518872999]
我々は,GPT-4Vの性能評価,基本画像からテキストへの合成,高レベル画像から画像への変換,複数画像からテキストへのアライメントといったタスクに対処する能力を検証する。
特に、GPT-4Vは、様々なタスクや評価方法にまたがって人間と有望な合意を示し、マルチモーダルLCMを評価対象として持つ可能性を示している。
論文 参考訳(メタデータ) (2023-11-02T16:11:09Z) - Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V [103.68138147783614]
大規模マルチモーダルモデルの視覚的グラウンド化能力を解き放つために,新しい視覚的プロンプト手法であるSet-of-Mark(SoM)を提案する。
我々は、SEEM/SAMのような市販のインタラクティブセグメンテーションモデルを用いて、画像を領域に分割し、これらの領域を一連のマークでオーバーレイする。
マークされたイメージを入力として使用することで、GPT-4Vは視覚的な接地を必要とする質問に答えることができる。
論文 参考訳(メタデータ) (2023-10-17T17:51:31Z) - The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) [121.42924593374127]
我々は,最新のモデルであるGPT-4Vを分析し,LMMの理解を深める。
GPT-4Vは、任意にインターリーブされたマルチモーダル入力を処理するという前例のない能力により、強力なマルチモーダルジェネラリストシステムとなっている。
GPT-4Vの、入力画像に描かれた視覚マーカーを理解するユニークな能力は、新しい人間とコンピュータの相互作用方法をもたらす。
論文 参考訳(メタデータ) (2023-09-29T17:34:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。