論文の概要: GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition?
- arxiv url: http://arxiv.org/abs/2311.15732v2
- Date: Tue, 12 Mar 2024 01:07:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 01:14:19.644597
- Title: GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition?
- Title(参考訳): GPT4Vis: GPT-4はゼロショット視覚認識に何ができるか?
- Authors: Wenhao Wu, Huanjin Yao, Mengxi Zhang, Yuxin Song, Wanli Ouyang,
Jingdong Wang
- Abstract要約: 本稿では,ゼロショット視覚認識タスクにおけるGPT-4の言語的・視覚的能力の評価に焦点を当てる。
我々は、画像、ビデオ、点群にわたるGPT-4の性能を評価するための広範な実験を行った。
言語記述が充実したGPT-4はゼロショット認識を著しく改善した。
- 参考スコア(独自算出の注目度): 82.40761196684524
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper does not present a novel method. Instead, it delves into an
essential, yet must-know baseline in light of the latest advancements in
Generative Artificial Intelligence (GenAI): the utilization of GPT-4 for visual
understanding. Our study centers on the evaluation of GPT-4's linguistic and
visual capabilities in zero-shot visual recognition tasks: Firstly, we explore
the potential of its generated rich textual descriptions across various
categories to enhance recognition performance without any training. Secondly,
we evaluate GPT-4's visual proficiency in directly recognizing diverse visual
content. We conducted extensive experiments to systematically evaluate GPT-4's
performance across images, videos, and point clouds, using 16 benchmark
datasets to measure top-1 and top-5 accuracy. Our findings show that GPT-4,
enhanced with rich linguistic descriptions, significantly improves zero-shot
recognition, offering an average top-1 accuracy increase of 7% across all
datasets. GPT-4 excels in visual recognition, outshining OpenAI-CLIP's ViT-L
and rivaling EVA-CLIP's ViT-E, particularly in video datasets HMDB-51 and
UCF-101, where it leads by 22% and 9%, respectively. We hope this research
contributes valuable data points and experience for future studies. We release
our code at https://github.com/whwu95/GPT4Vis.
- Abstract(参考訳): 本論文は,新しい手法を提示しない。
代わりに、ジェネレーティブ・人工知能(GenAI:Generative Artificial Intelligence)の最新の進歩、つまり視覚的理解のための GPT-4 の利用に照らして、必要不可欠なベースラインへと発展する。
本研究は,ゼロショット視覚認識タスクにおけるGPT-4の言語的・視覚的能力の評価に焦点を当てた。
次に,多様な視覚コンテンツを直接認識するgpt-4の視覚能力を評価する。
我々は16のベンチマークデータセットを用いて,GPT-4の性能を画像,ビデオ,点群で体系的に評価し,トップ1とトップ5の精度を測定した。
その結果,GPT-4は言語記述が豊富に強化され,ゼロショット認識が大幅に向上し,全データセットの平均トップ1精度が7%向上した。
gpt-4は視覚認識に優れており、openai-clipのvit-lよりも優れており、特にビデオデータセットhmdb-51とutf-101ではeva-clipのvit-eに匹敵する。
この研究が今後の研究に貴重なデータポイントと経験をもたらすことを願っています。
コードはhttps://github.com/whwu95/gpt4visでリリースします。
関連論文リスト
- Exploiting GPT-4 Vision for Zero-shot Point Cloud Understanding [114.4754255143887]
私たちは、ポイントクラウドでオブジェクトカテゴリを分類する課題に取り組みます。
我々はこれらの課題を克服するためにGPT-4 Vision (GPT-4V) を用いる。
ゼロショットポイントクラウド分類の新しいベンチマークを設定しました。
論文 参考訳(メタデータ) (2024-01-15T10:16:44Z) - GPT-4V with Emotion: A Zero-shot Benchmark for Generalized Emotion Recognition [38.2581985358104]
GPT-4 with Vision (GPT-4V) は、様々なタスクにおいて顕著な視覚能力を示すが、その感情認識性能は十分に評価されていない。
6つのタスクをカバーする21のベンチマークデータセットに対して,GPT-4Vの定量的評価結果を示す。
論文 参考訳(メタデータ) (2023-12-07T13:27:37Z) - GPT-4V-AD: Exploring Grounding Potential of VQA-oriented GPT-4V for Zero-shot Anomaly Detection [51.43589678946244]
本稿では、一般的な視覚異常検出(AD)タスクにおけるVQA指向のGPT-4Vの可能性について検討する。
MVTec ADとVisAデータセットで定性的かつ定量的な評価を行ったのは、これが初めてである。
論文 参考訳(メタデータ) (2023-11-05T10:01:18Z) - An Early Evaluation of GPT-4V(ision) [40.866323649060696]
我々は,GPT-4Vの視覚的理解,言語理解,視覚パズルの解法,深度,熱,映像,音声などの他のモダリティの理解など,様々な能力を評価する。
GPT-4Vの性能を評価するため、656の試験インスタンスを手動で構築し、GPT-4Vの結果を慎重に評価する。
論文 参考訳(メタデータ) (2023-10-25T10:33:17Z) - Enhancing CLIP with GPT-4: Harnessing Visual Descriptions as Prompts [13.486599520658919]
GPT-4は視覚的に記述可能なテキストを生成するために使用できる。
特殊な微細なデータセットに対して,0ショット転送精度が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2023-07-21T15:49:59Z) - Visual Instruction Tuning [79.70923292053097]
本稿では,言語のみの GPT-4 を用いてマルチモーダルな言語イメージ命令追跡データを生成する試みについて紹介する。
このようなデータに対して,LLaVA: Large Language and Vision Assistantを導入する。
科学QAを微調整すると、LLaVAとGPT-4の相乗効果は92.53%の新しい最先端精度を達成する。
論文 参考訳(メタデータ) (2023-04-17T17:59:25Z) - Sparks of Artificial General Intelligence: Early experiments with GPT-4 [66.1188263570629]
OpenAIが開発したGPT-4は、前例のない規模の計算とデータを使って訓練された。
我々は, GPT-4が数学, コーディング, ビジョン, 医学, 法学, 心理学などにまたがる, 新規で困難な課題を解くことを実証した。
我々は、GPT-4を人工知能(AGI)システムの早期(まだ未完成)版と見なすことができると信じている。
論文 参考訳(メタデータ) (2023-03-22T16:51:28Z) - GPT-4 Technical Report [116.90398195245983]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。
試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-03-15T17:15:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。