論文の概要: GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition?
- arxiv url: http://arxiv.org/abs/2311.15732v1
- Date: Mon, 27 Nov 2023 11:29:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 16:02:01.091093
- Title: GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition?
- Title(参考訳): GPT4Vis: GPT-4はゼロショット視覚認識に何ができるか?
- Authors: Wenhao Wu, Huanjin Yao, Mengxi Zhang, Yuxin Song, Wanli Ouyang,
Jingdong Wang
- Abstract要約: 本稿では,ゼロショット視覚認識タスクにおけるGPT-4の言語的・視覚的能力の評価に焦点を当てる。
これを実現するために、画像、ビデオ、点雲の3つのモードでGPT-4の性能を体系的に定量化する広範囲な実験を行った。
本研究は, GPT-4の高度な言語知識を利用して, 豊かな記述を生成することにより, ゼロショット認識が著しく向上することを明らかにする。
- 参考スコア(独自算出の注目度): 82.40761196684524
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper does not present a novel method. Instead, it delves into an
essential, yet must-know baseline in light of the latest advancements in
Generative Artificial Intelligence (GenAI): the utilization of GPT-4 for visual
understanding. Our study centers on the evaluation of GPT-4's linguistic and
visual capabilities in zero-shot visual recognition tasks. Specifically, we
explore the potential of its generated rich textual descriptions across various
categories to enhance recognition performance without any training.
Additionally, we evaluate its visual proficiency in directly recognizing
diverse visual content. To achieve this, we conduct an extensive series of
experiments, systematically quantifying the performance of GPT-4 across three
modalities: images, videos, and point clouds. This comprehensive evaluation
encompasses a total of 16 widely recognized benchmark datasets, providing top-1
and top-5 accuracy metrics. Our study reveals that leveraging GPT-4's advanced
linguistic knowledge to generate rich descriptions markedly improves zero-shot
recognition. In terms of visual proficiency, GPT-4V's average performance
across 16 datasets sits roughly between the capabilities of OpenAI-CLIP's ViT-L
and EVA-CLIP's ViT-E. We hope that this research will contribute valuable data
points and experience for future studies. We release our code at
https://github.com/whwu95/GPT4Vis.
- Abstract(参考訳): 本論文は,新しい手法を提示しない。
代わりに、ジェネレーティブ・人工知能(GenAI:Generative Artificial Intelligence)の最新の進歩、つまり視覚的理解のための GPT-4 の利用に照らして、必要不可欠なベースラインへと発展する。
本研究は,ゼロショット視覚認識タスクにおけるGPT-4の言語的・視覚的能力の評価に焦点を当てた。
具体的には、様々なカテゴリにまたがるリッチテキスト記述の可能性を探り、学習なしに認識性能を向上させる。
さらに,多様な視覚コンテンツを直接認識する能力を評価する。
そこで我々は,gpt-4の性能を画像,ビデオ,ポイントクラウドの3つのモダリティで体系的に定量化する一連の実験を行った。
この包括的な評価は、合計16の広く認識されているベンチマークデータセットを含み、トップ1とトップ5の精度メトリクスを提供する。
本研究は,gpt-4の高度な言語知識を活用し,ゼロショット認識を著しく改善することを示す。
視覚的習熟度に関しては、GPT-4Vの16データセットの平均性能は、OpenAI-CLIPのViT-LとEVA-CLIPのViT-Eのほぼ中間にある。
この研究が今後の研究に貴重なデータポイントと経験をもたらすことを願っています。
コードはhttps://github.com/whwu95/gpt4visでリリースします。
関連論文リスト
- Exploiting GPT-4 Vision for Zero-shot Point Cloud Understanding [114.4754255143887]
私たちは、ポイントクラウドでオブジェクトカテゴリを分類する課題に取り組みます。
我々はこれらの課題を克服するためにGPT-4 Vision (GPT-4V) を用いる。
ゼロショットポイントクラウド分類の新しいベンチマークを設定しました。
論文 参考訳(メタデータ) (2024-01-15T10:16:44Z) - GPT-4V with Emotion: A Zero-shot Benchmark for Generalized Emotion Recognition [38.2581985358104]
GPT-4 with Vision (GPT-4V) は、様々なタスクにおいて顕著な視覚能力を示すが、その感情認識性能は十分に評価されていない。
6つのタスクをカバーする21のベンチマークデータセットに対して,GPT-4Vの定量的評価結果を示す。
論文 参考訳(メタデータ) (2023-12-07T13:27:37Z) - GPT-4V-AD: Exploring Grounding Potential of VQA-oriented GPT-4V for Zero-shot Anomaly Detection [51.43589678946244]
本稿では、一般的な視覚異常検出(AD)タスクにおけるVQA指向のGPT-4Vの可能性について検討する。
MVTec ADとVisAデータセットで定性的かつ定量的な評価を行ったのは、これが初めてである。
論文 参考訳(メタデータ) (2023-11-05T10:01:18Z) - An Early Evaluation of GPT-4V(ision) [40.866323649060696]
我々は,GPT-4Vの視覚的理解,言語理解,視覚パズルの解法,深度,熱,映像,音声などの他のモダリティの理解など,様々な能力を評価する。
GPT-4Vの性能を評価するため、656の試験インスタンスを手動で構築し、GPT-4Vの結果を慎重に評価する。
論文 参考訳(メタデータ) (2023-10-25T10:33:17Z) - Enhancing CLIP with GPT-4: Harnessing Visual Descriptions as Prompts [13.486599520658919]
GPT-4は視覚的に記述可能なテキストを生成するために使用できる。
特殊な微細なデータセットに対して,0ショット転送精度が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2023-07-21T15:49:59Z) - Visual Instruction Tuning [79.70923292053097]
本稿では,言語のみの GPT-4 を用いてマルチモーダルな言語イメージ命令追跡データを生成する試みについて紹介する。
このようなデータに対して,LLaVA: Large Language and Vision Assistantを導入する。
科学QAを微調整すると、LLaVAとGPT-4の相乗効果は92.53%の新しい最先端精度を達成する。
論文 参考訳(メタデータ) (2023-04-17T17:59:25Z) - Sparks of Artificial General Intelligence: Early experiments with GPT-4 [66.1188263570629]
OpenAIが開発したGPT-4は、前例のない規模の計算とデータを使って訓練された。
我々は, GPT-4が数学, コーディング, ビジョン, 医学, 法学, 心理学などにまたがる, 新規で困難な課題を解くことを実証した。
我々は、GPT-4を人工知能(AGI)システムの早期(まだ未完成)版と見なすことができると信じている。
論文 参考訳(メタデータ) (2023-03-22T16:51:28Z) - GPT-4 Technical Report [116.90398195245983]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。
試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-03-15T17:15:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。