Fugu-MT 論文翻訳(概要): GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition?

論文の概要: GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition?

arxiv url: http://arxiv.org/abs/2311.15732v2
Date: Tue, 12 Mar 2024 01:07:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-14 01:14:19.644597
Title: GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition?
Title（参考訳）: GPT4Vis: GPT-4はゼロショット視覚認識に何ができるか?
Authors: Wenhao Wu, Huanjin Yao, Mengxi Zhang, Yuxin Song, Wanli Ouyang, Jingdong Wang
Abstract要約: 本稿では,ゼロショット視覚認識タスクにおけるGPT-4の言語的・視覚的能力の評価に焦点を当てる。我々は、画像、ビデオ、点群にわたるGPT-4の性能を評価するための広範な実験を行った。言語記述が充実したGPT-4はゼロショット認識を著しく改善した。
参考スコア（独自算出の注目度）: 82.40761196684524
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: This paper does not present a novel method. Instead, it delves into an essential, yet must-know baseline in light of the latest advancements in Generative Artificial Intelligence (GenAI): the utilization of GPT-4 for visual understanding. Our study centers on the evaluation of GPT-4's linguistic and visual capabilities in zero-shot visual recognition tasks: Firstly, we explore the potential of its generated rich textual descriptions across various categories to enhance recognition performance without any training. Secondly, we evaluate GPT-4's visual proficiency in directly recognizing diverse visual content. We conducted extensive experiments to systematically evaluate GPT-4's performance across images, videos, and point clouds, using 16 benchmark datasets to measure top-1 and top-5 accuracy. Our findings show that GPT-4, enhanced with rich linguistic descriptions, significantly improves zero-shot recognition, offering an average top-1 accuracy increase of 7% across all datasets. GPT-4 excels in visual recognition, outshining OpenAI-CLIP's ViT-L and rivaling EVA-CLIP's ViT-E, particularly in video datasets HMDB-51 and UCF-101, where it leads by 22% and 9%, respectively. We hope this research contributes valuable data points and experience for future studies. We release our code at https://github.com/whwu95/GPT4Vis.
Abstract（参考訳）: 本論文は,新しい手法を提示しない。代わりに、ジェネレーティブ・人工知能(GenAI:Generative Artificial Intelligence)の最新の進歩、つまり視覚的理解のための GPT-4 の利用に照らして、必要不可欠なベースラインへと発展する。本研究は,ゼロショット視覚認識タスクにおけるGPT-4の言語的・視覚的能力の評価に焦点を当てた。次に,多様な視覚コンテンツを直接認識するgpt-4の視覚能力を評価する。我々は16のベンチマークデータセットを用いて,GPT-4の性能を画像,ビデオ,点群で体系的に評価し,トップ1とトップ5の精度を測定した。その結果,GPT-4は言語記述が豊富に強化され,ゼロショット認識が大幅に向上し,全データセットの平均トップ1精度が7%向上した。 gpt-4は視覚認識に優れており、openai-clipのvit-lよりも優れており、特にビデオデータセットhmdb-51とutf-101ではeva-clipのvit-eに匹敵する。この研究が今後の研究に貴重なデータポイントと経験をもたらすことを願っています。コードはhttps://github.com/whwu95/gpt4visでリリースします。

関連論文リスト

GPT-ImgEval: A Comprehensive Benchmark for Diagnosing GPT4o in Image Generation [28.235805447825896]
OpenAIのGPT4oモデルは、画像生成と編集において驚くほど優れた機能を示している。本報告では、GPT-ImgEvalというファーストルック評価ベンチマークについて述べる。 GPT-4oの性能は,生成品質,(2)編集能力,(3)世界知識インフォームド合成の3つの重要な側面にまたがっている。
論文参考訳（メタデータ） (2025-04-03T17:23:16Z)
Exploiting GPT-4 Vision for Zero-shot Point Cloud Understanding [114.4754255143887]
私たちは、ポイントクラウドでオブジェクトカテゴリを分類する課題に取り組みます。我々はこれらの課題を克服するためにGPT-4 Vision (GPT-4V) を用いる。ゼロショットポイントクラウド分類の新しいベンチマークを設定しました。
論文参考訳（メタデータ） (2024-01-15T10:16:44Z)
GPT-4V with Emotion: A Zero-shot Benchmark for Generalized Emotion Recognition [38.2581985358104]
GPT-4 with Vision (GPT-4V) は、様々なタスクにおいて顕著な視覚能力を示すが、その感情認識性能は十分に評価されていない。 6つのタスクをカバーする21のベンチマークデータセットに対して,GPT-4Vの定量的評価結果を示す。
論文参考訳（メタデータ） (2023-12-07T13:27:37Z)
GPT-4V-AD: Exploring Grounding Potential of VQA-oriented GPT-4V for Zero-shot Anomaly Detection [51.43589678946244]
本稿では、一般的な視覚異常検出(AD)タスクにおけるVQA指向のGPT-4Vの可能性について検討する。 MVTec ADとVisAデータセットで定性的かつ定量的な評価を行ったのは、これが初めてである。
論文参考訳（メタデータ） (2023-11-05T10:01:18Z)
An Early Evaluation of GPT-4V(ision) [40.866323649060696]
我々は,GPT-4Vの視覚的理解,言語理解,視覚パズルの解法,深度,熱,映像,音声などの他のモダリティの理解など,様々な能力を評価する。 GPT-4Vの性能を評価するため、656の試験インスタンスを手動で構築し、GPT-4Vの結果を慎重に評価する。
論文参考訳（メタデータ） (2023-10-25T10:33:17Z)
Enhancing CLIP with GPT-4: Harnessing Visual Descriptions as Prompts [13.486599520658919]
GPT-4は視覚的に記述可能なテキストを生成するために使用できる。特殊な微細なデータセットに対して,0ショット転送精度が大幅に向上したことを示す。
論文参考訳（メタデータ） (2023-07-21T15:49:59Z)
Visual Instruction Tuning [79.70923292053097]
本稿では,言語のみの GPT-4 を用いてマルチモーダルな言語イメージ命令追跡データを生成する試みについて紹介する。このようなデータに対して,LLaVA: Large Language and Vision Assistantを導入する。科学QAを微調整すると、LLaVAとGPT-4の相乗効果は92.53%の新しい最先端精度を達成する。
論文参考訳（メタデータ） (2023-04-17T17:59:25Z)
Sparks of Artificial General Intelligence: Early experiments with GPT-4 [66.1188263570629]
OpenAIが開発したGPT-4は、前例のない規模の計算とデータを使って訓練された。我々は, GPT-4が数学, コーディング, ビジョン, 医学, 法学, 心理学などにまたがる, 新規で困難な課題を解くことを実証した。我々は、GPT-4を人工知能(AGI)システムの早期(まだ未完成)版と見なすことができると信じている。
論文参考訳（メタデータ） (2023-03-22T16:51:28Z)
GPT-4 Technical Report [116.90398195245983]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文参考訳（メタデータ） (2023-03-15T17:15:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。