Fugu-MT 論文翻訳(概要): An Evaluation of GPT-4V and Gemini in Online VQA

論文の概要: An Evaluation of GPT-4V and Gemini in Online VQA

arxiv url: http://arxiv.org/abs/2312.10637v2
Date: Wed, 14 Feb 2024 03:49:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-15 19:10:41.198049
Title: An Evaluation of GPT-4V and Gemini in Online VQA
Title（参考訳）: オンラインVQAにおけるGPT-4VとGeminiの評価
Authors: Mengchen Liu, Chongyan Chen, Danna Gurari
Abstract要約: GPT-4VとGeminiの2つの最先端LMMを,新しい視覚的質問応答データセットを用いて評価した。約2000の視覚的質問に対して,7種類のメタデータを生成し,きめ細かい分析を行う。ゼロショットのパフォーマンス分析では、両方のモデルで最も難しい質問のタイプを強調しています。
参考スコア（独自算出の注目度）: 31.77015255871848
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While there is much excitement about the potential of large multimodal models (LMM), a comprehensive evaluation is critical to establish their true capabilities and limitations. In support of this aim, we evaluate two state-of-the-art LMMs, GPT-4V and Gemini, on a new visual question answering dataset sourced from an authentic online question answering community. We conduct fine-grained analysis by generating seven types of metadata for nearly 2,000 visual questions, such as image type and the required image processing capabilities. Our zero-shot performance analysis highlights the types of questions that are most challenging for both models, including questions related to "puzzling" topic, with "Identification" user intention, with "Sheet Music" image type, or labeled as "hard" by GPT-4.
Abstract（参考訳）: 大規模マルチモーダルモデル(LMM)の可能性には多くの興奮があるが、その真の能力と限界を確立するためには包括的評価が不可欠である。この目的を達成するために,オンライン質問応答コミュニティから得られた新しい視覚的質問応答データセットを用いて,最先端のLMMであるGPT-4VとGeminiを評価した。画像タイプや必要な画像処理機能など,約2000の視覚的質問に対して,7種類のメタデータを生成し,詳細な解析を行う。ゼロショットパフォーマンス分析では,いずれのモデルでも最も難しい質問の種類が強調される。例えば, "puzzling" トピックに関連する質問, "identification" ユーザ意図,"sheet music" イメージタイプ,あるいは gpt-4 による "hard" というラベルがある。

関連論文リスト

IV-Bench: A Benchmark for Image-Grounded Video Perception and Reasoning in Multimodal LLMs [36.76252153495239]
IV-Benchは、Image-Grounded Video Perception and Reasoningを評価するための最初の包括的なベンチマークである。 IV-Benchは、13のタスクにわたる2,585の微妙な注釈付き画像テキストクエリと組み合わせた967のビデオで構成されている。
論文参考訳（メタデータ） (2025-04-21T19:53:44Z)
A Unified Agentic Framework for Evaluating Conditional Image Generation [66.25099219134441]
コンディショナル画像生成は、コンテンツのパーソナライズ能力において大きな注目を集めている。本稿では,条件付き画像生成タスクを包括的に評価するための統合エージェントフレームワークCIGEvalを紹介する。
論文参考訳（メタデータ） (2025-04-09T17:04:14Z)
Seeing the Forest and the Trees: Solving Visual Graph and Tree Based Data Structure Problems using Large Multimodal Models [2.1894663332872932]
本稿では,大規模マルチモーダルモデル(LMM)による画像のみに基づくグラフおよびツリーデータ構造問題の解法について検討する。 GPT-4o と Gemini 1.5 Flash はそれぞれ木とグラフで最高の性能を示した。本研究は,構造的および視覚的変動がモデル性能に与える影響を明らかにする。
論文参考訳（メタデータ） (2024-12-15T07:15:19Z)
VQA$^2$: Visual Question Answering for Video Quality Assessment [76.81110038738699]
ビデオ品質アセスメント(VQA)は、低レベルの視覚知覚において古典的な分野である。画像領域における最近の研究は、視覚質問応答(VQA)が視覚的品質を著しく低レベルに評価できることを示した。 VQA2インストラクションデータセットは,ビデオ品質評価に焦点をあてた最初の視覚的質問応答インストラクションデータセットである。 VQA2シリーズは、ビデオにおける空間的時間的品質の詳細の知覚を高めるために、視覚的および運動的トークンをインターリーブする。
論文参考訳（メタデータ） (2024-11-06T09:39:52Z)
Guiding Vision-Language Model Selection for Visual Question-Answering Across Tasks, Domains, and Knowledge Types [0.9217021281095907]
本稿では,タスクタイプ,アプリケーションドメイン,知識タイプを付加した,確立されたVQAベンチマークから得られた新しいデータセットについて,総合的な評価を行う。また、GPT-4oを用いて開発されたマルチモーダル評価指標であるGoEvalを導入し、人間の判断と56.71%の相関係数を達成した。
論文参考訳（メタデータ） (2024-09-14T02:29:36Z)
MM-Vet v2: A Challenging Benchmark to Evaluate Large Multimodal Models for Integrated Capabilities [146.4724093405187]
MM-Vet v2は、"image-text sequence understanding"と呼ばれる新しい"image-text sequence understanding"機能を含んでいる。 MM-Vet v2を用いて大規模マルチモーダルモデルのベンチマークを行った結果,Claude 3.5 Sonnetはスコア71.8の最良のモデルであり,スコア71.0のGPT-4oより若干優れていた。
論文参考訳（メタデータ） (2024-08-01T17:59:54Z)
Q-Ground: Image Quality Grounding with Large Multi-modality Models [61.72022069880346]
Q-Groundは、大規模な視覚的品質グラウンドに取り組むための最初のフレームワークである。 Q-Groundは、大規模なマルチモダリティモデルと詳細な視覚的品質分析を組み合わせる。コントリビューションの中心は、QGround-100Kデータセットの導入です。
論文参考訳（メタデータ） (2024-07-24T06:42:46Z)
VISREAS: Complex Visual Reasoning with Unanswerable Questions [29.398956873585796]
本稿では,新しい視覚的質問応答データセットVISREASを紹介する。それは、共通性とオブジェクト、属性、関係の差異をトラバースし、摂動することで構成される、応答可能で解決不可能なビジュアルクエリで構成されている。このタスクのユニークな特徴は、回答する前のイメージに対する質問応答性を検証すること、そして最先端モデルの貧弱な性能が、新しいモジュラーベースラインであるLOGIC2VISIONの設計に影響を与えたことである。
論文参考訳（メタデータ） (2024-02-23T00:12:10Z)
Gemini vs GPT-4V: A Preliminary Comparison and Combination of Vision-Language Models Through Qualitative Cases [98.35348038111508]
本稿では,Google の Gemini と OpenAI の GPT-4V(ision) の2つのパイオニアモデルについて,詳細な比較研究を行った。分析の核となるのは、各モデルの視覚的理解能力である。両モデルのユニークな強みとニッチを照らし出した。
論文参考訳（メタデータ） (2023-12-22T18:59:58Z)
GPT-4V-AD: Exploring Grounding Potential of VQA-oriented GPT-4V for Zero-shot Anomaly Detection [51.43589678946244]
本稿では、一般的な視覚異常検出(AD)タスクにおけるVQA指向のGPT-4Vの可能性について検討する。 MVTec ADとVisAデータセットで定性的かつ定量的な評価を行ったのは、これが初めてである。
論文参考訳（メタデータ） (2023-11-05T10:01:18Z)
GPT-4V(ision) as a Generalist Evaluator for Vision-Language Tasks [70.98062518872999]
我々は,GPT-4Vの性能評価,基本画像からテキストへの合成,高レベル画像から画像への変換,複数画像からテキストへのアライメントといったタスクに対処する能力を検証する。特に、GPT-4Vは、様々なタスクや評価方法にまたがって人間と有望な合意を示し、マルチモーダルLCMを評価対象として持つ可能性を示している。
論文参考訳（メタデータ） (2023-11-02T16:11:09Z)
Solution for SMART-101 Challenge of ICCV Multi-modal Algorithmic Reasoning Task 2023 [13.326745559876558]
本稿では,マルチモーダルなアルゴリズム推論タスクSMART-101 Challengeを提案する。この課題は、視覚言語パズルの解法におけるニューラルネットワークの抽象化、推論、一般化能力を評価する。パズル分割構成では、検証セットで26.5、プライベートテストセットで24.30の精度スコアを得た。
論文参考訳（メタデータ） (2023-10-10T09:12:27Z)
Guiding Visual Question Generation [40.56637275354495]
従来の視覚質問生成(VQG)では、ほとんどの画像は、質問を生成できる複数の概念を持っている。本稿では,カテゴリ情報に基づいて質問生成を行うVQGの変種である案内視覚質問生成について述べる。
論文参考訳（メタデータ） (2021-10-15T17:38:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。