論文の概要: An Evaluation of GPT-4V and Gemini in Online VQA
- arxiv url: http://arxiv.org/abs/2312.10637v1
- Date: Sun, 17 Dec 2023 07:38:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 15:19:06.884413
- Title: An Evaluation of GPT-4V and Gemini in Online VQA
- Title(参考訳): オンラインVQAにおけるGPT-4VとGeminiの評価
- Authors: Mengchen Liu, Chongyan Chen
- Abstract要約: 我々は、VQAonlineデータセットを用いて、最先端のLMM、すなわちGPT-4VとGeminiを評価した。
VQAonlineは、さまざまな日常ユーザから得られたエンドツーエンドの認証VQAデータセットである。
- 参考スコア(独自算出の注目度): 20.061920330289286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A comprehensive evaluation is critical to assess the capabilities of large
multimodal models (LMM). In this study, we evaluate the state-of-the-art LMMs,
namely GPT-4V and Gemini, utilizing the VQAonline dataset. VQAonline is an
end-to-end authentic VQA dataset sourced from a diverse range of everyday
users. Compared previous benchmarks, VQAonline well aligns with real-world
tasks. It enables us to effectively evaluate the generality of an LMM, and
facilitates a direct comparison with human performance. To comprehensively
evaluate GPT-4V and Gemini, we generate seven types of metadata for around
2,000 visual questions, such as image type and the required image processing
capabilities. Leveraging this array of metadata, we analyze the zero-shot
performance of GPT-4V and Gemini, and identify the most challenging questions
for both models.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)の能力を総合的に評価することが重要である。
本研究では,VQAonline データセットを用いて,GPT-4V と Gemini の最先端 LMM の評価を行った。
VQAonlineは、さまざまな日常ユーザから得られたエンドツーエンドの認証VQAデータセットである。
以前のベンチマークと比較すると、VQAonlineは現実世界のタスクとよく一致している。
これにより,LMMの汎用性を効果的に評価し,人的性能と直接比較することができる。
GPT-4VとGeminiを総合的に評価するために,画像タイプや必要な画像処理機能など約2000の視覚的質問に対して,7種類のメタデータを生成する。
このメタデータを活用することで,gpt-4vとgeminiのゼロショット性能を分析し,両モデルにとって最も難しい問題を特定する。
関連論文リスト
- Seeing the Forest and the Trees: Solving Visual Graph and Tree Based Data Structure Problems using Large Multimodal Models [2.1894663332872932]
本稿では,大規模マルチモーダルモデル(LMM)による画像のみに基づくグラフおよびツリーデータ構造問題の解法について検討する。
GPT-4o と Gemini 1.5 Flash はそれぞれ木とグラフで最高の性能を示した。
本研究は,構造的および視覚的変動がモデル性能に与える影響を明らかにする。
論文 参考訳(メタデータ) (2024-12-15T07:15:19Z) - AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information? [65.49972312524724]
マルチモーダルな大言語モデル(MLLM)は、視覚とオーディオのモダリティを含む機能を拡張した。
提案したDeafTestは、MLLMが人間にとって簡単なタスクとよく戦っていることを示している。
AV-Odyssey Benchは、これらのMLLMが真にオーディオ視覚情報を理解できるかどうかを評価するために設計された総合的なオーディオ視覚ベンチマークである。
論文 参考訳(メタデータ) (2024-12-03T17:41:23Z) - VQA$^2$: Visual Question Answering for Video Quality Assessment [76.81110038738699]
ビデオ品質アセスメント(VQA)は、低レベルの視覚知覚において古典的な分野である。
画像領域における最近の研究は、視覚質問応答(VQA)が視覚的品質を著しく低レベルに評価できることを示した。
VQA2インストラクションデータセットは,ビデオ品質評価に焦点をあてた最初の視覚的質問応答インストラクションデータセットである。
VQA2シリーズは、ビデオにおける空間的時間的品質の詳細の知覚を高めるために、視覚的および運動的トークンをインターリーブする。
論文 参考訳(メタデータ) (2024-11-06T09:39:52Z) - Guiding Vision-Language Model Selection for Visual Question-Answering Across Tasks, Domains, and Knowledge Types [0.9217021281095907]
本稿では,タスクタイプ,アプリケーションドメイン,知識タイプを付加した,確立されたVQAベンチマークから得られた新しいデータセットについて,総合的な評価を行う。
また、GPT-4oを用いて開発されたマルチモーダル評価指標であるGoEvalを導入し、人間の判断と56.71%の相関係数を達成した。
論文 参考訳(メタデータ) (2024-09-14T02:29:36Z) - Q-Ground: Image Quality Grounding with Large Multi-modality Models [61.72022069880346]
Q-Groundは、大規模な視覚的品質グラウンドに取り組むための最初のフレームワークである。
Q-Groundは、大規模なマルチモダリティモデルと詳細な視覚的品質分析を組み合わせる。
コントリビューションの中心は、QGround-100Kデータセットの導入です。
論文 参考訳(メタデータ) (2024-07-24T06:42:46Z) - Gemini vs GPT-4V: A Preliminary Comparison and Combination of
Vision-Language Models Through Qualitative Cases [98.35348038111508]
本稿では,Google の Gemini と OpenAI の GPT-4V(ision) の2つのパイオニアモデルについて,詳細な比較研究を行った。
分析の核となるのは、各モデルの視覚的理解能力である。
両モデルのユニークな強みとニッチを照らし出した。
論文 参考訳(メタデータ) (2023-12-22T18:59:58Z) - GPT-4V-AD: Exploring Grounding Potential of VQA-oriented GPT-4V for Zero-shot Anomaly Detection [51.43589678946244]
本稿では、一般的な視覚異常検出(AD)タスクにおけるVQA指向のGPT-4Vの可能性について検討する。
MVTec ADとVisAデータセットで定性的かつ定量的な評価を行ったのは、これが初めてである。
論文 参考訳(メタデータ) (2023-11-05T10:01:18Z) - GPT-4V(ision) as a Generalist Evaluator for Vision-Language Tasks [70.98062518872999]
我々は,GPT-4Vの性能評価,基本画像からテキストへの合成,高レベル画像から画像への変換,複数画像からテキストへのアライメントといったタスクに対処する能力を検証する。
特に、GPT-4Vは、様々なタスクや評価方法にまたがって人間と有望な合意を示し、マルチモーダルLCMを評価対象として持つ可能性を示している。
論文 参考訳(メタデータ) (2023-11-02T16:11:09Z) - Solution for SMART-101 Challenge of ICCV Multi-modal Algorithmic
Reasoning Task 2023 [13.326745559876558]
本稿では,マルチモーダルなアルゴリズム推論タスクSMART-101 Challengeを提案する。
この課題は、視覚言語パズルの解法におけるニューラルネットワークの抽象化、推論、一般化能力を評価する。
パズル分割構成では、検証セットで26.5、プライベートテストセットで24.30の精度スコアを得た。
論文 参考訳(メタデータ) (2023-10-10T09:12:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。