論文の概要: ChartMuseum: Testing Visual Reasoning Capabilities of Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2505.13444v1
- Date: Mon, 19 May 2025 17:59:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.805548
- Title: ChartMuseum: Testing Visual Reasoning Capabilities of Large Vision-Language Models
- Title(参考訳): ChartMuseum: 大規模ビジョンランゲージモデルの視覚推論機能をテストする
- Authors: Liyan Tang, Grace Kim, Xinyu Zhao, Thom Lake, Wenxuan Ding, Fangcong Yin, Prasann Singhal, Manya Wadhwa, Zeyu Leo Liu, Zayne Sprague, Ramya Namuduri, Bodun Hu, Juan Diego Rodriguez, Puyuan Peng, Greg Durrett,
- Abstract要約: 視覚的推論によってのみ解決可能な合成データセットを用いてケーススタディを行う。
次に、1,162人の専門家が注釈を付けた質問を含む新しいチャート質問回答(QA)ベンチマークであるChartMuseumを紹介します。
人間は93%の精度を達成しているが、最高のパフォーマンスモデルであるGemini-2.5-Proは63.0%しか達成できず、主要なオープンソースであるLVLM Qwen2.5-VL-72B-Instructは38.5%しか達成していない。
- 参考スコア(独自算出の注目度): 37.54872845368151
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chart understanding presents a unique challenge for large vision-language models (LVLMs), as it requires the integration of sophisticated textual and visual reasoning capabilities. However, current LVLMs exhibit a notable imbalance between these skills, falling short on visual reasoning that is difficult to perform in text. We conduct a case study using a synthetic dataset solvable only through visual reasoning and show that model performance degrades significantly with increasing visual complexity, while human performance remains robust. We then introduce ChartMuseum, a new Chart Question Answering (QA) benchmark containing 1,162 expert-annotated questions spanning multiple reasoning types, curated from real-world charts across 184 sources, specifically built to evaluate complex visual and textual reasoning. Unlike prior chart understanding benchmarks -- where frontier models perform similarly and near saturation -- our benchmark exposes a substantial gap between model and human performance, while effectively differentiating model capabilities: although humans achieve 93% accuracy, the best-performing model Gemini-2.5-Pro attains only 63.0%, and the leading open-source LVLM Qwen2.5-VL-72B-Instruct achieves only 38.5%. Moreover, on questions requiring primarily visual reasoning, all models experience a 35%-55% performance drop from text-reasoning-heavy question performance. Lastly, our qualitative error analysis reveals specific categories of visual reasoning that are challenging for current LVLMs.
- Abstract(参考訳): チャート理解は大きな視覚言語モデル(LVLM)にとってユニークな課題であり、洗練されたテキストと視覚的推論機能を統合する必要がある。
しかし、現在のLVLMではこれらのスキルの間に顕著な不均衡が生じており、テキストで行うのが難しい視覚的推論では不足している。
視覚的推論によってのみ解決可能な合成データセットを用いてケーススタディを行い、人間のパフォーマンスは頑健でありながら、視覚的複雑性の増大とともにモデル性能が著しく低下することを示す。
次に、複数の推論タイプにまたがる1,162人の専門家による注釈付き質問を含む、新しいチャート質問回答(QA)ベンチマークであるChartMuseumを紹介します。
従来のグラフ理解ベンチマークとは違って、フロンティアモデルでは、モデルと人間のパフォーマンスの間に大きなギャップがある一方で、モデルの能力を効果的に差別化しています。
さらに、主に視覚的推論を必要とする質問では、すべてのモデルがテキスト推論の重い質問のパフォーマンスから35%から55%のパフォーマンス低下を経験する。
最後に,現在のLVLMでは困難である視覚的推論のカテゴリを定性的誤差解析により明らかにした。
関連論文リスト
- IQBench: How "Smart'' Are Vision-Language Models? A Study with Human IQ Tests [1.1142124321313052]
標準化されたビジュアルIQテストにおいてビジョン言語モデルを評価するために設計された新しいベンチマークである*IQBench*を紹介する。
我々はVLMの推論能力を評価することに集中しており、最終的な予測の精度よりも重要であると我々は主張する。
論文 参考訳(メタデータ) (2025-05-17T13:24:08Z) - VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.03333569013148]
VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。
これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。
ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
論文 参考訳(メタデータ) (2025-04-21T17:59:53Z) - Chart-HQA: A Benchmark for Hypothetical Question Answering in Charts [62.45232157149698]
本稿では,同じ質問に対して仮定を課し,グラフの内容に基づいた反実的推論を行うようモデルに強制する,新しいChart hypothetical Question Answering (HQA)タスクを提案する。
さらに,MLLMの効率的なテキスト編集機能と人間の知識を併用して,多種多様な高品質HQAデータを低コストで生成する,人間とAIの対話型データ合成手法であるHAIを導入する。
論文 参考訳(メタデータ) (2025-03-06T05:08:40Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - Beyond Visual Understanding: Introducing PARROT-360V for Vision Language Model Benchmarking [0.12369742273401668]
2487の難解な視覚パズルを特徴とする新しい総合ベンチマークであるPARROT-360Vベンチマークを紹介する。
GPT-4o, Claude-3.5-Sonnet, Gemini-1.5-Pro の先行モデルの評価を行った。
最新モデルのスコアはベンチマークで28~56パーセンテージで、一般的なベンチマークでのパフォーマンスよりも大幅に低かった。
論文 参考訳(メタデータ) (2024-11-20T01:09:21Z) - CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs [62.84082370758761]
CharXivは、arXiv論文の2,323のチャートを含む総合的な評価スイートである。
品質を確保するために、すべてのチャートと質問は、人間の専門家によって手書きされ、キュレーションされ、検証されます。
その結果、最強のプロプライエタリモデルの推論スキルの間に、かなり過小評価されていたギャップが明らかとなった。
論文 参考訳(メタデータ) (2024-06-26T17:50:11Z) - MathVista: Evaluating Mathematical Reasoning of Foundation Models in
Visual Contexts [170.01089233942594]
MathVistaは、様々な数学的タスクと視覚的タスクの課題を組み合わせるために設計されたベンチマークである。
最高のパフォーマンスのGPT-4Vモデルは全体の49.9%の精度を達成し、第2位のパフォーマーであるBardを15.1%上回った。
GPT-4Vは、複雑な数字を理解し、厳格な推論を行うのに苦戦しているため、人間のパフォーマンスが10.4%下がったままである。
論文 参考訳(メタデータ) (2023-10-03T17:57:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。