論文の概要: EncQA: Benchmarking Vision-Language Models on Visual Encodings for Charts
- arxiv url: http://arxiv.org/abs/2508.04650v1
- Date: Wed, 06 Aug 2025 17:17:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.842269
- Title: EncQA: Benchmarking Vision-Language Models on Visual Encodings for Charts
- Title(参考訳): EncQA: チャートのビジュアルエンコーディングにおけるビジョンランゲージモデルのベンチマーク
- Authors: Kushin Mukherjee, Donghao Ren, Dominik Moritz, Yannick Assogba,
- Abstract要約: マルチモーダル視覚言語モデル(VLM)は、チャート理解ベンチマークにおいて継続的に改善されたスコアを達成し続けている。
本稿では,視覚的エンコーディングと解析タスクの体系的なカバレッジを提供するための新しいベンチマークであるEncQAを紹介する。
9つの最先端VLMの評価結果から、同一タスク内のエンコーディングやタスク間で性能が著しく異なることが明らかとなった。
- 参考スコア(独自算出の注目度): 13.788477482875855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal vision-language models (VLMs) continue to achieve ever-improving scores on chart understanding benchmarks. Yet, we find that this progress does not fully capture the breadth of visual reasoning capabilities essential for interpreting charts. We introduce EncQA, a novel benchmark informed by the visualization literature, designed to provide systematic coverage of visual encodings and analytic tasks that are crucial for chart understanding. EncQA provides 2,076 synthetic question-answer pairs, enabling balanced coverage of six visual encoding channels (position, length, area, color quantitative, color nominal, and shape) and eight tasks (find extrema, retrieve value, find anomaly, filter values, compute derived value exact, compute derived value relative, correlate values, and correlate values relative). Our evaluation of 9 state-of-the-art VLMs reveals that performance varies significantly across encodings within the same task, as well as across tasks. Contrary to expectations, we observe that performance does not improve with model size for many task-encoding pairs. Our results suggest that advancing chart understanding requires targeted strategies addressing specific visual reasoning gaps, rather than solely scaling up model or dataset size.
- Abstract(参考訳): マルチモーダル視覚言語モデル(VLM)は、チャート理解ベンチマークにおいて継続的に改善されたスコアを達成し続けている。
しかし、この進歩は、チャートの解釈に必要な視覚的推論能力の広さを完全には捉えていない。
本稿では,視覚的エンコーディングと解析的タスクの体系的カバレッジを提供するために,可視化文献によって通知される新しいベンチマークであるEncQAを紹介する。
EncQAは2,076組の合成質問応答対を提供し、6つの視覚的符号化チャネル(位置、長さ、面積、色量、色名、形状)と8つのタスク(有限エクストリーム、検索値、異常を見つける、フィルタ値、計算導出値の精度、計算導出値の相対値、相関値、相関値の相対値)のバランスの取れたカバレッジを可能にする。
我々は,9つの最先端VLMの評価結果から,同一タスク内のエンコーディングやタスク間の性能が著しく異なることを明らかにした。
期待とは対照的に,多くのタスクエンコーディングペアのモデルサイズでは性能が向上しない。
結果から,グラフ理解の進展には,単にモデルやデータセットのサイズをスケールアップするのではなく,特定の視覚的推論ギャップに対処するターゲット戦略が必要であることが示唆された。
関連論文リスト
- Socratic Chart: Cooperating Multiple Agents for Robust SVG Chart Understanding [14.75820681491341]
既存のベンチマークでは、真の視覚的推論ではなく、テキストベースのショートカットと確率的パターンマッチングに依存している。
グラフ画像をスケーラブルベクトルグラフ表現に変換する新しいフレームワークであるSocratic Chartを提案する。
我々のフレームワークは、グラフプリミティブを正確にキャプチャし、推論性能を向上させるために最先端モデルを上回る。
論文 参考訳(メタデータ) (2025-04-14T00:07:39Z) - RefChartQA: Grounding Visual Answer on Chart Images through Instruction Tuning [63.599057862999]
RefChartQAは、Chart Question Answering(ChartQA)とビジュアルグラウンドを統合した、新しいベンチマークである。
実験により,グラウンド化による空間認識を取り入れることで,応答精度が15%以上向上することが実証された。
論文 参考訳(メタデータ) (2025-03-29T15:50:08Z) - Towards Understanding Graphical Perception in Large Multimodal Models [80.44471730672801]
我々は,グラフにおけるLMMの知覚能力のギャップを分析するための評価フレームワークを開発するために,グラフィカル知覚の理論を利用する。
我々は3つのレベル(チャート、ビジュアル要素、ピクセル)における最先端LMMの知覚能力の評価と診断にフレームワークを適用した。
論文 参考訳(メタデータ) (2025-03-13T20:13:39Z) - Why Vision Language Models Struggle with Visual Arithmetic? Towards Enhanced Chart and Geometry Understanding [94.64781599202882]
視覚言語モデル(VLM)はマルチモーダルタスクにおいて顕著な進歩を遂げた。
彼らはしばしば、オブジェクトのカウントや長さ比較のような一見単純な機能である視覚的算術に苦しむ。
我々は、ピアジェの認知発達理論に触発された新しいポストトレーニング戦略であるCogAlignを提案する。
論文 参考訳(メタデータ) (2025-02-17T06:54:49Z) - HMGIE: Hierarchical and Multi-Grained Inconsistency Evaluation for Vision-Language Data Cleansing [54.970275599061594]
我々は階層的・多階層的不整合評価(HMGIE)と呼ばれる適応的評価フレームワークを設計する。
HMGIEは、様々な画像キャプチャー対の精度と完全性の両方をカバーする多粒度評価を提供する。
提案手法の有効性と柔軟性を検証するため,様々なタイプの画像キャプチャー・データセットであるMVTIDを構築した。
論文 参考訳(メタデータ) (2024-12-07T15:47:49Z) - VisGraphVar: A Benchmark Generator for Assessing Variability in Graph Analysis Using Large Vision-Language Models [1.597617022056624]
LVLM(Large Vision-Language Models)は、抽象的な視覚タスクに取り組む能力がますます高まっている。
VisGraphVarは7つのタスクカテゴリのグラフ画像を生成することができる、カスタマイズ可能なベンチマークジェネレータである。
画像の視覚特性の変化(例えばノードのラベル付けやレイアウト)と視覚的不完全さの意図的な含意がモデルの性能に大きく影響することを示す。
論文 参考訳(メタデータ) (2024-11-22T10:10:53Z) - RealCQA-V2 : Visual Premise Proving A Manual COT Dataset for Charts [2.9201864249313383]
グラフ質問応答のプロセスを洗練するための新しいタスクであるVisual Premise Provingを紹介する。
この手法は従来の精度に基づく評価手法から逸脱したものである。
データ検索とグラフの構造的理解の両方に習熟性を示すモデルが提案される。
論文 参考訳(メタデータ) (2024-10-29T19:32:53Z) - Charting the Future: Using Chart Question-Answering for Scalable Evaluation of LLM-Driven Data Visualizations [7.32619928577074]
本稿では,LLM生成データビジュアライゼーションの評価を自動化するために,VQA(Visual Question Answering)モデルを活用する新しいフレームワークを提案する。
以上の結果から,LLM 生成チャートは VQA の性能測定値に基づいて,元の非LLM 生成チャートの精度に合わないことが示唆された。
論文 参考訳(メタデータ) (2024-09-27T14:02:48Z) - On Pre-training of Multimodal Language Models Customized for Chart Understanding [83.99377088129282]
本稿では,MLLMのチャート理解を改善するために必要な学習過程について考察する。
詳細なチャート理解に適したMLLMであるCHOPINLLMを紹介する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - FlowLearn: Evaluating Large Vision-Language Models on Flowchart Understanding [52.35520385083425]
FlowLearnデータセットは、フローチャートの理解を強化するために設計されたリソースである。
科学的サブセットは、科学文献から得られた3,858のフローチャートを含んでいる。
シミュレーションされたサブセットには、カスタマイズ可能なスクリプトを使用して作成された10,000のフローチャートが含まれている。
論文 参考訳(メタデータ) (2024-07-06T20:58:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。