論文の概要: Beyond Single Plots: A Benchmark for Question Answering on Multi-Charts
- arxiv url: http://arxiv.org/abs/2604.21344v1
- Date: Thu, 23 Apr 2026 06:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.343809
- Title: Beyond Single Plots: A Benchmark for Question Answering on Multi-Charts
- Title(参考訳): Beyond Single Plots: マルチチャートに対する質問回答のベンチマーク
- Authors: Azher Ahmed Efat, Seok Hwan Song, Wallapak Tavanapong,
- Abstract要約: マルチチャート画像上の質問応答に特化して設計された中規模データセットであるPolyChartQAを紹介する。
質問タイプ,難易度,質問ソース,マルチチャートのキー構造的特徴を問うPolyChartQAにおける9つの最先端マルチモーダル言語モデル(MLM)の性能評価を行った。
- 参考スコア(独自算出の注目度): 3.2880869992413246
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Charts are widely used to present complex information. Deriving meaningful insights in real-world contexts often requires interpreting multiple related charts together. Research on understanding multi-chart images has not been extensively explored. We introduce PolyChartQA, a mid-scale dataset specifically designed for question answering over multi-chart images. PolyChartQA comprises 534 multi-chart images (with a total of 2,297 sub-charts) sourced from peer-reviewed computer science research publications and 2,694 QA pairs. We evaluate the performance of nine state-of-the-art Multimodal Language Models (MLMs) on PolyChartQA across question type, difficulty, question source, and key structural characteristics of multi-charts. Our results show a 27.4% LLM-based accuracy (L-Accuracy) drop on human-authored questions compared to MLM-generated questions, and a 5.39% L-accuracy gain with our proposed prompting method.
- Abstract(参考訳): チャートは複雑な情報を示すために広く使われている。
実世界の文脈において意味のある洞察を引き出すには、しばしば複数の関連するチャートをまとめて解釈する必要がある。
マルチチャート画像の理解に関する研究は、まだ広く研究されていない。
マルチチャート画像上の質問応答に特化して設計された中規模データセットであるPolyChartQAを紹介する。
PolyChartQAは、534枚のマルチチャートイメージ(合計2,297枚のサブチャート)と2,694枚のQAペアで構成されている。
質問タイプ,難易度,質問ソース,マルチチャートのキー構造的特徴を問うPolyChartQAにおける9つの最先端マルチモーダル言語モデル(MLM)の性能評価を行った。
提案手法では, MLMによる質問に対して, 27.4%のLLMに基づく精度(L-精度)が低下し, 5.39%のL-精度が得られた。
関連論文リスト
- InfoChartQA: A Benchmark for Multimodal Question Answering on Infographic Charts [20.95897015354387]
InfoChartQAは、インフォグラフィックチャートの理解に基づいてマルチモーダル大言語モデル(MLLM)を評価するためのベンチマークである。
5,642組のインフォグラフィックと平易なチャートが含まれており、それぞれが同じ基礎データを共有するが、視覚的な表示では異なる。
視覚的要素に基づく質問を設計し、そのユニークな視覚的デザインとコミュニケーション意図を捉える。
論文 参考訳(メタデータ) (2025-05-25T08:28:03Z) - Unmasking Deceptive Visuals: Benchmarking Multimodal Large Language Models on Misleading Chart Question Answering [45.67334913593117]
誤解を招く可視化は、公衆の理解にリスクをもたらし、データ駆動通信に関わるAIシステムに対して安全上の懸念を提起する。
我々は、24の最先端MLLMをベンチマークし、ミスリーダータイプとチャートフォーマット間での性能を分析し、新しい地域対応推論パイプラインを提案する。
我々の研究は、堅牢で信頼性があり、責任ある視覚コミュニケーションの要求に沿うMLLMを開発するための基盤を築いた。
論文 参考訳(メタデータ) (2025-03-23T18:56:33Z) - MultiChartQA: Benchmarking Vision-Language Models on Multi-Chart Problems [18.188725200923333]
チャート関連タスクの既存のベンチマークは、実世界のマルチチャートシナリオの複雑さを捉えるのに不足している。
直接質問応答,並列質問応答,比較推論,シーケンシャル推論の4つの重要な領域でMLLMの能力を評価するベンチマークであるMultiChartQAを紹介する。
本研究は,マルチチャート理解の課題と,この分野での進歩を促進するためのマルチチャートQAの可能性を明らかにするものである。
論文 参考訳(メタデータ) (2024-10-18T05:15:50Z) - ChartX & ChartVLM: A Versatile Benchmark and Foundation Model for Complicated Chart Reasoning [55.22996841790139]
我々は、チャート領域における既製のマルチモーダル言語モデル(MLLM)の能力をベンチマークする。
ChartXは18種類のチャートタイプ,7つのチャートタスク,22のディシプリナトピック,高品質なチャートデータを含むマルチモーダルな評価セットである。
我々は、解釈可能なパターンに強く依存するマルチモーダルタスクに対する新しい視点を提供するため、ChartVLMを開発した。
論文 参考訳(メタデータ) (2024-02-19T14:48:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。