論文の概要: ChartQAPro: A More Diverse and Challenging Benchmark for Chart Question Answering
- arxiv url: http://arxiv.org/abs/2504.05506v2
- Date: Thu, 10 Apr 2025 14:10:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 12:25:05.860120
- Title: ChartQAPro: A More Diverse and Challenging Benchmark for Chart Question Answering
- Title(参考訳): ChartQAPro: チャート質問回答のベンチマークをより多変量で整合させる
- Authors: Ahmed Masry, Mohammed Saidul Islam, Mahir Ahmed, Aayush Bajaj, Firoz Kabir, Aaryaman Kartha, Md Tahmid Rahman Laskar, Mizanur Rahman, Shadikur Rahman, Mehrad Shahmohammadi, Megh Thakkar, Md Rizwan Parvez, Enamul Hoque, Shafiq Joty,
- Abstract要約: 新しいベンチマークであるChartQAProを紹介した。これは157のさまざまなソースから1,341のチャートを含み、さまざまなチャートタイプにまたがっている。
21モデルによる評価は,ChartQAPro上でのLVLMの性能低下を示す。
- 参考スコア(独自算出の注目度): 27.58410749367183
- License:
- Abstract: Charts are ubiquitous, as people often use them to analyze data, answer questions, and discover critical insights. However, performing complex analytical tasks with charts requires significant perceptual and cognitive effort. Chart Question Answering (CQA) systems automate this process by enabling models to interpret and reason with visual representations of data. However, existing benchmarks like ChartQA lack real-world diversity and have recently shown performance saturation with modern large vision-language models (LVLMs). To address these limitations, we introduce ChartQAPro, a new benchmark that includes 1,341 charts from 157 diverse sources, spanning various chart types, including infographics and dashboards, and featuring 1,948 questions in various types, such as multiple-choice, conversational, hypothetical, and unanswerable questions, to better reflect real-world challenges. Our evaluations with 21 models show a substantial performance drop for LVLMs on ChartQAPro; e.g., Claude Sonnet 3.5 scores 90.5% on ChartQA but only 55.81% on ChartQAPro, underscoring the complexity of chart reasoning. We complement our findings with detailed error analyses and ablation studies, identifying key challenges and opportunities for advancing LVLMs in chart understanding and reasoning. We release ChartQAPro at https://github.com/vis-nlp/ChartQAPro.
- Abstract(参考訳): チャートはユビキタスで、データ分析や質問の回答、重要な洞察の発見によく使われます。
しかし、チャートで複雑な分析タスクを実行するには、知覚的および認知的努力がかなり必要である。
CQA(Chart Question Answering)システムは、モデルの解釈とデータの視覚的表現による推論を可能にすることで、このプロセスを自動化する。
しかし、ChartQAのような既存のベンチマークは現実世界の多様性に欠けており、最近の大規模視覚言語モデル(LVLM)のパフォーマンス飽和を示している。
これらの制限に対処するため、我々は157の多様なソースから1,341のチャートを含む新しいベンチマークであるChartQAProを紹介した。
例えば、Claude Sonnet 3.5はChartQAで90.5%、ChartQAProで55.81%しか得点せず、チャート推論の複雑さを裏付けるものではない。
本研究は,グラフ理解と推論において,LVLMを進化させるための重要な課題と機会を特定し,詳細な誤差分析とアブレーション研究で補完する。
ChartQAProをhttps://github.com/vis-nlp/ChartQAProでリリースします。
関連論文リスト
- VProChart: Answering Chart Question through Visual Perception Alignment Agent and Programmatic Solution Reasoning [13.011899331656018]
VProChartは、CQA(Chart Question Answering)の課題に対処するために設計された新しいフレームワークである。
軽量な視覚知覚アライメントエージェント(VPAgent)と,プログラム型ソリューション推論アプローチを統合している。
VProChartは既存のメソッドよりも優れており、チャートによる理解と推論の能力を強調している。
論文 参考訳(メタデータ) (2024-09-03T07:19:49Z) - On Pre-training of Multimodal Language Models Customized for Chart Understanding [83.99377088129282]
本稿では,MLLMのチャート理解を改善するために必要な学習過程について考察する。
詳細なチャート理解に適したMLLMであるCHOPINLLMを紹介する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs [62.84082370758761]
CharXivは、arXiv論文の2,323のチャートを含む総合的な評価スイートである。
品質を確保するために、すべてのチャートと質問は、人間の専門家によって手書きされ、キュレーションされ、検証されます。
その結果、最強のプロプライエタリモデルの推論スキルの間に、かなり過小評価されていたギャップが明らかとなった。
論文 参考訳(メタデータ) (2024-06-26T17:50:11Z) - TinyChart: Efficient Chart Understanding with Visual Token Merging and Program-of-Thoughts Learning [83.58521787193293]
本稿では,3Bパラメータのみを用いたチャート理解のための効率的なMLLMであるTinyChartを提案する。
TinyChartは,1)プログラム・オブ・ソート(PoT)学習戦略による数値計算学習の負担軽減,2)ビジョン・トーケン・マージ・モジュールによる高解像度画像のためのビジョン・トランスフォーマーによって生成される長大な視覚特徴系列の削減という,効率的なチャート理解における2つの課題を克服した。
論文 参考訳(メタデータ) (2024-04-25T14:23:24Z) - ChartX & ChartVLM: A Versatile Benchmark and Foundation Model for Complicated Chart Reasoning [55.22996841790139]
我々は、チャート領域における既製のマルチモーダル言語モデル(MLLM)の能力をベンチマークする。
ChartXは18種類のチャートタイプ,7つのチャートタスク,22のディシプリナトピック,高品質なチャートデータを含むマルチモーダルな評価セットである。
我々は、解釈可能なパターンに強く依存するマルチモーダルタスクに対する新しい視点を提供するため、ChartVLMを開発した。
論文 参考訳(メタデータ) (2024-02-19T14:48:23Z) - ChartAssisstant: A Universal Chart Multimodal Language Model via
Chart-to-Table Pre-training and Multitask Instruction Tuning [54.89249749894061]
ChartAssistantは、ユニバーサルチャートの理解と推論のためのビジョン言語モデルである。
2段階のトレーニングプロセスを経て、チャートとテキストの調整のために、チャートからテーブルへのパースを事前トレーニングする。
実験により, 最先端UniChart法とChartllama法に比較して, 顕著な性能向上が得られた。
論文 参考訳(メタデータ) (2024-01-04T17:51:48Z) - ANetQA: A Large-scale Benchmark for Fine-grained Compositional Reasoning
over Untrimmed Videos [120.80589215132322]
ANetQAは,ActivityNetの未トリミングビデオに対して,詳細な合成推論をサポートする大規模ベンチマークである。
ANetQAは140億のアンバランスと1340万のバランスの取れたQAペアを達成した。
最高のモデルでは44.5%の精度が達成され、人間のパフォーマンスは84.5%に上り、改善の余地は十分残っている。
論文 参考訳(メタデータ) (2023-05-04T03:04:59Z) - OpenCQA: Open-ended Question Answering with Charts [6.7038829115674945]
我々はOpenCQAと呼ばれる新しいタスクを導入し、そこではグラフに関するオープンな質問にテキストで答えることが目的である。
3つの実践的な設定の下で,一連のベースラインを実装し,評価する。
結果から,トップパフォーマンスモデルは通常,流動的かつコヒーレントなテキストを生成することが示された。
論文 参考訳(メタデータ) (2022-10-12T23:37:30Z) - ChartQA: A Benchmark for Question Answering about Charts with Visual and
Logical Reasoning [7.192233658525916]
9.6Kの人書き質問と23.1Kの人書きチャートの要約から生成される質問に関するベンチマークを示す。
本稿では,視覚的特徴とグラフのデータテーブルを組み合わせた2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2022-03-19T05:00:30Z) - Classification-Regression for Chart Comprehension [16.311371103939205]
チャート質問応答(CQA)は、チャート理解を評価するために用いられるタスクである。
分類と回帰を共同で学習する新しいモデルを提案する。
私たちのモデルのエッジは、特に語彙外回答の質問に重点を置いています。
論文 参考訳(メタデータ) (2021-11-29T18:46:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。