論文の概要: ChartDiff: A Large-Scale Benchmark for Comprehending Pairs of Charts
- arxiv url: http://arxiv.org/abs/2603.28902v1
- Date: Mon, 30 Mar 2026 18:29:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:02.663739
- Title: ChartDiff: A Large-Scale Benchmark for Comprehending Pairs of Charts
- Title(参考訳): ChartDiff: グラフのペアを補完する大規模ベンチマーク
- Authors: Rongtian Ye,
- Abstract要約: クロスチャート比較要約のための最初の大規模ベンチマークであるChartDiffを紹介する。
ChartDiffは、さまざまなデータソース、チャートタイプ、ビジュアルスタイルにまたがる8,541のチャートペアで構成されている。
ChartDiffを用いて、汎用、チャート特化、パイプラインベースモデルを評価する。
- 参考スコア(独自算出の注目度): 0.22843885788439797
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Charts are central to analytical reasoning, yet existing benchmarks for chart understanding focus almost exclusively on single-chart interpretation rather than comparative reasoning across multiple charts. To address this gap, we introduce ChartDiff, the first large-scale benchmark for cross-chart comparative summarization. ChartDiff consists of 8,541 chart pairs spanning diverse data sources, chart types, and visual styles, each annotated with LLM-generated and human-verified summaries describing differences in trends, fluctuations, and anomalies. Using ChartDiff, we evaluate general-purpose, chart-specialized, and pipeline-based models. Our results show that frontier general-purpose models achieve the highest GPT-based quality, while specialized and pipeline-based methods obtain higher ROUGE scores but lower human-aligned evaluation, revealing a clear mismatch between lexical overlap and actual summary quality. We further find that multi-series charts remain challenging across model families, whereas strong end-to-end models are relatively robust to differences in plotting libraries. Overall, our findings demonstrate that comparative chart reasoning remains a significant challenge for current vision-language models and position ChartDiff as a new benchmark for advancing research on multi-chart understanding.
- Abstract(参考訳): チャートは分析的推論の中心であるが、チャート理解のための既存のベンチマークは、複数のチャートにまたがる比較推論よりも、ほとんどシングルチャートの解釈に重点を置いている。
このギャップに対処するため、我々は、クロスチャート比較要約のための最初の大規模ベンチマークであるChartDiffを紹介する。
ChartDiffは、さまざまなデータソース、チャートタイプ、視覚スタイルにまたがる8,541のチャートからなる。
ChartDiffを用いて、汎用、チャート特化、パイプラインベースモデルを評価する。
以上の結果から,フロンティア汎用モデルは高いGPTベースの品質を達成する一方,特殊なパイプラインベース手法は高いROUGEスコアを得るが,人間によるアライメント評価は低く,語彙重なりと実際の要約品質との間には明確なミスマッチがあることが判明した。
さらに、モデルファミリ間のマルチシリーズチャートは依然として困難であり、一方、強力なエンドツーエンドモデルはプロットライブラリの違いに対して比較的堅牢である。
以上の結果から,従来の視覚言語モデルでは比較チャート推論が依然として重要な課題であり,マルチチャート理解研究の進展のための新たなベンチマークとしてChartDiffが位置づけられていることが示唆された。
関連論文リスト
- ChartAB: A Benchmark for Chart Grounding & Dense Alignment [17.16234793106]
視覚言語モデル(VLM)の包括的評価を提供する新しいChartAlign Benchmark(ChartAB)を導入する。
新たな2段階推論ワークフローを導入することで、ベンチマークは2つのチャートにまたがる要素/属性の調整と比較を行うVLMの機能をさらに評価することができる。
我々の評価分析は、チャート理解における認知バイアス、弱さ、頑健さ、幻覚に対する新たな洞察を明らかにする。
論文 参考訳(メタデータ) (2025-10-30T17:56:31Z) - BigCharts-R1: Enhanced Chart Reasoning with Visual Reinforcement Finetuning [51.472854950300416]
視覚的に多様なチャート画像を生成するデータセット生成パイプラインであるBigChartsを提案する。
純粋な合成データセットとは異なり、BigChartsは現実世界のデータを取り込んで、信頼性と視覚的多様性を保証する。
チャート推論に特化して設計された新たな報酬信号を導入することにより,モデルの堅牢性と一般化が促進される。
論文 参考訳(メタデータ) (2025-08-13T13:39:17Z) - InterChart: Benchmarking Visual Reasoning Across Decomposed and Distributed Chart Information [44.79888692172093]
視覚言語モデル(VLM)が複数の関連チャートにどの程度うまく関連しているかを評価するための診断ベンチマークであるInterChartを紹介する。
ベンチマークは,個々のチャートに対する現実的推論,合成的に整合したチャートセット間の積分解析,視覚的に複雑な実世界のチャートペアに対する意味推論の3段階に分類する。
論文 参考訳(メタデータ) (2025-08-11T05:19:23Z) - ChartGemma: Visual Instruction-tuning for Chart Reasoning in the Wild [28.643565008567172]
本稿では,PaliGemma上で開発された新しいチャート理解と推論モデルであるChartGemmaを紹介する。
基礎となるデータテーブルに頼るのではなく、ChartGemmaは、チャートイメージから直接生成されたインストラクションチューニングデータに基づいて訓練される。
我々の単純なアプローチは、チャートの要約、質問応答、ファクトチェックにまたがる5ドルのベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2024-07-04T22:16:40Z) - ChartX & ChartVLM: A Versatile Benchmark and Foundation Model for Complicated Chart Reasoning [55.22996841790139]
我々は、チャート領域における既製のマルチモーダル言語モデル(MLLM)の能力をベンチマークする。
ChartXは18種類のチャートタイプ,7つのチャートタスク,22のディシプリナトピック,高品質なチャートデータを含むマルチモーダルな評価セットである。
我々は、解釈可能なパターンに強く依存するマルチモーダルタスクに対する新しい視点を提供するため、ChartVLMを開発した。
論文 参考訳(メタデータ) (2024-02-19T14:48:23Z) - ChartAssisstant: A Universal Chart Multimodal Language Model via
Chart-to-Table Pre-training and Multitask Instruction Tuning [54.89249749894061]
ChartAssistantは、ユニバーサルチャートの理解と推論のためのビジョン言語モデルである。
2段階のトレーニングプロセスを経て、チャートとテキストの調整のために、チャートからテーブルへのパースを事前トレーニングする。
実験により, 最先端UniChart法とChartllama法に比較して, 顕著な性能向上が得られた。
論文 参考訳(メタデータ) (2024-01-04T17:51:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。