論文の概要: ChartArena: Benchmarking Chart Parsing across Languages, Scenarios, and Formats
- arxiv url: http://arxiv.org/abs/2606.01348v1
- Date: Sun, 31 May 2026 17:00:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.599493
- Title: ChartArena: Benchmarking Chart Parsing across Languages, Scenarios, and Formats
- Title(参考訳): ChartArena: 言語、シナリオ、フォーマットにわたるチャートのベンチマーク
- Authors: Shangpin Peng, Gengluo Li, Xingyu Wan, Chengquan Zhang, Hao Feng, Binghong Wu, Huawen Shen, Weinong Wang, Ziyi Cai, Zhuotao Tian, Han Hu, Can Ma, Yu Zhou,
- Abstract要約: 数値チャートと図形構造の両方にまたがる8つのチャートファミリをカバーする総合ベンチマークであるChartArenaを紹介する。
データセットは、アノテーションの信頼性を保証するために、マルチステージのヒューマン検証を備えたヒューマンエージェントアノテーションパイプラインを介して構築される。
i) Gemini 3.1 Proのようなフロンティアモデルが全体としてリードしているが、最も強力なオープンソースシステムは急速にギャップを埋めている。
- 参考スコア(独自算出の注目度): 31.5696204376104
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Charts are a primary medium for conveying quantitative and relational information, yet systematically evaluating chart parsing models remains difficult. Existing benchmarks focus on narrow chart types and leave diagrammatic structures such as flowcharts and mind maps largely unaddressed, while models produce outputs in incompatible formats, and datasets rarely include the printed or hand-drawn images encountered in practice. To address these issues, we introduce ChartArena, a comprehensive bilingual benchmark covering eight chart families spanning both numeric charts and diagrammatic structures, each evaluated across three visual scenarios: digital renderings, printed photos, and hand-drawn photos. The dataset is built via a human-agent collaborative annotation pipeline with multi-stage human verification to ensure annotation reliability. To enable fair cross-model comparison, we further design a format-agnostic evaluation protocol that maps heterogeneous outputs into two canonical semantic spaces, a normalized triple view and a directed graph view, and scores them with structure-aware metrics. Through extensive evaluation of 26 leading MLLMs, we observe three consistent findings: (i) frontier proprietary models such as Gemini 3.1 Pro lead overall, yet the strongest open-source systems are rapidly closing the gap; (ii) document parsing models handle numeric charts reasonably but fall sharply behind on diagrammatic structures; and (iii) expert chart parsers remain limited to narrow chart families. Across all models, radar charts and hand-drawn scenarios stay especially challenging. These findings show that ChartArena exposes clear capability gaps and provides a unified foundation for future progress. ChartArena is publicly available at https://github.com/pspdada/ChartArena.
- Abstract(参考訳): チャートは量的および関係的な情報を伝達する主要な媒体であるが、体系的にチャート解析モデルを評価することは困難である。
既存のベンチマークでは、フローチャートやマインドマップなどの図形構造に焦点が当てられているが、モデルでは互換性のないフォーマットで出力を生成しており、データセットには実際に遭遇した印刷画像や手書き画像がほとんど含まれていない。
これらの問題に対処するために、ChartArenaを紹介した。これは、数値チャートと図形構造の両方にまたがる8つのチャートファミリをカバーする包括的なバイリンガルベンチマークであり、それぞれがデジタルレンダリング、プリント写真、手描き写真という3つの視覚シナリオで評価されている。
データセットは、アノテーションの信頼性を保証するために、多段階の人間検証を備えたヒューマンエージェント共同アノテーションパイプラインを介して構築される。
さらに,不均一な出力を正規化された3重ビューと有向グラフビューという2つの標準意味空間にマッピングし,構造対応のメトリクスで評価する形式に依存しない評価プロトコルを設計する。
26個のMLLMの広範囲な評価を通じて、3つの一貫した結果が得られた。
(i) Gemini 3.1 Proのようなフロンティアプロプライエタリなモデルが全体としてリードしているが、最も強力なオープンソースシステムは急速にギャップを埋めている。
(II)文書解析モデルは、数値チャートを合理的に扱うが、図形構造に大きく遅れる。
(iii)専門的な図表パーサーは狭義の図表に限られている。
全てのモデル、レーダーチャート、手描きのシナリオは、特に難しいままです。
これらの結果は、ChartArenaが明確な能力ギャップを露呈し、将来の進歩のための統一された基盤を提供することを示している。
ChartArenaはhttps://github.com/pspdada/ChartArenaで公開されている。
関連論文リスト
- ChartDiff: A Large-Scale Benchmark for Comprehending Pairs of Charts [0.22843885788439797]
クロスチャート比較要約のための最初の大規模ベンチマークであるChartDiffを紹介する。
ChartDiffは、さまざまなデータソース、チャートタイプ、ビジュアルスタイルにまたがる8,541のチャートペアで構成されている。
ChartDiffを用いて、汎用、チャート特化、パイプラインベースモデルを評価する。
論文 参考訳(メタデータ) (2026-03-30T18:29:02Z) - ChartPoint: Guiding MLLMs with Grounding Reflection for Chart Reasoning [54.86473583610112]
グラフの連鎖推論に反射的相互作用を統合するPointCoTを提案する。
位置アノテーションに基づいてMLLMにバウンディングボックスと再レンダリングチャートを生成することで、テキスト推論ステップと視覚的接地領域の接続を確立する。
我々は、いくつかのグラフベンチマークにおいて最先端のモデルであるChartPointQ2とChartPointQ2.5を開発した。
論文 参考訳(メタデータ) (2025-11-29T04:01:55Z) - BigCharts-R1: Enhanced Chart Reasoning with Visual Reinforcement Finetuning [51.472854950300416]
視覚的に多様なチャート画像を生成するデータセット生成パイプラインであるBigChartsを提案する。
純粋な合成データセットとは異なり、BigChartsは現実世界のデータを取り込んで、信頼性と視覚的多様性を保証する。
チャート推論に特化して設計された新たな報酬信号を導入することにより,モデルの堅牢性と一般化が促進される。
論文 参考訳(メタデータ) (2025-08-13T13:39:17Z) - InterChart: Benchmarking Visual Reasoning Across Decomposed and Distributed Chart Information [44.79888692172093]
視覚言語モデル(VLM)が複数の関連チャートにどの程度うまく関連しているかを評価するための診断ベンチマークであるInterChartを紹介する。
ベンチマークは,個々のチャートに対する現実的推論,合成的に整合したチャートセット間の積分解析,視覚的に複雑な実世界のチャートペアに対する意味推論の3段階に分類する。
論文 参考訳(メタデータ) (2025-08-11T05:19:23Z) - Socratic Chart: Cooperating Multiple Agents for Robust SVG Chart Understanding [14.75820681491341]
既存のベンチマークでは、真の視覚的推論ではなく、テキストベースのショートカットと確率的パターンマッチングに依存している。
グラフ画像をスケーラブルベクトルグラフ表現に変換する新しいフレームワークであるSocratic Chartを提案する。
我々のフレームワークは、グラフプリミティブを正確にキャプチャし、推論性能を向上させるために最先端モデルを上回る。
論文 参考訳(メタデータ) (2025-04-14T00:07:39Z) - RefChartQA: Grounding Visual Answer on Chart Images through Instruction Tuning [63.599057862999]
RefChartQAは、Chart Question Answering(ChartQA)とビジュアルグラウンドを統合した、新しいベンチマークである。
実験により,グラウンド化による空間認識を取り入れることで,応答精度が15%以上向上することが実証された。
論文 参考訳(メタデータ) (2025-03-29T15:50:08Z) - On Pre-training of Multimodal Language Models Customized for Chart Understanding [83.99377088129282]
本稿では,MLLMのチャート理解を改善するために必要な学習過程について考察する。
詳細なチャート理解に適したMLLMであるCHOPINLLMを紹介する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - ChartGemma: Visual Instruction-tuning for Chart Reasoning in the Wild [28.643565008567172]
本稿では,PaliGemma上で開発された新しいチャート理解と推論モデルであるChartGemmaを紹介する。
基礎となるデータテーブルに頼るのではなく、ChartGemmaは、チャートイメージから直接生成されたインストラクションチューニングデータに基づいて訓練される。
我々の単純なアプローチは、チャートの要約、質問応答、ファクトチェックにまたがる5ドルのベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2024-07-04T22:16:40Z) - ChartAssisstant: A Universal Chart Multimodal Language Model via
Chart-to-Table Pre-training and Multitask Instruction Tuning [54.89249749894061]
ChartAssistantは、ユニバーサルチャートの理解と推論のためのビジョン言語モデルである。
2段階のトレーニングプロセスを経て、チャートとテキストの調整のために、チャートからテーブルへのパースを事前トレーニングする。
実験により, 最先端UniChart法とChartllama法に比較して, 顕著な性能向上が得られた。
論文 参考訳(メタデータ) (2024-01-04T17:51:48Z) - Chart-to-Text: A Large-Scale Benchmark for Chart Summarization [9.647079534077472]
2つのデータセットと44,096のチャートを持つ大規模ベンチマークであるChart-to-textを提示する。
データセット構築プロセスを説明し、データセットを解析する。
論文 参考訳(メタデータ) (2022-03-12T17:01:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。