論文の概要: From Charts to Code: A Hierarchical Benchmark for Multimodal Models
- arxiv url: http://arxiv.org/abs/2510.17932v1
- Date: Mon, 20 Oct 2025 15:11:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.41772
- Title: From Charts to Code: A Hierarchical Benchmark for Multimodal Models
- Title(参考訳): チャートからコードへ:マルチモーダルモデルのための階層的なベンチマーク
- Authors: Jiahao Tang, Henry Hengyuan Zhao, Lijian Wu, Yifei Tao, Dongxing Mao, Yang Wan, Jingru Tan, Min Zeng, Min Li, Alex Jinpeng Wang,
- Abstract要約: Chart2Codeは、大規模マルチモーダルモデル(LMM)のチャート理解とコード生成能力を評価するための新しいベンチマークである。
レベル1(Chart Reproduction)は、参照図とユーザクエリからチャートを再現する。レベル2(Chart Editing)は、チャートタイプの変更や要素の追加といった複雑な変更を伴う。
私たちの知る限り、これは、タスクの複雑さを体系的にスケーリングしながら、実用的なChart2codeの使用を反映する最初の階層的なベンチマークです。
- 参考スコア(独自算出の注目度): 13.754978548475627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Chart2Code, a new benchmark for evaluating the chart understanding and code generation capabilities of large multimodal models (LMMs). Chart2Code is explicitly designed from a user-driven perspective, capturing diverse real-world scenarios and progressively increasing task difficulty. It consists of three levels: Level 1 (Chart Reproduction) reproduces charts from a reference figure and user query; Level 2 (Chart Editing) involves complex modifications such as changing chart types or adding elements; and Level 3 (Long-Table to Chart Generation) requires models to transform long, information-dense tables into faithful charts following user instructions. To our knowledge, this is the first hierarchical benchmark that reflects practical chart2code usage while systematically scaling task complexity. In total, Chart2Code contains 2,023 tasks across 22 chart types, paired with multi-level evaluation metrics that assess both code correctness and the visual fidelity of rendered charts. We benchmark 25 state-of-the-art (SoTA) LMMs, including both proprietary and the latest open-source models such as GPT-5, Qwen2.5-VL, InternVL3/3.5, MiMo-VL, and Seed-1.6-VL. Experimental results demonstrate that even the SoTA model GPT-5 averages only 0.57 on code-based evaluation and 0.22 on chart-quality assessment across the editing tasks, underscoring the difficulty of Chart2Code. We anticipate this benchmark will drive advances in multimodal reasoning and foster the development of more robust and general-purpose LMMs. Our code and data are available on Chart2Code.
- Abstract(参考訳): 大型マルチモーダルモデル(LMM)のチャート理解とコード生成能力を評価するための新しいベンチマークであるChart2Codeを紹介する。
Chart2Codeはユーザ主導の視点で明示的に設計されており、多様な現実世界のシナリオをキャプチャし、タスクの難しさを徐々に増加させている。
レベル1(Chart Reproduction)は、参照図とユーザクエリからチャートを再現する。レベル2(Chart Editing)は、チャートタイプの変更や要素の追加といった複雑な変更を伴う。
私たちの知る限り、これは、タスクの複雑さを体系的にスケーリングしながら、実用的なChart2codeの使用を反映する最初の階層的なベンチマークです。
Chart2Codeには、22のチャートタイプにまたがる2,023のタスクが含まれており、コードの正確性とレンダリングされたチャートの視覚的忠実度の両方を評価するマルチレベル評価指標と組み合わせられている。
我々は、GPT-5、Qwen2.5-VL、InternVL3/3.5、MiMo-VL、Seed-1.6-VLといったプロプライエタリおよび最新のオープンソースモデルを含む25の最先端(SoTA)LMMをベンチマークする。
実験結果から,コードベース評価では平均0.57,編集タスク全体でのチャート品質評価では0.22に留まり,Chart2Codeの難しさを裏付けることがわかった。
我々は,このベンチマークがマルチモーダル推論の進歩を促進し,より堅牢で汎用的なLMMの開発を促進することを期待する。
コードとデータはChart2Codeで利用可能です。
関連論文リスト
- ChartM$^3$: Benchmarking Chart Editing with Multimodal Instructions [65.21061221740388]
本稿では,ユーザ意図を自然言語と視覚指標の組み合わせで表現する,マルチモーダルチャート編集のための新しいパラダイムを提案する。
マルチモードチャート編集のための新しいベンチマークであるChart$textM3$を,マルチレベル複雑度とマルチパースペクティブ評価で提示する。
論文 参考訳(メタデータ) (2025-07-25T13:30:14Z) - Boosting Chart-to-Code Generation in MLLM via Dual Preference-Guided Refinement [16.22363384653305]
MLLM(Multimodal Large Language Models)は、きめ細かい視覚解析、正確なコード合成、堅牢なクロスモーダル推論を行う。
本稿では、フィードバック駆動の2つのモダリティ報酬機構と反復的な嗜好学習を組み合わせた2つの嗜好誘導改善フレームワークを提案する。
本フレームワークは汎用MLLMの性能を大幅に向上させ,高品質なプロットコードを生成する。
論文 参考訳(メタデータ) (2025-04-03T07:51:20Z) - ChartCoder: Advancing Multimodal Large Language Model for Chart-to-Code Generation [62.88742217569754]
textbfChartCoderは、最初の専用チャートからコードへのMLLMである。
textbfChart2Code-160kは、チャート・ツー・コード生成のための、最初の大規模かつ多様なデータセットである。
実験によると、ChartCoderは7Bパラメータしか持たないが、チャート・トゥ・コードベンチマークで既存のオープンソースのMLLMを超えている。
論文 参考訳(メタデータ) (2025-01-11T17:52:22Z) - ChartMimic: Evaluating LMM's Cross-Modal Reasoning Capability via Chart-to-Code Generation [42.945960365307485]
大規模マルチモーダルモデル(LMM)の視覚的グラウンドコード生成能力の評価を目的とした新しいベンチマークであるChartMimicを導入する。
ChartMimicには4,800の人間が計算した(図、命令、コード)三つ子が含まれている。
既存のコード生成ベンチマークとは異なり、ChartMimicは認知能力のブレンドを調和させるLMMの能力を評価することに重点を置いている。
論文 参考訳(メタデータ) (2024-06-14T12:10:51Z) - TinyChart: Efficient Chart Understanding with Visual Token Merging and Program-of-Thoughts Learning [83.58521787193293]
本稿では,3Bパラメータのみを用いたチャート理解のための効率的なMLLMであるTinyChartを提案する。
TinyChartは,1)プログラム・オブ・ソート(PoT)学習戦略による数値計算学習の負担軽減,2)ビジョン・トーケン・マージ・モジュールによる高解像度画像のためのビジョン・トランスフォーマーによって生成される長大な視覚特徴系列の削減という,効率的なチャート理解における2つの課題を克服した。
論文 参考訳(メタデータ) (2024-04-25T14:23:24Z) - ChartBench: A Benchmark for Complex Visual Reasoning in Charts [36.492851648081405]
MLLM(Multimodal Large Language Models)は画像の理解と生成に優れた能力を示している。
現在のベンチマークでは、限定的なチャートタイプと不適切なメトリクスのため、MLLMのチャート理解を正確に評価することができない。
複雑な視覚的推論によってチャートの理解とデータの信頼性を評価するための総合的なベンチマークであるChartBenchを提案する。
論文 参考訳(メタデータ) (2023-12-26T07:20:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。