Fugu-MT 論文翻訳(概要): RealChart2Code: Advancing Chart-to-Code Generation with Real Data and Multi-Task Evaluation

論文の概要: RealChart2Code: Advancing Chart-to-Code Generation with Real Data and Multi-Task Evaluation

arxiv url: http://arxiv.org/abs/2603.25804v1
Date: Thu, 26 Mar 2026 18:11:46 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-30 21:49:48.228229
Title: RealChart2Code: Advancing Chart-to-Code Generation with Real Data and Multi-Task Evaluation
Title（参考訳）: RealChart2Code: リアルタイムデータとマルチタスク評価によるチャート・ツー・コード生成の改善
Authors: Jiajun Zhang, Yuying Li, Zhixun Li, Xingyu Guo, Jingzhuo Wu, Leqi Zheng, Yiran Yang, Jianke Zhang, Qingbin Li, Shannan Yan, Zhetong Li, Changguo Jia, Junfei Wu, Zilei Wang, Qiang Liu, Liang Wang,
Abstract要約: VLM(Vision-Language Models)は、さまざまなドメインにわたるコード生成において、印象的な機能を示している。しかし、実世界のデータから複雑なマルチパネル可視化を再現する能力はほとんど評価されていない。 textbftexttRealChart2Codeは,2800以上のインスタンスを認証データセットに格納した,新たな大規模ベンチマークである。
参考スコア（独自算出の注目度）: 44.54920245253688
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-Language Models (VLMs) have demonstrated impressive capabilities in code generation across various domains. However, their ability to replicate complex, multi-panel visualizations from real-world data remains largely unassessed. To address this gap, we introduce \textbf{\texttt{RealChart2Code}}, a new large-scale benchmark with over 2,800 instances grounded in authentic datasets and featuring tasks with clear analytical intent. Crucially, it is the first benchmark to systematically evaluate chart generation from large-scale raw data and assess iterative code refinement in a multi-turn conversational setting. Our comprehensive evaluation of 14 leading VLMs on \texttt{RealChart2Code} reveals significant performance degradation compared to simpler benchmarks, highlighting their struggles with complex plot structures and authentic data. Our analysis uncovers a substantial performance gap between proprietary and open-weight models and confirms that even state-of-the-art VLMs often fail to accurately replicate intricate, multi-panel charts. These findings provide valuable insights into the current limitations of VLMs and guide future research directions. We release the benchmark and code at \url{https://github.com/Speakn0w/RealChart2Code}.
Abstract（参考訳）: VLM(Vision-Language Models)は、さまざまなドメインにわたるコード生成において、印象的な機能を示している。しかし、実世界のデータから複雑なマルチパネル可視化を再現する能力はほとんど評価されていない。このギャップに対処するために,2,800以上のインスタンスを認証データセットに格納し,明確な分析意図を持ったタスクを特徴付ける,新たな大規模ベンチマークである‘textbf{\texttt{RealChart2Code}}を紹介した。重要な点として、大規模な生データからグラフ生成を体系的に評価し、マルチターン会話環境で反復的なコード修正を評価する最初のベンチマークである。以上の結果から,より単純なベンチマークと比較すると,14個の主要なVLMの性能低下が顕著であり,複雑なプロット構造や認証データとの競合が顕著であることがわかった。我々の分析では、プロプライエタリモデルとオープンウェイトモデルの間にかなりの性能差が発見され、最先端のVLMでさえ、複雑なマルチパネルチャートを正確に再現できないことが確認された。これらの知見は、VLMの現在の限界についての貴重な洞察を与え、今後の研究方向を導いた。私たちはベンチマークとコードを \url{https://github.com/Speakn0w/RealChart2Code} でリリースします。

論文の概要: RealChart2Code: Advancing Chart-to-Code Generation with Real Data and Multi-Task Evaluation

関連論文リスト