論文の概要: RealChart2Code: Advancing Chart-to-Code Generation with Real Data and Multi-Task Evaluation
- arxiv url: http://arxiv.org/abs/2603.25804v1
- Date: Thu, 26 Mar 2026 18:11:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.228229
- Title: RealChart2Code: Advancing Chart-to-Code Generation with Real Data and Multi-Task Evaluation
- Title(参考訳): RealChart2Code: リアルタイムデータとマルチタスク評価によるチャート・ツー・コード生成の改善
- Authors: Jiajun Zhang, Yuying Li, Zhixun Li, Xingyu Guo, Jingzhuo Wu, Leqi Zheng, Yiran Yang, Jianke Zhang, Qingbin Li, Shannan Yan, Zhetong Li, Changguo Jia, Junfei Wu, Zilei Wang, Qiang Liu, Liang Wang,
- Abstract要約: VLM(Vision-Language Models)は、さまざまなドメインにわたるコード生成において、印象的な機能を示している。
しかし、実世界のデータから複雑なマルチパネル可視化を再現する能力はほとんど評価されていない。
textbftexttRealChart2Codeは,2800以上のインスタンスを認証データセットに格納した,新たな大規模ベンチマークである。
- 参考スコア(独自算出の注目度): 44.54920245253688
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) have demonstrated impressive capabilities in code generation across various domains. However, their ability to replicate complex, multi-panel visualizations from real-world data remains largely unassessed. To address this gap, we introduce \textbf{\texttt{RealChart2Code}}, a new large-scale benchmark with over 2,800 instances grounded in authentic datasets and featuring tasks with clear analytical intent. Crucially, it is the first benchmark to systematically evaluate chart generation from large-scale raw data and assess iterative code refinement in a multi-turn conversational setting. Our comprehensive evaluation of 14 leading VLMs on \texttt{RealChart2Code} reveals significant performance degradation compared to simpler benchmarks, highlighting their struggles with complex plot structures and authentic data. Our analysis uncovers a substantial performance gap between proprietary and open-weight models and confirms that even state-of-the-art VLMs often fail to accurately replicate intricate, multi-panel charts. These findings provide valuable insights into the current limitations of VLMs and guide future research directions. We release the benchmark and code at \url{https://github.com/Speakn0w/RealChart2Code}.
- Abstract(参考訳): VLM(Vision-Language Models)は、さまざまなドメインにわたるコード生成において、印象的な機能を示している。
しかし、実世界のデータから複雑なマルチパネル可視化を再現する能力はほとんど評価されていない。
このギャップに対処するために,2,800以上のインスタンスを認証データセットに格納し,明確な分析意図を持ったタスクを特徴付ける,新たな大規模ベンチマークである‘textbf{\texttt{RealChart2Code}}を紹介した。
重要な点として、大規模な生データからグラフ生成を体系的に評価し、マルチターン会話環境で反復的なコード修正を評価する最初のベンチマークである。
以上の結果から,より単純なベンチマークと比較すると,14個の主要なVLMの性能低下が顕著であり,複雑なプロット構造や認証データとの競合が顕著であることがわかった。
我々の分析では、プロプライエタリモデルとオープンウェイトモデルの間にかなりの性能差が発見され、最先端のVLMでさえ、複雑なマルチパネルチャートを正確に再現できないことが確認された。
これらの知見は、VLMの現在の限界についての貴重な洞察を与え、今後の研究方向を導いた。
私たちはベンチマークとコードを \url{https://github.com/Speakn0w/RealChart2Code} でリリースします。
関連論文リスト
- ChartAB: A Benchmark for Chart Grounding & Dense Alignment [17.16234793106]
視覚言語モデル(VLM)の包括的評価を提供する新しいChartAlign Benchmark(ChartAB)を導入する。
新たな2段階推論ワークフローを導入することで、ベンチマークは2つのチャートにまたがる要素/属性の調整と比較を行うVLMの機能をさらに評価することができる。
我々の評価分析は、チャート理解における認知バイアス、弱さ、頑健さ、幻覚に対する新たな洞察を明らかにする。
論文 参考訳(メタデータ) (2025-10-30T17:56:31Z) - PlotCraft: Pushing the Limits of LLMs for Complex and Interactive Data Visualization [82.96200364977737]
PlotCraftは、1kの挑戦的な視覚化タスクを特徴とする新しいベンチマークだ。
PlotCraftは7つのハイレベルな視覚化タスクを中心に構成されており、48の異なるチャートタイプを含んでいる。
単一ターン生成と多ターン改善の両方を多種多様なタスク複雑度にわたって体系的に評価するのは、これが初めてである。
論文 参考訳(メタデータ) (2025-10-15T10:14:39Z) - BigCharts-R1: Enhanced Chart Reasoning with Visual Reinforcement Finetuning [51.472854950300416]
視覚的に多様なチャート画像を生成するデータセット生成パイプラインであるBigChartsを提案する。
純粋な合成データセットとは異なり、BigChartsは現実世界のデータを取り込んで、信頼性と視覚的多様性を保証する。
チャート推論に特化して設計された新たな報酬信号を導入することにより,モデルの堅牢性と一般化が促進される。
論文 参考訳(メタデータ) (2025-08-13T13:39:17Z) - GLBench: A Comprehensive Benchmark for Graph with Large Language Models [41.89444363336435]
GLBenchは、教師付きシナリオとゼロショットシナリオの両方でGraphLLMメソッドを評価するための最初の包括的なベンチマークである。
GLBenchはグラフニューラルネットワークのような従来のベースラインとともに、GraphLLMメソッドのさまざまなカテゴリを公平かつ徹底的に評価する。
論文 参考訳(メタデータ) (2024-07-10T08:20:47Z) - Challenging the Myth of Graph Collaborative Filtering: a Reasoned and Reproducibility-driven Analysis [50.972595036856035]
本稿では,6つの人気グラフと最近のグラフ推薦モデルの結果を再現するコードを提案する。
これらのグラフモデルと従来の協調フィルタリングモデルを比較する。
ユーザの近所からの情報フローを調べることにより,データセット構造における内在的特徴にどのようなモデルが影響するかを同定することを目的とする。
論文 参考訳(メタデータ) (2023-08-01T09:31:44Z) - Open Graph Benchmark: Datasets for Machine Learning on Graphs [86.96887552203479]
スケーラブルで堅牢で再現可能なグラフ機械学習(ML)の研究を容易にするために,Open Graph Benchmark(OGB)を提案する。
OGBデータセットは大規模で、複数の重要なグラフMLタスクを含み、さまざまなドメインをカバーする。
各データセットに対して,有意義なアプリケーション固有のデータ分割と評価指標を用いた統一評価プロトコルを提供する。
論文 参考訳(メタデータ) (2020-05-02T03:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。