論文の概要: ChartMaster: Advancing Chart-to-Code Generation with Real-World Charts and Chart Similarity Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2508.17608v1
- Date: Mon, 25 Aug 2025 02:32:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.603359
- Title: ChartMaster: Advancing Chart-to-Code Generation with Real-World Charts and Chart Similarity Reinforcement Learning
- Title(参考訳): ChartMaster: 現実世界のチャートとチャート類似性強化学習によるチャートからコードへの生成の改善
- Authors: Wentao Tan, Qiong Cao, Chao Xue, Yibing Zhan, Changxing Ding, Xiaodong He,
- Abstract要約: 本稿では,人工種子の代わりにarXiv紙のリアルな人間設計図をプロンプトとして活用するReChartPromptを提案する。
また,GRPOに基づく強化学習アルゴリズムであるChartSimRLを提案する。
ReChartPromptとChartSimRLを統合したChartMasterモデルを開発した。
- 参考スコア(独自算出の注目度): 64.4193334712998
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The chart-to-code generation task requires MLLMs to convert chart images into executable code. This task faces two major challenges: limited data diversity and insufficient maintenance of visual consistency between generated and original charts during training. Existing datasets mainly rely on seed data to prompt GPT models for code generation, resulting in homogeneous samples. To address this, we propose ReChartPrompt, which leverages real-world, human-designed charts from arXiv papers as prompts instead of synthetic seeds. Using the diverse styles and rich content of arXiv charts, we construct ReChartPrompt-240K, a large-scale and highly diverse dataset. Another challenge is that although SFT effectively improve code understanding, it often fails to ensure that generated charts are visually consistent with the originals. To address this, we propose ChartSimRL, a GRPO-based reinforcement learning algorithm guided by a novel chart similarity reward. This reward consists of attribute similarity, which measures the overlap of chart attributes such as layout and color between the generated and original charts, and visual similarity, which assesses similarity in texture and other overall visual features using convolutional neural networks. Unlike traditional text-based rewards such as accuracy or format rewards, our reward considers the multimodal nature of the chart-to-code task and effectively enhances the model's ability to accurately reproduce charts. By integrating ReChartPrompt and ChartSimRL, we develop the ChartMaster model, which achieves state-of-the-art results among 7B-parameter models and even rivals GPT-4o on various chart-to-code generation benchmarks. All resources are available at https://github.com/WentaoTan/ChartMaster.
- Abstract(参考訳): チャートからコードへの生成タスクでは、チャートイメージを実行可能なコードに変換するMLLMが必要である。
このタスクは2つの大きな課題に直面している。データ多様性の制限と、トレーニング中に生成されたチャートとオリジナルのチャートの間の視覚的一貫性の維持が不十分である。
既存のデータセットは、コード生成のためのGPTモデルを促すために主にシードデータに依存しており、結果として同質なサンプルが生成される。
そこで本研究では, 合成種子の代わりに, arXiv紙のリアルな人間設計図をプロンプトとして活用するReChartPromptを提案する。
arXivチャートの多種多様なスタイルと豊富な内容を用いて,大規模かつ多種多様なデータセットであるReChartPrompt-240Kを構築した。
もうひとつの課題は、SFTがコード理解を効果的に改善する一方で、生成されたチャートが元のグラフと視覚的に整合していることを保証するのに失敗することです。
そこで本研究では,GRPOに基づく強化学習アルゴリズムであるChartSimRLを提案する。
この報酬は、生成したチャートとオリジナルチャートの間のレイアウトや色などのチャート属性の重複を測定する属性類似性と、畳み込みニューラルネットワークを用いたテクスチャやその他の全体的な視覚的特徴の類似性を評価する視覚類似性から構成される。
精度や形式報酬といった従来のテキストベースの報酬とは違って、報奨はチャート・トゥ・コード・タスクのマルチモーダルな性質を考慮し、モデルが正確にチャートを再現する能力を効果的に強化する。
ReChartPromptとChartSimRLを統合することで、7Bパラメータモデルと、様々なチャート・コード生成ベンチマークで競合するGPT-4oの最先端結果が得られるChartMasterモデルを開発した。
すべてのリソースはhttps://github.com/WentaoTan/ChartMasterで入手できる。
関連論文リスト
- BigCharts-R1: Enhanced Chart Reasoning with Visual Reinforcement Finetuning [51.472854950300416]
視覚的に多様なチャート画像を生成するデータセット生成パイプラインであるBigChartsを提案する。
純粋な合成データセットとは異なり、BigChartsは現実世界のデータを取り込んで、信頼性と視覚的多様性を保証する。
チャート推論に特化して設計された新たな報酬信号を導入することにより,モデルの堅牢性と一般化が促進される。
論文 参考訳(メタデータ) (2025-08-13T13:39:17Z) - ChartLens: Fine-grained Visual Attribution in Charts [106.44872805609673]
Post-Hoc Visual Attribution for Chartsは、所定のチャート関連応答を検証する詳細なチャート要素を特定する。
グラフオブジェクトの識別にセグメンテーションに基づく手法を用いた新しいチャート属性アルゴリズムであるChartLensを提案する。
評価の結果,ChartLensの微粒化属性は26-66%向上した。
論文 参考訳(メタデータ) (2025-05-25T23:17:32Z) - Socratic Chart: Cooperating Multiple Agents for Robust SVG Chart Understanding [14.75820681491341]
既存のベンチマークでは、真の視覚的推論ではなく、テキストベースのショートカットと確率的パターンマッチングに依存している。
グラフ画像をスケーラブルベクトルグラフ表現に変換する新しいフレームワークであるSocratic Chartを提案する。
我々のフレームワークは、グラフプリミティブを正確にキャプチャし、推論性能を向上させるために最先端モデルを上回る。
論文 参考訳(メタデータ) (2025-04-14T00:07:39Z) - RefChartQA: Grounding Visual Answer on Chart Images through Instruction Tuning [63.599057862999]
RefChartQAは、Chart Question Answering(ChartQA)とビジュアルグラウンドを統合した、新しいベンチマークである。
実験により,グラウンド化による空間認識を取り入れることで,応答精度が15%以上向上することが実証された。
論文 参考訳(メタデータ) (2025-03-29T15:50:08Z) - Text2Chart31: Instruction Tuning for Chart Generation with Automatic Feedback [37.275533538711436]
階層的なパイプラインとグラフ生成のための新しいデータセットを提案する。
私たちのデータセットであるText2Chart31には、Matplotlibライブラリを参照する31のユニークなプロットタイプが含まれています。
本稿では,人間からのフィードバックを必要とせず,グラフ生成タスクのための強化学習に基づく指導指導手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T07:25:56Z) - ChartAssisstant: A Universal Chart Multimodal Language Model via
Chart-to-Table Pre-training and Multitask Instruction Tuning [54.89249749894061]
ChartAssistantは、ユニバーサルチャートの理解と推論のためのビジョン言語モデルである。
2段階のトレーニングプロセスを経て、チャートとテキストの調整のために、チャートからテーブルへのパースを事前トレーニングする。
実験により, 最先端UniChart法とChartllama法に比較して, 顕著な性能向上が得られた。
論文 参考訳(メタデータ) (2024-01-04T17:51:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。