論文の概要: ChartMaster: Advancing Chart-to-Code Generation with Real-World Charts and Chart Similarity Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2508.17608v2
- Date: Sun, 28 Sep 2025 06:18:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 20:10:04.529878
- Title: ChartMaster: Advancing Chart-to-Code Generation with Real-World Charts and Chart Similarity Reinforcement Learning
- Title(参考訳): ChartMaster: 現実世界のチャートとチャート類似性強化学習によるチャートからコードへの生成の改善
- Authors: Wentao Tan, Qiong Cao, Chao Xue, Yibing Zhan, Changxing Ding, Xiaodong He,
- Abstract要約: チャートからコードへの生成タスクでは、チャートイメージを実行可能なコードに変換するMLLMが必要である。
このタスクは、データ多様性の制限と、生成されたチャートと元のチャートの間の視覚的一貫性を維持することの難しさという、2つの大きな課題に直面する。
本稿では,arXiv論文から抽出した実世界の人間設計チャートをプロンプトとして活用するReChartPromptを提案する。
また,GRPOに基づく強化学習アルゴリズムであるChartSimRLを提案する。
- 参考スコア(独自算出の注目度): 64.4193334712998
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The chart-to-code generation task requires MLLMs to convert chart images into executable code. This task faces two main challenges: limited data diversity and the difficulty of maintaining visual consistency between generated charts and the original ones. Existing datasets mainly rely on synthetic seed data to prompt GPT models for code generation, resulting in homogeneous samples that limit model generalization to real-world chart styles. To address this, we propose ReChartPrompt, leveraging real-world, human-designed charts extracted from arXiv papers as prompts. By harnessing the rich content and diverse visual styles of arXiv charts, we construct ReChartPrompt-240K, a large-scale and highly diverse dataset that better reflects realistic chart variations. For the second challenge, although SFT improves code understanding by optimizing next-token prediction, it does not provide direct supervision on visual features. As a result, it often fails to guarantee that the generated charts visually match the original ones. To address this, we propose ChartSimRL, a GRPO-based reinforcement learning algorithm guided by a novel chart similarity reward. This reward consists of two components: attribute similarity, which measures the overlap of chart attributes like layout and color between the generated and original charts, and visual similarity, which evaluates overall visual features, including texture, using convolutional neural networks. Unlike traditional text-based rewards, our reward accounts for the multimodal nature of the chart-to-code generation task, significantly enhancing the model's ability to accurately reproduce charts. Integrating ReChartPrompt and ChartSimRL, we develop the ChartMaster model, achieving SOTA results among 7B-parameter models and rivaling GPT-4o on various chart-to-code benchmarks. All resources are available at https://github.com/WentaoTan/ChartMaster.
- Abstract(参考訳): チャートからコードへの生成タスクでは、チャートイメージを実行可能なコードに変換するMLLMが必要である。
このタスクは、データ多様性の制限と、生成されたチャートと元のチャートの間の視覚的一貫性を維持することの難しさという、2つの大きな課題に直面する。
既存のデータセットは主に、GPTモデルにコード生成を促すための合成シードデータに依存しており、結果としてモデル一般化を現実世界のチャートスタイルに制限する均質なサンプルが作られる。
そこで本研究では,arXiv論文から抽出した実世界の人間設計チャートをプロンプトとして活用するReChartPromptを提案する。
arXivチャートのリッチコンテンツと多様な視覚スタイルを活用することで、現実的なチャートの変動をよりよく反映した大規模かつ多彩なデータセットであるReChartPrompt-240Kを構築する。
第二の課題として、SFTは次点の予測を最適化することで、コード理解を改善するが、視覚的特徴を直接監督するものではない。
その結果、生成されたチャートが元のグラフと視覚的に一致することを保証できないことが多い。
そこで本研究では,GRPOに基づく強化学習アルゴリズムであるChartSimRLを提案する。
この報酬は、生成されたチャートとオリジナルのチャートの間のレイアウトや色などのチャート属性の重複を測定する属性類似性と、畳み込みニューラルネットワークを使用してテクスチャを含む全体的な視覚的特徴を評価する視覚類似性という2つのコンポーネントから構成される。
従来のテキストベースの報酬とは違って、報酬はチャート・コード生成タスクのマルチモーダルな性質を考慮し、モデルが正確にチャートを再現する能力を大幅に向上させる。
ReChartPromptとChartSimRLを統合してChartMasterモデルを開発し、7BパラメータモデルのSOTA結果と、様々なチャート・コード・ベンチマークでGPT-4oと競合する結果を得た。
すべてのリソースはhttps://github.com/WentaoTan/ChartMasterで入手できる。
関連論文リスト
- BigCharts-R1: Enhanced Chart Reasoning with Visual Reinforcement Finetuning [51.472854950300416]
視覚的に多様なチャート画像を生成するデータセット生成パイプラインであるBigChartsを提案する。
純粋な合成データセットとは異なり、BigChartsは現実世界のデータを取り込んで、信頼性と視覚的多様性を保証する。
チャート推論に特化して設計された新たな報酬信号を導入することにより,モデルの堅牢性と一般化が促進される。
論文 参考訳(メタデータ) (2025-08-13T13:39:17Z) - ChartLens: Fine-grained Visual Attribution in Charts [106.44872805609673]
Post-Hoc Visual Attribution for Chartsは、所定のチャート関連応答を検証する詳細なチャート要素を特定する。
グラフオブジェクトの識別にセグメンテーションに基づく手法を用いた新しいチャート属性アルゴリズムであるChartLensを提案する。
評価の結果,ChartLensの微粒化属性は26-66%向上した。
論文 参考訳(メタデータ) (2025-05-25T23:17:32Z) - Socratic Chart: Cooperating Multiple Agents for Robust SVG Chart Understanding [14.75820681491341]
既存のベンチマークでは、真の視覚的推論ではなく、テキストベースのショートカットと確率的パターンマッチングに依存している。
グラフ画像をスケーラブルベクトルグラフ表現に変換する新しいフレームワークであるSocratic Chartを提案する。
我々のフレームワークは、グラフプリミティブを正確にキャプチャし、推論性能を向上させるために最先端モデルを上回る。
論文 参考訳(メタデータ) (2025-04-14T00:07:39Z) - RefChartQA: Grounding Visual Answer on Chart Images through Instruction Tuning [63.599057862999]
RefChartQAは、Chart Question Answering(ChartQA)とビジュアルグラウンドを統合した、新しいベンチマークである。
実験により,グラウンド化による空間認識を取り入れることで,応答精度が15%以上向上することが実証された。
論文 参考訳(メタデータ) (2025-03-29T15:50:08Z) - Text2Chart31: Instruction Tuning for Chart Generation with Automatic Feedback [37.275533538711436]
階層的なパイプラインとグラフ生成のための新しいデータセットを提案する。
私たちのデータセットであるText2Chart31には、Matplotlibライブラリを参照する31のユニークなプロットタイプが含まれています。
本稿では,人間からのフィードバックを必要とせず,グラフ生成タスクのための強化学習に基づく指導指導手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T07:25:56Z) - ChartAssisstant: A Universal Chart Multimodal Language Model via
Chart-to-Table Pre-training and Multitask Instruction Tuning [54.89249749894061]
ChartAssistantは、ユニバーサルチャートの理解と推論のためのビジョン言語モデルである。
2段階のトレーニングプロセスを経て、チャートとテキストの調整のために、チャートからテーブルへのパースを事前トレーニングする。
実験により, 最先端UniChart法とChartllama法に比較して, 顕著な性能向上が得られた。
論文 参考訳(メタデータ) (2024-01-04T17:51:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。