論文の概要: CharTide: Data-Centric Chart-to-Code Generation via Tri-Perspective Tuning and Inquiry-Driven Evolution
- arxiv url: http://arxiv.org/abs/2604.22192v1
- Date: Fri, 24 Apr 2026 03:39:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.33048
- Title: CharTide: Data-Centric Chart-to-Code Generation via Tri-Perspective Tuning and Inquiry-Driven Evolution
- Title(参考訳): CharTide: Tri-Perspective TuningとInquiry-Driven Evolutionによるデータ中心のチャート・ツー・コード生成
- Authors: Xiangxi Zheng, Kuang He, Jiayi Hu, Ping Yu, Rui Yan, Yuan Yao, Peng Hou, Anxiang Zeng, Alex Jinpeng Wang,
- Abstract要約: CharTideは、チャート・ツー・コード生成のための新しいデータ中心のフレームワークである。
トレーニングを視覚的知覚、純粋テキストのコードロジック、モダリティの融合ストリームに明確に分離する。
ChartMimic、Plot2Code、ChartXの実験によると、ChartTide-7B/8Bはオープンソースベースラインを著しく上回っている。
- 参考スコア(独自算出の注目度): 23.66187133157774
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chart-to-code generation demands strict visual precision and syntactic correctness from Vision-Language Models (VLMs). However, existing approaches are fundamentally constrained by data-centric limitations: despite the availability of growing chart-to-code datasets, simply scaling homogeneous chart-code pairs conflates visual perception with program logic, preventing models from fully leveraging the richness of multimodal supervision. We present CharTide, a novel data-centric framework that systematically redesigns both training and alignment data for chart-to-code generation. First, we construct a 2M-sample dataset via a Tri-Perspective Tuning strategy, explicitly decoupling training into visual perception, pure-text code logic, and modality fusion streams, enabling a 7B model to surpass specialized baselines using only supervised data. Second, we reformulate alignment as a data verification problem rather than a heuristic scoring task. To this end, we introduce an Inquiry-Driven RL framework grounded in the principle of information invariance: a downstream model should yield consistent answers to identical visual queries across both original and generated charts. Moving beyond rigid rule matching or VLM scoring, we employ a frozen Inspector to objectively verify generated charts through atomic QA tasks, providing verifiable reward signals based on answer accuracy. Experiments on ChartMimic, Plot2Code, and ChartX show that CharTide-7B/8B significantly outperforms open-source baselines, surpasses GPT-4o, and is competitive with GPT-5.
- Abstract(参考訳): チャート・トゥ・コード生成は、視覚言語モデル(VLM)からの厳密な視覚的精度と構文的正確性を要求する。
しかし、既存のアプローチは基本的にデータ中心の制限によって制約されている: チャートからコードへのデータセットが増大しているにもかかわらず、単に均質なチャートコードペアをスケーリングするだけで、プログラムロジックと視覚的認識が混在し、モデルがマルチモーダル監視のリッチさを完全に活用するのを防ぐ。
CharTideは、チャート・ツー・コード生成のためのトレーニングデータとアライメントデータの両方を体系的に再設計する、新しいデータ中心のフレームワークである。
まず、Tri-Perspective Tuning戦略を用いて、2Mサンプルデータセットを構築し、トレーニングを視覚知覚、純粋テキストのコードロジック、モダリティの融合ストリームに明示的に分離し、教師付きデータのみを使用して7Bモデルが特別なベースラインを超えることを可能にする。
第2に、アライメントをヒューリスティックスコアリングタスクではなく、データ検証問題として再構成する。
そこで本研究では,情報不変性の原理に基づく問合せ駆動型RLフレームワークを提案する。
厳密な規則マッチングやVLMスコアリングを超えて、我々は凍結した検査器を用いて、原子QAタスクによって生成されたチャートを客観的に検証し、応答精度に基づいて検証可能な報酬信号を提供する。
ChartMimic、Plot2Code、ChartXの実験によると、ChartTide-7B/8Bはオープンソースベースラインをはるかに上回り、GPT-4oを超え、GPT-5と競合している。
関連論文リスト
- Chart Specification: Structural Representations for Incentivizing VLM Reasoning in Chart-to-Code Generation [11.18352269863283]
VLM(Vision-Language Models)は、チャート画像からプロットコードを生成することを約束している。
既存のアプローチは、主に監督された微調整と表面レベルのトークンの模倣に頼っている。
本稿では,テキストの模倣から意味的に根ざした監督へトレーニングを移行させる構造化中間表現であるChart Specificationを提案する。
論文 参考訳(メタデータ) (2026-02-11T14:08:06Z) - ChartAnchor: Chart Grounding with Structural-Semantic Fidelity [19.798612765001746]
チャートグラウンド(英: Chart grounding)とは、チャートの視覚的外観と構造的意味論の間の双方向のアライメントを指す。
ChartAnchorは、8k以上のチャートテーブルコードトリプルのベンチマークである。
マルチレベル評価フレームワークは、セマンティックバリデーション、スタイリスティック分析、知覚メトリクスを統合して、構造的およびコンテンツレベルの正確性を評価する。
論文 参考訳(メタデータ) (2025-11-30T18:28:09Z) - ChartPoint: Guiding MLLMs with Grounding Reflection for Chart Reasoning [54.86473583610112]
グラフの連鎖推論に反射的相互作用を統合するPointCoTを提案する。
位置アノテーションに基づいてMLLMにバウンディングボックスと再レンダリングチャートを生成することで、テキスト推論ステップと視覚的接地領域の接続を確立する。
我々は、いくつかのグラフベンチマークにおいて最先端のモデルであるChartPointQ2とChartPointQ2.5を開発した。
論文 参考訳(メタデータ) (2025-11-29T04:01:55Z) - ChartMaster: Advancing Chart-to-Code Generation with Real-World Charts and Chart Similarity Reinforcement Learning [64.4193334712998]
チャートからコードへの生成タスクでは、チャートイメージを実行可能なコードに変換するMLLMが必要である。
このタスクは、データ多様性の制限と、生成されたチャートと元のチャートの間の視覚的一貫性を維持することの難しさという、2つの大きな課題に直面する。
本稿では,arXiv論文から抽出した実世界の人間設計チャートをプロンプトとして活用するReChartPromptを提案する。
また,GRPOに基づく強化学習アルゴリズムであるChartSimRLを提案する。
論文 参考訳(メタデータ) (2025-08-25T02:32:56Z) - BigCharts-R1: Enhanced Chart Reasoning with Visual Reinforcement Finetuning [51.472854950300416]
視覚的に多様なチャート画像を生成するデータセット生成パイプラインであるBigChartsを提案する。
純粋な合成データセットとは異なり、BigChartsは現実世界のデータを取り込んで、信頼性と視覚的多様性を保証する。
チャート推論に特化して設計された新たな報酬信号を導入することにより,モデルの堅牢性と一般化が促進される。
論文 参考訳(メタデータ) (2025-08-13T13:39:17Z) - Boosting Chart-to-Code Generation in MLLM via Dual Preference-Guided Refinement [16.22363384653305]
MLLM(Multimodal Large Language Models)は、きめ細かい視覚解析、正確なコード合成、堅牢なクロスモーダル推論を行う。
本稿では、フィードバック駆動の2つのモダリティ報酬機構と反復的な嗜好学習を組み合わせた2つの嗜好誘導改善フレームワークを提案する。
本フレームワークは汎用MLLMの性能を大幅に向上させ,高品質なプロットコードを生成する。
論文 参考訳(メタデータ) (2025-04-03T07:51:20Z) - RefChartQA: Grounding Visual Answer on Chart Images through Instruction Tuning [63.599057862999]
RefChartQAは、Chart Question Answering(ChartQA)とビジュアルグラウンドを統合した、新しいベンチマークである。
実験により,グラウンド化による空間認識を取り入れることで,応答精度が15%以上向上することが実証された。
論文 参考訳(メタデータ) (2025-03-29T15:50:08Z) - Heuristic Semi-Supervised Learning for Graph Generation Inspired by
Electoral College [80.67842220664231]
本稿では,新たなノードやエッジを自動的に拡張して,高密度サブグラフ内のラベル類似性を向上する,新しい前処理手法であるElectoral College(ELCO)を提案する。
テストされたすべての設定において、我々の手法はベースモデルの平均スコアを4.7ポイントの広いマージンで引き上げるとともに、常に最先端のモデルよりも優れています。
論文 参考訳(メタデータ) (2020-06-10T14:48:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。