論文の概要: Chart Specification: Structural Representations for Incentivizing VLM Reasoning in Chart-to-Code Generation
- arxiv url: http://arxiv.org/abs/2602.10880v1
- Date: Wed, 11 Feb 2026 14:08:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.97407
- Title: Chart Specification: Structural Representations for Incentivizing VLM Reasoning in Chart-to-Code Generation
- Title(参考訳): チャート仕様: チャート・ツー・コード生成におけるVLM推論のインセンティブ化のための構造表現
- Authors: Minggui He, Mingchen Dai, Jian Zhang, Yilun Liu, Shimin Tao, Pufan Zeng, Osamu Yoshie, Yuya Ieiri,
- Abstract要約: VLM(Vision-Language Models)は、チャート画像からプロットコードを生成することを約束している。
既存のアプローチは、主に監督された微調整と表面レベルのトークンの模倣に頼っている。
本稿では,テキストの模倣から意味的に根ざした監督へトレーニングを移行させる構造化中間表現であるChart Specificationを提案する。
- 参考スコア(独自算出の注目度): 11.18352269863283
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) have shown promise in generating plotting code from chart images, yet achieving structural fidelity remains challenging. Existing approaches largely rely on supervised fine-tuning, encouraging surface-level token imitation rather than faithful modeling of underlying chart structure, which often leads to hallucinated or semantically inconsistent outputs. We propose Chart Specification, a structured intermediate representation that shifts training from text imitation to semantically grounded supervision. Chart Specification filters syntactic noise to construct a structurally balanced training set and supports a Spec-Align Reward that provides fine-grained, verifiable feedback on structural correctness, enabling reinforcement learning to enforce consistent plotting logic. Experiments on three public benchmarks show that our method consistently outperforms prior approaches. With only 3K training samples, we achieve strong data efficiency, surpassing leading baselines by up to 61.7% on complex benchmarks, and scaling to 4K samples establishes new state-of-the-art results across all evaluated metrics. Overall, our results demonstrate that precise structural supervision offers an efficient pathway to high-fidelity chart-to-code generation. Code and dataset are available at: https://github.com/Mighten/chart-specification-paper
- Abstract(参考訳): VLM(Vision-Language Models)は、チャート画像からプロットコードを生成することを約束している。
既存のアプローチは、基礎となるチャート構造の忠実なモデリングよりも、監督された微調整と表面レベルのトークンの模倣に大きく依存している。
本稿では,テキストの模倣から意味的に根ざした監督へトレーニングを移行させる構造化中間表現であるChart Specificationを提案する。
チャート仕様は、構文ノイズをフィルタして、構造的バランスの取れたトレーニングセットを構築し、構造的正確性に関するきめ細かい検証可能なフィードバックを提供するSpec-Align Rewardをサポートする。
3つの公開ベンチマーク実験により,提案手法は従来手法より一貫して優れていることが示された。
3Kのトレーニングサンプルだけで、私たちは強力なデータ効率を実現し、複雑なベンチマークでリードベースラインを61.7%上回り、4Kのサンプルへのスケーリングは、すべての評価されたメトリクスで新しい最先端の結果を確立します。
以上の結果から, 精度の高い構造管理が, 高忠実度チャート・コード生成の効率的な経路となることが示唆された。
コードとデータセットは、https://github.com/Mighten/chart-specification-paperで入手できる。
関連論文リスト
- ChartVerse: Scaling Chart Reasoning via Reliable Programmatic Synthesis from Scratch [57.01439313241121]
グラフの複雑さを定量化する新しい指標であるRollout Posterior Entropy(RPE)を紹介する。
また、推論厳密性を保証するために、真正対応の逆QA合成を開発する。
さらに, モデルフェールレートに基づく試料をろ過し, 高品質なCoT (Chain-of-Thought) 推算を行った。
論文 参考訳(メタデータ) (2026-01-20T05:11:44Z) - Semi-supervised Instruction Tuning for Large Language Models on Text-Attributed Graphs [62.544129365882014]
本稿では,SIT-Graph というグラフ学習用セミ教師付きインストラクションチューニングパイプラインを提案する。
SIT-Graphはモデルに依存しず、LSMを予測子として利用するグラフ命令チューニングメソッドにシームレスに統合することができる。
SIT-Graphは、最先端グラフチューニング手法に組み込むと、テキスト分散グラフベンチマークの性能を大幅に向上することを示した。
論文 参考訳(メタデータ) (2026-01-19T08:10:53Z) - ChartAnchor: Chart Grounding with Structural-Semantic Fidelity [19.798612765001746]
チャートグラウンド(英: Chart grounding)とは、チャートの視覚的外観と構造的意味論の間の双方向のアライメントを指す。
ChartAnchorは、8k以上のチャートテーブルコードトリプルのベンチマークである。
マルチレベル評価フレームワークは、セマンティックバリデーション、スタイリスティック分析、知覚メトリクスを統合して、構造的およびコンテンツレベルの正確性を評価する。
論文 参考訳(メタデータ) (2025-11-30T18:28:09Z) - Breaking the SFT Plateau: Multimodal Structured Reinforcement Learning for Chart-to-Code Generation [12.822184232115333]
本稿では,マルチモーダル構造化強化学習(MSRL)を提案する。
実世界のarXivテーブルから300万のチャートコードペアを含む,これまでで最大のトレーニングコーパスを構築した。
MSRLはSFT高原を著しく破壊し、ChartMimicとReachQAのベンチマークでそれぞれ6.2%と9.9%の高水準のメトリクスを改善した。
論文 参考訳(メタデータ) (2025-08-19T07:40:18Z) - Compile Scene Graphs with Reinforcement Learning [69.36723767339001]
次世代予測は大規模言語モデル(LLM)の訓練の基本原理である
本稿では,マルチモーダルLLM(M-LLM)であるR1-SGGを紹介する。
私たちは、Hard Recall、Hard Recall+Relax、Soft Recallの3つのリコールベースのバリエーションを含む、グラフ中心の報酬セットを設計します。
論文 参考訳(メタデータ) (2025-04-18T10:46:22Z) - Socratic Chart: Cooperating Multiple Agents for Robust SVG Chart Understanding [14.75820681491341]
既存のベンチマークでは、真の視覚的推論ではなく、テキストベースのショートカットと確率的パターンマッチングに依存している。
グラフ画像をスケーラブルベクトルグラフ表現に変換する新しいフレームワークであるSocratic Chartを提案する。
我々のフレームワークは、グラフプリミティブを正確にキャプチャし、推論性能を向上させるために最先端モデルを上回る。
論文 参考訳(メタデータ) (2025-04-14T00:07:39Z) - Graph-Based Multimodal Contrastive Learning for Chart Question Answering [11.828192162922436]
この研究は、チャートコンポーネントとその基盤構造間の関係を明示的にモデル化する、新しいマルチモーダルシーングラフフレームワークを導入している。
このフレームワークは、視覚グラフとテキストグラフの両方を統合し、構造的特徴と意味的特徴をキャプチャする。
グラフの対照的な学習戦略は、トランスフォーマーデコーダをソフトプロンプトとしてシームレスに組み込むことができるように、モジュール間のノード表現を整列させる。
論文 参考訳(メタデータ) (2025-01-08T06:27:07Z) - Learning to Model Graph Structural Information on MLPs via Graph Structure Self-Contrasting [50.181824673039436]
本稿では,グラフ構造情報をメッセージパッシングなしで学習するグラフ構造自己コントラスト(GSSC)フレームワークを提案する。
提案するフレームワークは,構造情報を事前知識として暗黙的にのみ組み込む,MLP(Multi-Layer Perceptrons)に基づいている。
これはまず、近傍の潜在的非形式的あるいはノイズの多いエッジを取り除くために構造的スペーシングを適用し、その後、スペーシングされた近傍で構造的自己コントラストを行い、ロバストなノード表現を学ぶ。
論文 参考訳(メタデータ) (2024-09-09T12:56:02Z) - Heuristic Semi-Supervised Learning for Graph Generation Inspired by
Electoral College [80.67842220664231]
本稿では,新たなノードやエッジを自動的に拡張して,高密度サブグラフ内のラベル類似性を向上する,新しい前処理手法であるElectoral College(ELCO)を提案する。
テストされたすべての設定において、我々の手法はベースモデルの平均スコアを4.7ポイントの広いマージンで引き上げるとともに、常に最先端のモデルよりも優れています。
論文 参考訳(メタデータ) (2020-06-10T14:48:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。