論文の概要: ChartVerse: Scaling Chart Reasoning via Reliable Programmatic Synthesis from Scratch
- arxiv url: http://arxiv.org/abs/2601.13606v1
- Date: Tue, 20 Jan 2026 05:11:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.16408
- Title: ChartVerse: Scaling Chart Reasoning via Reliable Programmatic Synthesis from Scratch
- Title(参考訳): ChartVerse: Scratchからの信頼性のあるプログラム合成によるチャート推論
- Authors: Zheng Liu, Honglin Lin, Chonghan Qin, Xiaoyang Wang, Xin Gao, Yu Li, Mengzhang Cai, Yun Zhu, Zhanping Zhong, Qizhi Pei, Zhuoshi Pan, Xiaoran Shang, Bin Cui, Conghui He, Wentao Zhang, Lijun Wu,
- Abstract要約: グラフの複雑さを定量化する新しい指標であるRollout Posterior Entropy(RPE)を紹介する。
また、推論厳密性を保証するために、真正対応の逆QA合成を開発する。
さらに, モデルフェールレートに基づく試料をろ過し, 高品質なCoT (Chain-of-Thought) 推算を行った。
- 参考スコア(独自算出の注目度): 57.01439313241121
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chart reasoning is a critical capability for Vision Language Models (VLMs). However, the development of open-source models is severely hindered by the lack of high-quality training data. Existing datasets suffer from a dual challenge: synthetic charts are often simplistic and repetitive, while the associated QA pairs are prone to hallucinations and lack the reasoning depth required for complex tasks. To bridge this gap, we propose ChartVerse, a scalable framework designed to synthesize complex charts and reliable reasoning data from scratch. (1) To address the bottleneck of simple patterns, we first introduce Rollout Posterior Entropy (RPE), a novel metric that quantifies chart complexity. Guided by RPE, we develop complexity-aware chart coder to autonomously synthesize diverse, high-complexity charts via executable programs. (2) To guarantee reasoning rigor, we develop truth-anchored inverse QA synthesis. Diverging from standard generation, we adopt an answer-first paradigm: we extract deterministic answers directly from the source code, generate questions conditional on these anchors, and enforce strict consistency verification. To further elevate difficulty and reasoning depth, we filter samples based on model fail-rate and distill high-quality Chain-of-Thought (CoT) reasoning. We curate ChartVerse-SFT-600K and ChartVerse-RL-40K using Qwen3-VL-30B-A3B-Thinking as the teacher. Experimental results demonstrate that ChartVerse-8B achieves state-of-the-art performance, notably surpassing its teacher and rivaling the stronger Qwen3-VL-32B-Thinking.
- Abstract(参考訳): チャート推論は視覚言語モデル(VLM)にとって重要な能力である。
しかし、オープンソースのモデルの開発は、高品質なトレーニングデータがないために深刻な障害となっている。
合成チャートはしばしば単純かつ反復的であり、関連するQAペアは幻覚を起こしやすく、複雑なタスクに必要な推論深度を欠いている。
このギャップを埋めるため、複雑なチャートと信頼性の高い推論データをスクラッチから合成するスケーラブルなフレームワークであるChartVerseを提案する。
1) 単純なパターンのボトルネックに対処するため,まず,チャートの複雑さを定量化する新しい指標であるRollout Posterior Entropy(RPE)を導入する。
RPEによって導かれる複雑性対応チャートコーダは,実行可能プログラムを介して多種多様で複雑なチャートを自律的に合成する。
2) 推論の厳密性を保証するため,真理アンコール型逆QA合成を開発した。
ソースコードから直接決定論的回答を抽出し、これらのアンカーに条件付き質問を生成し、厳密な一貫性検証を実施する。
さらに, モデルフェールレートに基づく試料をろ過し, 高品質なCoT (Chain-of-Thought) 推算を行った。
教師としてQwen3-VL-30B-A3B-Thinkingを用いてChartVerse-SFT-600KとChartVerse-RL-40Kをキュレートする。
実験の結果、ChartVerse-8Bは最先端のパフォーマンスを実現しており、特に教師に勝り、Qwen3-VL-32B-Thinkingに対抗している。
関連論文リスト
- Visual Programmability: A Guide for Code-as-Thought in Chart Understanding [37.44645754630439]
検証可能なシンボリックフォーマットでチャートの視覚情報を表現するためのCode-as-Thought(CaT)アプローチを提案する。
ビジュアルプログラマビリティ(Visual Programmability)は、チャート検索ペアがコードや直接視覚分析でよりよく解けるかどうかを判断する学習可能なプロパティである。
我々はこの概念を,視覚言語モデル(VLM)がCaT経路と直接視覚推論経路のどちらを選択するかを学習する適応的なフレームワークで実装する。
論文 参考訳(メタデータ) (2025-09-11T09:22:16Z) - Chart-CoCa: Self-Improving Chart Understanding of Vision LMs via Code-Driven Synthesis and Candidate-Conditioned Answering [4.036085193573325]
視覚言語モデル(VLM)は、チャート理解タスク、特に正確なチャート記述や複雑な推論においてしばしば苦労する。
本稿では,コード生成と実行を通じてチャート検索三重項を協調的に生成するチャート合成パイプラインを提案する。
実験では、初期のVLMよりも15.50ポイントの精度が向上した。
論文 参考訳(メタデータ) (2025-08-16T08:26:55Z) - Chart-R1: Chain-of-Thought Supervision and Reinforcement for Advanced Chart Reasoner [13.465161900684432]
本稿では,グラフ領域の視覚言語モデルであるChart-R1を紹介する。
Chart-R1をサポートするために、我々はまず、高品質なステップバイステップチャート推論データを生成する新しいプログラムデータ技術を提案する。
次に、ステップバイステップのチェーン監視を行うChart-COTと、数値的に感度の高い強化微調整を行うChart-RFTの2段階のトレーニング戦略を開発する。
論文 参考訳(メタデータ) (2025-07-21T11:22:17Z) - ChartReasoner: Code-Driven Modality Bridging for Long-Chain Reasoning in Chart Question Answering [12.285453136336507]
本稿では,チャート上での正確かつ解釈可能な推論を可能にするための,コード駆動型フレームワークを提案する。
まず、多彩なチャート画像を構造化されたEChartsコードに変換するために、高忠実度モデルを訓練する。
次に、一般的なチャート推論データ合成パイプラインを設計する。
最後に、教師付き微調整と強化学習を組み合わせた最終マルチモーダルモデルを訓練する。
論文 参考訳(メタデータ) (2025-06-11T18:55:36Z) - Learning Efficient and Generalizable Graph Retriever for Knowledge-Graph Question Answering [75.12322966980003]
大規模言語モデル(LLM)は、様々な領域にわたって強い帰納的推論能力を示している。
既存のRAGパイプラインのほとんどは非構造化テキストに依存しており、解釈可能性と構造化推論を制限する。
近年,知識グラフ解答のための知識グラフとLLMの統合について検討している。
KGQAにおける効率的なグラフ検索のための新しいフレームワークであるRAPLを提案する。
論文 参考訳(メタデータ) (2025-06-11T12:03:52Z) - Compile Scene Graphs with Reinforcement Learning [69.36723767339001]
次世代予測は大規模言語モデル(LLM)の訓練の基本原理である
本稿では,マルチモーダルLLM(M-LLM)であるR1-SGGを紹介する。
私たちは、Hard Recall、Hard Recall+Relax、Soft Recallの3つのリコールベースのバリエーションを含む、グラフ中心の報酬セットを設計します。
論文 参考訳(メタデータ) (2025-04-18T10:46:22Z) - Path-of-Thoughts: Extracting and Following Paths for Robust Relational Reasoning with Large Language Models [62.12031550252253]
本稿では,関係推論に対処するための新しいフレームワークであるPath-of-Thoughts(PoT)を提案する。
PoTは、問題コンテキスト内の重要なエンティティ、関係、属性を識別するタスクに依存しないグラフを効率的に抽出する。
PoTは、提案された質問に対応するグラフ内の関連する推論連鎖を特定し、潜在的な答えの推論を容易にする。
論文 参考訳(メタデータ) (2024-12-23T20:27:12Z) - Auto-decoding Graphs [91.3755431537592]
生成モデルは、潜在コードからグラフを合成することを学ぶ自動デコーダである。
グラフは、おそらく接続パターンを特定するためにトレーニングされた自己アテンションモジュールを使用して合成される。
論文 参考訳(メタデータ) (2020-06-04T14:23:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。