論文の概要: CharTool: Tool-Integrated Visual Reasoning for Chart Understanding
- arxiv url: http://arxiv.org/abs/2604.02794v1
- Date: Fri, 03 Apr 2026 07:02:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.366342
- Title: CharTool: Tool-Integrated Visual Reasoning for Chart Understanding
- Title(参考訳): CharTool: チャート理解のためのツール統合ビジュアル推論
- Authors: Situo Zhang, Yifan Zhang, Zichen Zhu, Da Ma, Lei Pan, Danyang Zhang, Zihan Zhao, Lu Chen, Kai Yu,
- Abstract要約: 合成チャートと実世界のチャートを組み合わせたスケーラブルなデュアルソースデータパイプラインであるDuoChartを提案する。
次にCharToolを導入し、MLLMに画像トリミングや局所的な視覚認識、コードベースの計算など、外部ツールを組み込む。
- 参考スコア(独自算出の注目度): 24.815732262963294
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Charts are ubiquitous in scientific and financial literature for presenting structured data. However, chart reasoning remains challenging for multimodal large language models (MLLMs) due to the lack of high-quality training data, as well as the need for fine-grained visual grounding and precise numerical computation. To address these challenges, we first propose DuoChart, a scalable dual-source data pipeline that combines synthesized charts with real-world charts to construct diverse, high-quality chart training data. We then introduce CharTool, which equips MLLMs with external tools, including image cropping for localized visual perception and code-based computation for accurate numerical reasoning. Through agentic reinforcement learning on DuoChart, CharTool learns tool-integrated reasoning grounded in chart content. Extensive experiments on six chart benchmarks show that our method consistently improves over strong MLLM baselines across model scales. Notably, CharTool-7B outperforms the base model by **+8.0%** on CharXiv (Reasoning) and **+9.78%** on ChartQAPro, while achieving competitive performance with substantially larger or proprietary models. Moreover, CharTool demonstrates positive generalization to out-of-domain visual math reasoning benchmarks.
- Abstract(参考訳): チャートは構造化されたデータを提示するための科学文献や金融文献で広く使われている。
しかし, マルチモーダル大規模言語モデル(MLLM)では, 高品質なトレーニングデータがないこと, きめ細かいビジュアルグラウンドや正確な数値計算の必要性から, チャート推論は依然として困難である。
これらの課題に対処するために、我々はまずDuoChartを提案する。DuoChartはスケーラブルなデュアルソースデータパイプラインで、合成チャートと実世界のチャートを組み合わせて、多様な高品質なチャートトレーニングデータを構築する。
次にCharToolを導入し,MLLMに局所的な視覚知覚のための画像トリミングや,正確な数値推論のためのコードベースの計算など,外部ツールを備えたMLLMを提案する。
エージェントによるDuoChartの強化学習を通じて、CharToolはチャートの内容に根ざしたツール統合推論を学ぶ。
6つのチャートのベンチマーク実験により,提案手法はモデルスケールの強いMLLMベースラインよりも一貫した改善が得られた。
CharTool-7BはChartQAProでは**+8.0%*、ChartQAProでは**+9.78%*で、より大型またはプロプライエタリなモデルでは競争性能が向上している。
さらにCharToolは、ドメイン外の視覚数学推論ベンチマークに肯定的な一般化を示す。
関連論文リスト
- BigCharts-R1: Enhanced Chart Reasoning with Visual Reinforcement Finetuning [51.472854950300416]
視覚的に多様なチャート画像を生成するデータセット生成パイプラインであるBigChartsを提案する。
純粋な合成データセットとは異なり、BigChartsは現実世界のデータを取り込んで、信頼性と視覚的多様性を保証する。
チャート推論に特化して設計された新たな報酬信号を導入することにより,モデルの堅牢性と一般化が促進される。
論文 参考訳(メタデータ) (2025-08-13T13:39:17Z) - Socratic Chart: Cooperating Multiple Agents for Robust SVG Chart Understanding [14.75820681491341]
既存のベンチマークでは、真の視覚的推論ではなく、テキストベースのショートカットと確率的パターンマッチングに依存している。
グラフ画像をスケーラブルベクトルグラフ表現に変換する新しいフレームワークであるSocratic Chartを提案する。
我々のフレームワークは、グラフプリミティブを正確にキャプチャし、推論性能を向上させるために最先端モデルを上回る。
論文 参考訳(メタデータ) (2025-04-14T00:07:39Z) - ChartAdapter: Large Vision-Language Model for Chart Summarization [13.499376163294816]
ChartAdapterは、チャートとテキスト要約の間のギャップを埋めるために設計された軽量トランスフォーマーモジュールである。
LLMとChartAdapterを統合することで、エンドツーエンドのトレーニングと効率的なチャート要約を可能にします。
論文 参考訳(メタデータ) (2024-12-30T05:07:34Z) - On Pre-training of Multimodal Language Models Customized for Chart Understanding [83.99377088129282]
本稿では,MLLMのチャート理解を改善するために必要な学習過程について考察する。
詳細なチャート理解に適したMLLMであるCHOPINLLMを紹介する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - ChartGemma: Visual Instruction-tuning for Chart Reasoning in the Wild [28.643565008567172]
本稿では,PaliGemma上で開発された新しいチャート理解と推論モデルであるChartGemmaを紹介する。
基礎となるデータテーブルに頼るのではなく、ChartGemmaは、チャートイメージから直接生成されたインストラクションチューニングデータに基づいて訓練される。
我々の単純なアプローチは、チャートの要約、質問応答、ファクトチェックにまたがる5ドルのベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2024-07-04T22:16:40Z) - ChartAssisstant: A Universal Chart Multimodal Language Model via
Chart-to-Table Pre-training and Multitask Instruction Tuning [54.89249749894061]
ChartAssistantは、ユニバーサルチャートの理解と推論のためのビジョン言語モデルである。
2段階のトレーニングプロセスを経て、チャートとテキストの調整のために、チャートからテーブルへのパースを事前トレーニングする。
実験により, 最先端UniChart法とChartllama法に比較して, 顕著な性能向上が得られた。
論文 参考訳(メタデータ) (2024-01-04T17:51:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。