論文の概要: BigCharts-R1: Enhanced Chart Reasoning with Visual Reinforcement Finetuning
- arxiv url: http://arxiv.org/abs/2508.09804v1
- Date: Wed, 13 Aug 2025 13:39:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.905873
- Title: BigCharts-R1: Enhanced Chart Reasoning with Visual Reinforcement Finetuning
- Title(参考訳): BigCharts-R1: Visual Reinforcement Finetuningによるチャート推論の強化
- Authors: Ahmed Masry, Abhay Puri, Masoud Hashemi, Juan A. Rodriguez, Megh Thakkar, Khyati Mahajan, Vikas Yadav, Sathwik Tejaswi Madhusudhan, Alexandre Piché, Dzmitry Bahdanau, Christopher Pal, David Vazquez, Enamul Hoque, Perouz Taslakian, Sai Rajeswar, Spandana Gella,
- Abstract要約: 視覚的に多様なチャート画像を生成するデータセット生成パイプラインであるBigChartsを提案する。
純粋な合成データセットとは異なり、BigChartsは現実世界のデータを取り込んで、信頼性と視覚的多様性を保証する。
チャート推論に特化して設計された新たな報酬信号を導入することにより,モデルの堅牢性と一般化が促進される。
- 参考スコア(独自算出の注目度): 51.472854950300416
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Charts are essential to data analysis, transforming raw data into clear visual representations that support human decision-making. Although current vision-language models (VLMs) have made significant progress, they continue to struggle with chart comprehension due to training on datasets that lack diversity and real-world authenticity, or on automatically extracted underlying data tables of charts, which can contain numerous estimation errors. Furthermore, existing models only rely on supervised fine-tuning using these low-quality datasets, severely limiting their effectiveness. To address these issues, we first propose BigCharts, a dataset creation pipeline that generates visually diverse chart images by conditioning the rendering process on real-world charts sourced from multiple online platforms. Unlike purely synthetic datasets, BigCharts incorporates real-world data, ensuring authenticity and visual diversity, while still retaining accurate underlying data due to our proposed replotting process. Additionally, we introduce a comprehensive training framework that integrates supervised fine-tuning with Group Relative Policy Optimization (GRPO)-based reinforcement learning. By introducing novel reward signals specifically designed for chart reasoning, our approach enhances model robustness and generalization across diverse chart styles and domains, resulting in a state-of-the-art chart reasoning model, BigCharts-R1. Extensive experiments demonstrate that our models surpass existing methods on multiple chart question-answering benchmarks compared to even larger open-source and closed-source models.
- Abstract(参考訳): チャートはデータ分析に不可欠であり、生データを人間の意思決定を支援する明確な視覚表現に変換する。
現行の視覚言語モデル(VLM)は大きな進歩を遂げているが、多様性と現実の信頼性に欠けるデータセットのトレーニングや、多数の推定誤差を含むグラフの下位データテーブルの自動抽出により、チャートの理解に苦慮している。
さらに、既存のモデルはこれらの低品質データセットを使用した教師付き微調整のみに依存しており、その効果を著しく制限している。
これらの問題に対処するために、まずBigChartsを提案する。これは、複数のオンラインプラットフォームから生成された実世界のチャートにレンダリング処理を条件付け、視覚的に多様なチャート画像を生成するデータセット生成パイプラインである。
純粋に合成されたデータセットとは異なり、BigChartsは実際のデータを組み込んで、信頼性と視覚的多様性を確保しつつ、提案された再デプロイプロセスのために正確な基盤データを保持している。
さらに,グループ相対政策最適化(GRPO)に基づく強化学習と教師付き微調整を統合した総合的な学習フレームワークを導入する。
チャート推論に特化して設計された新たな報酬信号を導入することにより,様々なチャートスタイルや領域にわたるモデルの堅牢性と一般化が促進され,その結果,最先端のチャート推論モデルであるBigCharts-R1が実現される。
大規模な実験により、我々のモデルは、より大規模なオープンソースおよびクローズドソースモデルと比較して、複数のチャート質問応答ベンチマークで既存の手法を上回ります。
関連論文リスト
- In-Depth and In-Breadth: Pre-training Multimodal Language Models Customized for Comprehensive Chart Understanding [113.17601814293722]
様々なチャートタイプにまたがる詳細なチャート理解に最適化されたLVLMであるChartScopeを紹介する。
そこで本研究では,多種多様なグラフ型のペアデータを生成する,効率的なデータ生成パイプラインを提案する。
また、異なるレベルでの質問回答だけでなく、基礎となるデータ理解を評価するための新しいベンチマークであるChartDQAも確立しました。
論文 参考訳(メタデータ) (2025-07-18T18:15:09Z) - RefChartQA: Grounding Visual Answer on Chart Images through Instruction Tuning [63.599057862999]
RefChartQAは、Chart Question Answering(ChartQA)とビジュアルグラウンドを統合した、新しいベンチマークである。
実験により,グラウンド化による空間認識を取り入れることで,応答精度が15%以上向上することが実証された。
論文 参考訳(メタデータ) (2025-03-29T15:50:08Z) - End-to-End Chart Summarization via Visual Chain-of-Thought in Vision-Language Models [0.0]
本稿では,チャート要約のためのEnd-to-End Visual Chain-of-Thought (V-CoT)を提案する。
本手法では,LVLMを直接トレーニングして,チャート画像の処理とテキスト要約をエンドツーエンドで生成する。
我々は、視覚的推論ステップを実行するためにLVLMを暗黙的に誘導する、微調整による視覚的連鎖機構を組み込んだ。
論文 参考訳(メタデータ) (2025-02-24T19:13:45Z) - ChartGemma: Visual Instruction-tuning for Chart Reasoning in the Wild [28.643565008567172]
本稿では,PaliGemma上で開発された新しいチャート理解と推論モデルであるChartGemmaを紹介する。
基礎となるデータテーブルに頼るのではなく、ChartGemmaは、チャートイメージから直接生成されたインストラクションチューニングデータに基づいて訓練される。
我々の単純なアプローチは、チャートの要約、質問応答、ファクトチェックにまたがる5ドルのベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2024-07-04T22:16:40Z) - ChartThinker: A Contextual Chain-of-Thought Approach to Optimized Chart Summarization [32.19963543411396]
本研究は,各チャートに包括的チャートキャプチャペアと微調整命令の大規模データセットを構築した。
本稿では,思考の連鎖に基づいて深い分析を合成する,革新的なチャート要約手法であるChartThinkerを提案する。
キュレートされたデータセットに基づいて、トレーニングされたモデルは、チャートの要約タスクにおいて、常に優れたパフォーマンスを示します。
論文 参考訳(メタデータ) (2024-03-17T14:49:09Z) - ChartAssisstant: A Universal Chart Multimodal Language Model via
Chart-to-Table Pre-training and Multitask Instruction Tuning [54.89249749894061]
ChartAssistantは、ユニバーサルチャートの理解と推論のためのビジョン言語モデルである。
2段階のトレーニングプロセスを経て、チャートとテキストの調整のために、チャートからテーブルへのパースを事前トレーニングする。
実験により, 最先端UniChart法とChartllama法に比較して, 顕著な性能向上が得られた。
論文 参考訳(メタデータ) (2024-01-04T17:51:48Z) - Chart-to-Text: A Large-Scale Benchmark for Chart Summarization [9.647079534077472]
2つのデータセットと44,096のチャートを持つ大規模ベンチマークであるChart-to-textを提示する。
データセット構築プロセスを説明し、データセットを解析する。
論文 参考訳(メタデータ) (2022-03-12T17:01:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。