論文の概要: Chart-R1: Chain-of-Thought Supervision and Reinforcement for Advanced Chart Reasoner
- arxiv url: http://arxiv.org/abs/2507.15509v1
- Date: Mon, 21 Jul 2025 11:22:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.373326
- Title: Chart-R1: Chain-of-Thought Supervision and Reinforcement for Advanced Chart Reasoner
- Title(参考訳): チャートR1:先進的なチャートリゾナーのためのチェーン・オブ・サービジョンと強化
- Authors: Lei Chen, Xuanle Zhao, Zhixiong Zeng, Jing Huang, Yufeng Zhong, Lin Ma,
- Abstract要約: 本稿では,グラフ領域の視覚言語モデルであるChart-R1を紹介する。
Chart-R1をサポートするために、我々はまず、高品質なステップバイステップチャート推論データを生成する新しいプログラムデータ技術を提案する。
次に、ステップバイステップのチェーン監視を行うChart-COTと、数値的に感度の高い強化微調整を行うChart-RFTの2段階のトレーニング戦略を開発する。
- 参考スコア(独自算出の注目度): 13.465161900684432
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, inspired by OpenAI-o1/o3 and Deepseek-R1, the R1-Style method based on reinforcement learning fine-tuning has received widespread attention from the community. Previous R1-Style methods mainly focus on mathematical reasoning and code intelligence. It is of great research significance to verify their advantages on more general multimodal data. Chart is an important multimodal data type with rich information, which brings important research challenges in complex reasoning. In this work, we introduce Chart-R1, a chart-domain vision-language model with reinforcement learning fine-tuning to enable complex chart reasoning. To support Chart-R1, we first propose a novel programmatic data synthesis technology to generate high-quality step-by-step chart reasoning data covering single- and multi-subcharts, which makes up for the lack of reasoning data in the chart domain. Then we develop a two-stage training strategy: Chart-COT with step-by-step chain-of-thought supervision, and Chart-RFT with numerically sensitive reinforcement fine-tuning. Chart-COT aims to decompose complex chart reasoning tasks into fine-grained, understandable subtasks through step-by-step supervision, which lays a good foundation for improving the reasoning level of reinforcement learning. Chart-RFT utilize the typical group relative policy optimization strategy, in which a relatively soft reward is adopted for numerical response to emphasize the numerical sensitivity in the chart domain. We conduct extensive experiments on open-source benchmarks and self-built chart reasoning dataset (\emph{i.e., ChartRQA}). Experimental results show that Chart-R1 has significant advantages compared to chart-domain methods, even comparable to open/closed source large-scale models (\emph{e.g., GPT-4o, Claude-3.5}).
- Abstract(参考訳): 近年,OpenAI-o1/o3とDeepseek-R1にヒントを得て,強化学習ファインチューニングに基づくR1-Style法がコミュニティから広く注目を集めている。
以前のR1-Style法は主に数学的推論とコードインテリジェンスに重点を置いていた。
より一般的なマルチモーダルデータ上でそれらの利点を検証することは、非常に研究上の意義である。
チャートは豊富な情報を持つ重要なマルチモーダルデータ型であり、複雑な推論において重要な研究課題をもたらす。
本稿では,グラフ領域の視覚言語モデルであるChart-R1を紹介する。
チャート領域における推論データの欠如を補うため,我々はまず,シングルサブチャートとマルチサブチャートをカバーする高品質なステップバイステップチャート推論データを生成する新しいプログラムデータ合成技術を提案する。
次に、ステップバイステップのチェーン監視を行うChart-COTと、数値的に感度の高い強化微調整を行うChart-RFTの2段階のトレーニング戦略を開発する。
Chart-COTは、複雑なチャート推論タスクを、ステップバイステップの監督を通じて、きめ細かな、理解可能なサブタスクに分解することを目的としている。
チャート領域の数値感度を強調するために、グラフ-RFTは、数値応答に比較的ソフトな報酬が用いられる典型的なグループ相対ポリシー最適化戦略を利用する。
オープンソースベンチマークと自己構築型チャート推論データセット(\emph{i.e., ChartRQA})について広範な実験を行った。
実験結果から、Chart-R1は、オープン/クローズドソースの大規模モデル(\emph{e g , GPT-4o, Claude-3.5})に匹敵するグラフ領域法と比較して大きな利点があることが示された。
関連論文リスト
- Graph-R1: Towards Agentic GraphRAG Framework via End-to-end Reinforcement Learning [20.05893083101089]
Graph-R1は、エンドツーエンド強化学習(RL)によるエージェントGraphRAGフレームワークである
軽量な知識ハイパーグラフ構築、マルチターンエージェント環境相互作用としてのモデル検索を導入している。
標準RAGデータセットの実験では、Graph-R1は、精度、検索効率、生成品質を推算する従来のGraphRAGおよびRL強化RAGメソッドよりも優れていた。
論文 参考訳(メタデータ) (2025-07-29T15:01:26Z) - ChartReasoner: Code-Driven Modality Bridging for Long-Chain Reasoning in Chart Question Answering [12.285453136336507]
本稿では,チャート上での正確かつ解釈可能な推論を可能にするための,コード駆動型フレームワークを提案する。
まず、多彩なチャート画像を構造化されたEChartsコードに変換するために、高忠実度モデルを訓練する。
次に、一般的なチャート推論データ合成パイプラインを設計する。
最後に、教師付き微調整と強化学習を組み合わせた最終マルチモーダルモデルを訓練する。
論文 参考訳(メタデータ) (2025-06-11T18:55:36Z) - Compile Scene Graphs with Reinforcement Learning [69.36723767339001]
次世代予測は大規模言語モデル(LLM)の訓練の基本原理である
本稿では,マルチモーダルLLM(M-LLM)であるR1-SGGを紹介する。
私たちは、Hard Recall、Hard Recall+Relax、Soft Recallの3つのリコールベースのバリエーションを含む、グラフ中心の報酬セットを設計します。
論文 参考訳(メタデータ) (2025-04-18T10:46:22Z) - RefChartQA: Grounding Visual Answer on Chart Images through Instruction Tuning [63.599057862999]
RefChartQAは、Chart Question Answering(ChartQA)とビジュアルグラウンドを統合した、新しいベンチマークである。
実験により,グラウンド化による空間認識を取り入れることで,応答精度が15%以上向上することが実証された。
論文 参考訳(メタデータ) (2025-03-29T15:50:08Z) - ChartAdapter: Large Vision-Language Model for Chart Summarization [13.499376163294816]
ChartAdapterは、チャートとテキスト要約の間のギャップを埋めるために設計された軽量トランスフォーマーモジュールである。
LLMとChartAdapterを統合することで、エンドツーエンドのトレーニングと効率的なチャート要約を可能にします。
論文 参考訳(メタデータ) (2024-12-30T05:07:34Z) - ChartGemma: Visual Instruction-tuning for Chart Reasoning in the Wild [28.643565008567172]
本稿では,PaliGemma上で開発された新しいチャート理解と推論モデルであるChartGemmaを紹介する。
基礎となるデータテーブルに頼るのではなく、ChartGemmaは、チャートイメージから直接生成されたインストラクションチューニングデータに基づいて訓練される。
我々の単純なアプローチは、チャートの要約、質問応答、ファクトチェックにまたがる5ドルのベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2024-07-04T22:16:40Z) - TinyChart: Efficient Chart Understanding with Visual Token Merging and Program-of-Thoughts Learning [83.58521787193293]
本稿では,3Bパラメータのみを用いたチャート理解のための効率的なMLLMであるTinyChartを提案する。
TinyChartは,1)プログラム・オブ・ソート(PoT)学習戦略による数値計算学習の負担軽減,2)ビジョン・トーケン・マージ・モジュールによる高解像度画像のためのビジョン・トランスフォーマーによって生成される長大な視覚特徴系列の削減という,効率的なチャート理解における2つの課題を克服した。
論文 参考訳(メタデータ) (2024-04-25T14:23:24Z) - ChartThinker: A Contextual Chain-of-Thought Approach to Optimized Chart Summarization [32.19963543411396]
本研究は,各チャートに包括的チャートキャプチャペアと微調整命令の大規模データセットを構築した。
本稿では,思考の連鎖に基づいて深い分析を合成する,革新的なチャート要約手法であるChartThinkerを提案する。
キュレートされたデータセットに基づいて、トレーニングされたモデルは、チャートの要約タスクにおいて、常に優れたパフォーマンスを示します。
論文 参考訳(メタデータ) (2024-03-17T14:49:09Z) - ChartAssisstant: A Universal Chart Multimodal Language Model via
Chart-to-Table Pre-training and Multitask Instruction Tuning [54.89249749894061]
ChartAssistantは、ユニバーサルチャートの理解と推論のためのビジョン言語モデルである。
2段階のトレーニングプロセスを経て、チャートとテキストの調整のために、チャートからテーブルへのパースを事前トレーニングする。
実験により, 最先端UniChart法とChartllama法に比較して, 顕著な性能向上が得られた。
論文 参考訳(メタデータ) (2024-01-04T17:51:48Z) - StructChart: On the Schema, Metric, and Augmentation for Visual Chart Understanding [54.45681512355684]
現在のチャート関連タスクは、ビジュアルチャートから情報を抽出するチャート認識か、抽出されたデータに基づいてチャート推論にフォーカスする。
我々はStructChartを紹介した。StructChartはStruct Triplet Representations(STR)を利用して、統一的でラベル効率のよいアプローチを実現する新しいフレームワークである。
論文 参考訳(メタデータ) (2023-09-20T12:51:13Z) - ChartReader: A Unified Framework for Chart Derendering and Comprehension
without Heuristic Rules [89.75395046894809]
ChartReaderは、チャートのデレンダリングと理解タスクをシームレスに統合する統合フレームワークです。
提案手法には,トランスフォーマーに基づくチャートコンポーネント検出モジュールと,チャートからXまでのタスクに対する事前学習型視覚言語モデルが組み込まれている。
提案するフレームワークは,チャート解析に係わる作業を大幅に削減し,ユニバーサルチャート理解モデルへの一歩を踏み出すことができる。
論文 参考訳(メタデータ) (2023-04-05T00:25:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。