論文の概要: Chart-RVR: Reinforcement Learning with Verifiable Rewards for Explainable Chart Reasoning
- arxiv url: http://arxiv.org/abs/2510.10973v1
- Date: Mon, 13 Oct 2025 03:25:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.182165
- Title: Chart-RVR: Reinforcement Learning with Verifiable Rewards for Explainable Chart Reasoning
- Title(参考訳): Chart-RVR: 説明可能なチャート推論のための検証可能なリワードによる強化学習
- Authors: Sanchit Sinha, Oana Frunza, Kashif Rasul, Yuriy Nevmyvaka, Aidong Zhang,
- Abstract要約: 我々は、LVLM(Large Vision-Language Models)を微調整するフレームワークであるChart-RVRを、チャート推論のためにより堅牢で説明可能なフレームワークとして提示する。
本フレームワークは, 正しいチャート型分類, (ii) 忠実なチャートテーブル再構築, (iii) プロセス適合性の3つの報酬を最大化する。
結果のモデルであるChart-RVR-3Bシリーズは、ドメイン内とOOD設定にまたがる6つのチャート推論ベンチマークで最先端の結果を得る。
- 参考スコア(独自算出の注目度): 40.57280727947546
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The capabilities of Large Vision-Language Models (LVLMs) have reached state-of-the-art on many visual reasoning tasks, including chart reasoning, yet they still falter on out-of-distribution (OOD) data, and degrade further when asked to produce their chain-of-thought (CoT) rationales, limiting explainability. We present Chart-RVR, a general framework that fine-tunes LVLMs to be more robust and explainable for chart reasoning by coupling Group Relative Policy Optimization (GRPO) with automatically verifiable rewards. Our framework comprises of three rewards that maximize: (i) correct chart-type classification, (ii) faithful chart table reconstruction, and (iii) process conformity. Applied to 3-billion-parameter LVLMs, Chart-RVR consistently outperforms standard supervised fine-tuning (SFT) on both in-distribution and out-of-distribution datasets, closing the OOD performance gap while improving rationale fidelity. The resulting models, the Chart-RVR-3B series, achieve state-of-the-art results on six chart-reasoning benchmarks spanning in-domain and OOD settings, surpassing all existing models of comparable size. Beyond accuracy, Chart-RVR yields more interpretable CoT rationales, strengthening trust and reliability - showcasing the power of verifiable rewards with GRPO for training reliable, interpretable chart-reasoning models.
- Abstract(参考訳): LVLM(Large Vision-Language Models)の能力は、チャートの推論を含む多くの視覚的推論タスクにおいて最先端に達しているが、それでもOOD(Out-of-distriion)データに固執し、そのチェーン・オブ・シンク(CoT)の合理性、説明可能性の制限など、さらに低下している。
我々は,グループ相対政策最適化(GRPO)と自動的に検証可能な報酬を結合することにより,LVLMをより堅牢で説明可能な汎用フレームワークであるChart-RVRを提案する。
我々の枠組みは以下の3つの報酬から成り立っている。
(i)正しいチャート型分類
(二)忠実な表表復元、及び
(三)プロセス適合性
3ビリオンパラメータのLVLMに適用すると、Chart-RVRは、分布内と分布外の両方のデータセット上で、標準的な教師付き微調整(SFT)を一貫して上回り、OODパフォーマンスギャップを閉じながら、合理的な忠実さを改善している。
結果のモデルであるChart-RVR-3Bシリーズは、ドメイン内とOOD設定にまたがる6つのチャート推論ベンチマークにおいて、同等の大きさの既存のモデル全てを上回り、最先端の結果を得る。
Chart-RVRは精度を超えて、より解釈可能なCoT論理を導き、信頼性と信頼性を強化します。
関連論文リスト
- Can GRPO Boost Complex Multimodal Table Understanding? [41.72642230279542]
Table-R1は、マルチモーダルテーブル理解のための3段階強化学習フレームワークである。
これにより、ホールドインとホールドアウトの両方のデータセットで明らかにパフォーマンスを推論するモデルのテーブルが向上する可能性がある。
論文 参考訳(メタデータ) (2025-09-21T02:51:15Z) - BigCharts-R1: Enhanced Chart Reasoning with Visual Reinforcement Finetuning [51.472854950300416]
視覚的に多様なチャート画像を生成するデータセット生成パイプラインであるBigChartsを提案する。
純粋な合成データセットとは異なり、BigChartsは現実世界のデータを取り込んで、信頼性と視覚的多様性を保証する。
チャート推論に特化して設計された新たな報酬信号を導入することにより,モデルの堅牢性と一般化が促進される。
論文 参考訳(メタデータ) (2025-08-13T13:39:17Z) - Chart-R1: Chain-of-Thought Supervision and Reinforcement for Advanced Chart Reasoner [13.465161900684432]
本稿では,グラフ領域の視覚言語モデルであるChart-R1を紹介する。
Chart-R1をサポートするために、我々はまず、高品質なステップバイステップチャート推論データを生成する新しいプログラムデータ技術を提案する。
次に、ステップバイステップのチェーン監視を行うChart-COTと、数値的に感度の高い強化微調整を行うChart-RFTの2段階のトレーニング戦略を開発する。
論文 参考訳(メタデータ) (2025-07-21T11:22:17Z) - Learning Efficient and Generalizable Graph Retriever for Knowledge-Graph Question Answering [75.12322966980003]
大規模言語モデル(LLM)は、様々な領域にわたって強い帰納的推論能力を示している。
既存のRAGパイプラインのほとんどは非構造化テキストに依存しており、解釈可能性と構造化推論を制限する。
近年,知識グラフ解答のための知識グラフとLLMの統合について検討している。
KGQAにおける効率的なグラフ検索のための新しいフレームワークであるRAPLを提案する。
論文 参考訳(メタデータ) (2025-06-11T12:03:52Z) - Compile Scene Graphs with Reinforcement Learning [69.36723767339001]
次世代予測は大規模言語モデル(LLM)の訓練の基本原理である
本稿では,マルチモーダルLLM(M-LLM)であるR1-SGGを紹介する。
私たちは、Hard Recall、Hard Recall+Relax、Soft Recallの3つのリコールベースのバリエーションを含む、グラフ中心の報酬セットを設計します。
論文 参考訳(メタデータ) (2025-04-18T10:46:22Z) - Graph Structure Refinement with Energy-based Contrastive Learning [56.957793274727514]
グラフの構造と表現を学習するための生成訓練と識別訓練のジョイントに基づく教師なし手法を提案する。
本稿では,ECL-GSR(Energy-based Contrastive Learning)によるグラフ構造再構成(GSR)フレームワークを提案する。
ECL-GSRは、主要なベースラインに対するサンプルやメモリの少ない高速なトレーニングを実現し、下流タスクの単純さと効率性を強調している。
論文 参考訳(メタデータ) (2024-12-20T04:05:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。