論文の概要: Breaking the SFT Plateau: Multimodal Structured Reinforcement Learning for Chart-to-Code Generation
- arxiv url: http://arxiv.org/abs/2508.13587v1
- Date: Tue, 19 Aug 2025 07:40:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.832625
- Title: Breaking the SFT Plateau: Multimodal Structured Reinforcement Learning for Chart-to-Code Generation
- Title(参考訳): SFT台地を打破する:チャート・ツー・コード生成のためのマルチモーダル構造化強化学習
- Authors: Lei Chen, Xuanle Zhao, Zhixiong Zeng, Jing Huang, Liming Zheng, Yufeng Zhong, Lin Ma,
- Abstract要約: 本稿では,マルチモーダル構造化強化学習(MSRL)を提案する。
実世界のarXivテーブルから300万のチャートコードペアを含む,これまでで最大のトレーニングコーパスを構築した。
MSRLはSFT高原を著しく破壊し、ChartMimicとReachQAのベンチマークでそれぞれ6.2%と9.9%の高水準のメトリクスを改善した。
- 参考スコア(独自算出の注目度): 12.822184232115333
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While reinforcement learning (RL) has proven highly effective for general reasoning in vision-language models, its application to tasks requiring in-depth understanding of information-rich images and generation of structured outputs remains underexplored. Chart-to-code generation exemplifies this challenge, demanding complex reasoning over visual charts to generate structured code. Supervised fine-tuning (SFT) alone is often insufficient, highlighting the need for effective RL strategies that appropriately reward structured outputs. We systematically investigate the performance plateau in SFT through large-scale experiments and propose Multimodal Structured Reinforcement Learning (MSRL) for chart-to-code generation, which substantially breaks through this plateau. We construct the largest training corpus to date, containing 3 million chart-code pairs from real-world arXiv tables to mitigate simplistic patterns of prior synthetic data. Despite reaching state-of-the-art performance, our experiments show that scaling SFT data eventually hits a plateau where further increases yield negligible improvements. Our MSRL method leverages a multi-granularity structured reward system using multimodal textual and visual feedback. At the textual level, rule-based rewards validate fine-grained code details. At the visual level, model-based rewards assess structural similarity by rendering generated code into images and employing an evaluator model. We implement this within a two-stage curriculum for training stability. Results demonstrate that MSRL significantly breaks the SFT plateau, improving high-level metrics by 6.2% and 9.9% on ChartMimic and ReachQA benchmarks respectively, achieving competitive performance with advanced closed-source models.
- Abstract(参考訳): 強化学習(RL)は、視覚言語モデルにおける一般的な推論に非常に有効であることが証明されているが、情報豊富な画像の深い理解と構造化出力の生成を必要とするタスクへの応用は、まだ未定である。
Chart-to-code生成はこの課題を例示し、構造化コードを生成するためにビジュアルチャートに複雑な推論を要求する。
Supervised Fine-tuning (SFT) だけでは不十分であり、構造化された出力を適切に報酬する効果的なRL戦略の必要性を強調している。
大規模実験によりSFTの性能指標を体系的に検討し,マルチモーダル構造強化学習(Multimodal Structured Reinforcement Learning, MSRL)を提案する。
これまでで最大のトレーニングコーパスを構築し、実世界のarXivテーブルから300万のチャートコードペアを格納し、より単純な合成データのパターンを緩和する。
我々の実験では、最先端のパフォーマンスに到達したにもかかわらず、SFTデータのスケーリングは最終的に高原に到達し、さらなる改善が期待できない結果となった。
MSRL法は,マルチモーダルテキストと視覚フィードバックを用いたマルチグラニュラリティ構造化報酬システムを利用する。
テキストレベルでは、ルールベースの報酬は、きめ細かいコードの詳細を検証する。
視覚レベルでは、モデルベースの報酬は、生成されたコードを画像にレンダリングし、評価モデルを用いて構造的類似性を評価する。
トレーニング安定のための2段階のカリキュラムでこれを実装します。
MSRLはSFT高原を著しく破壊し、ChartMimicとReachQAのベンチマークでそれぞれ6.2%と9.9%改善し、高度なクローズドソースモデルと競合する性能を達成した。
関連論文リスト
- Chart Specification: Structural Representations for Incentivizing VLM Reasoning in Chart-to-Code Generation [11.18352269863283]
VLM(Vision-Language Models)は、チャート画像からプロットコードを生成することを約束している。
既存のアプローチは、主に監督された微調整と表面レベルのトークンの模倣に頼っている。
本稿では,テキストの模倣から意味的に根ざした監督へトレーニングを移行させる構造化中間表現であるChart Specificationを提案する。
論文 参考訳(メタデータ) (2026-02-11T14:08:06Z) - ChartVerse: Scaling Chart Reasoning via Reliable Programmatic Synthesis from Scratch [57.01439313241121]
グラフの複雑さを定量化する新しい指標であるRollout Posterior Entropy(RPE)を紹介する。
また、推論厳密性を保証するために、真正対応の逆QA合成を開発する。
さらに, モデルフェールレートに基づく試料をろ過し, 高品質なCoT (Chain-of-Thought) 推算を行った。
論文 参考訳(メタデータ) (2026-01-20T05:11:44Z) - Aligning Text, Code, and Vision: A Multi-Objective Reinforcement Learning Framework for Text-to-Visualization [50.13408999553116]
テキスト2Vis生成のための最初の強化学習フレームワークであるRL-Text2Visを提案する。
本手法では,テキストの精度,コードの有効性,可視化品質を共同で最適化する新しい多目的報酬を用いている。
その結果,GRPOは可視化生成における構造的マルチモーダル推論の効果的な戦略として確立された。
論文 参考訳(メタデータ) (2026-01-08T04:29:07Z) - Revisiting the Data Sampling in Multimodal Post-training from a Difficulty-Distinguish View [10.95044674432639]
マルチモーダル推論のための2つの難解なサンプリング手法を提案する。
本稿では, プログレッシブ・イメージ・セマンティック・マスキング(PISM)が, 画像の系統的劣化を通じてサンプル硬さを定量化することを示す。
また、相互モダリティ・アテンション・バランス(CMAB)が相互の相互作用の複雑さを評価することも示している。
論文 参考訳(メタデータ) (2025-11-10T05:31:59Z) - ChartM$^3$: A Multi-Stage Code-Driven Pipeline for Constructing Multi-Dimensional and Multi-Step Visual Reasoning Data in Chart Comprehension [15.798942458550515]
本研究では、視覚的推論データセットを生成するための自動多段階コード駆動パイプラインを提案する。
トレーニング用38Kチャートと142KQ&Aペアを含む多次元・多段階データセットであるChartM$3$と,高品質な評価サンプル2,871。
論文 参考訳(メタデータ) (2025-11-04T09:45:34Z) - Table2LaTeX-RL: High-Fidelity LaTeX Code Generation from Table Images via Reinforced Multimodal Language Models [53.03670032402846]
視覚的な入力から,高品質で出版可能なテーブルの再構築を自動化することを目的として,表画像からコード生成への課題に対処する。
このタスクの中心的な課題は、大きなサイズ、深くネストされた構造、セマンティックにリッチか不規則かという複雑なテーブルを正確に扱うことである。
本稿では,大規模テーブル・トゥ・ラデータセット上で事前学習したMLLMを微調整する,強化型マルチモーダル大規模言語モデル(MLLM)を提案する。
論文 参考訳(メタデータ) (2025-09-22T11:13:48Z) - On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification [61.607788999847564]
LLM(Large Language Model)のためのSFT(Supervised Fine-Tuning)の改良法を提案する。
標準SFT勾配は、モデルの一般化能力を著しく制限する問題のある報酬構造を暗黙的に符号化する。
本稿では,このトークンの確率で目的関数を動的に再スケーリングすることにより,各トークンの勾配を安定化する動的微調整(DFT)を提案する。
論文 参考訳(メタデータ) (2025-08-07T17:59:04Z) - Learning Efficient and Generalizable Graph Retriever for Knowledge-Graph Question Answering [75.12322966980003]
大規模言語モデル(LLM)は、様々な領域にわたって強い帰納的推論能力を示している。
既存のRAGパイプラインのほとんどは非構造化テキストに依存しており、解釈可能性と構造化推論を制限する。
近年,知識グラフ解答のための知識グラフとLLMの統合について検討している。
KGQAにおける効率的なグラフ検索のための新しいフレームワークであるRAPLを提案する。
論文 参考訳(メタデータ) (2025-06-11T12:03:52Z) - Compile Scene Graphs with Reinforcement Learning [69.36723767339001]
次世代予測は大規模言語モデル(LLM)の訓練の基本原理である
本稿では,マルチモーダルLLM(M-LLM)であるR1-SGGを紹介する。
私たちは、Hard Recall、Hard Recall+Relax、Soft Recallの3つのリコールベースのバリエーションを含む、グラフ中心の報酬セットを設計します。
論文 参考訳(メタデータ) (2025-04-18T10:46:22Z) - Boosting Chart-to-Code Generation in MLLM via Dual Preference-Guided Refinement [16.22363384653305]
MLLM(Multimodal Large Language Models)は、きめ細かい視覚解析、正確なコード合成、堅牢なクロスモーダル推論を行う。
本稿では、フィードバック駆動の2つのモダリティ報酬機構と反復的な嗜好学習を組み合わせた2つの嗜好誘導改善フレームワークを提案する。
本フレームワークは汎用MLLMの性能を大幅に向上させ,高品質なプロットコードを生成する。
論文 参考訳(メタデータ) (2025-04-03T07:51:20Z) - OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。
OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - MTLSO: A Multi-Task Learning Approach for Logic Synthesis Optimization [19.13500546022262]
MTLSOは論理合成最適化のためのマルチタスク学習手法である。
一次回帰タスクと並行して,二元多ラベルグラフ分類の補助タスクを導入する。
また、階層的なグラフ表現学習戦略を用いて、表現力のあるグラフレベルの表現を学習するためのモデルの能力を向上させる。
論文 参考訳(メタデータ) (2024-09-09T21:20:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。