論文の概要: Breaking the SFT Plateau: Multimodal Structured Reinforcement Learning for Chart-to-Code Generation
- arxiv url: http://arxiv.org/abs/2508.13587v1
- Date: Tue, 19 Aug 2025 07:40:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.832625
- Title: Breaking the SFT Plateau: Multimodal Structured Reinforcement Learning for Chart-to-Code Generation
- Title(参考訳): SFT台地を打破する:チャート・ツー・コード生成のためのマルチモーダル構造化強化学習
- Authors: Lei Chen, Xuanle Zhao, Zhixiong Zeng, Jing Huang, Liming Zheng, Yufeng Zhong, Lin Ma,
- Abstract要約: 本稿では,マルチモーダル構造化強化学習(MSRL)を提案する。
実世界のarXivテーブルから300万のチャートコードペアを含む,これまでで最大のトレーニングコーパスを構築した。
MSRLはSFT高原を著しく破壊し、ChartMimicとReachQAのベンチマークでそれぞれ6.2%と9.9%の高水準のメトリクスを改善した。
- 参考スコア(独自算出の注目度): 12.822184232115333
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While reinforcement learning (RL) has proven highly effective for general reasoning in vision-language models, its application to tasks requiring in-depth understanding of information-rich images and generation of structured outputs remains underexplored. Chart-to-code generation exemplifies this challenge, demanding complex reasoning over visual charts to generate structured code. Supervised fine-tuning (SFT) alone is often insufficient, highlighting the need for effective RL strategies that appropriately reward structured outputs. We systematically investigate the performance plateau in SFT through large-scale experiments and propose Multimodal Structured Reinforcement Learning (MSRL) for chart-to-code generation, which substantially breaks through this plateau. We construct the largest training corpus to date, containing 3 million chart-code pairs from real-world arXiv tables to mitigate simplistic patterns of prior synthetic data. Despite reaching state-of-the-art performance, our experiments show that scaling SFT data eventually hits a plateau where further increases yield negligible improvements. Our MSRL method leverages a multi-granularity structured reward system using multimodal textual and visual feedback. At the textual level, rule-based rewards validate fine-grained code details. At the visual level, model-based rewards assess structural similarity by rendering generated code into images and employing an evaluator model. We implement this within a two-stage curriculum for training stability. Results demonstrate that MSRL significantly breaks the SFT plateau, improving high-level metrics by 6.2% and 9.9% on ChartMimic and ReachQA benchmarks respectively, achieving competitive performance with advanced closed-source models.
- Abstract(参考訳): 強化学習(RL)は、視覚言語モデルにおける一般的な推論に非常に有効であることが証明されているが、情報豊富な画像の深い理解と構造化出力の生成を必要とするタスクへの応用は、まだ未定である。
Chart-to-code生成はこの課題を例示し、構造化コードを生成するためにビジュアルチャートに複雑な推論を要求する。
Supervised Fine-tuning (SFT) だけでは不十分であり、構造化された出力を適切に報酬する効果的なRL戦略の必要性を強調している。
大規模実験によりSFTの性能指標を体系的に検討し,マルチモーダル構造強化学習(Multimodal Structured Reinforcement Learning, MSRL)を提案する。
これまでで最大のトレーニングコーパスを構築し、実世界のarXivテーブルから300万のチャートコードペアを格納し、より単純な合成データのパターンを緩和する。
我々の実験では、最先端のパフォーマンスに到達したにもかかわらず、SFTデータのスケーリングは最終的に高原に到達し、さらなる改善が期待できない結果となった。
MSRL法は,マルチモーダルテキストと視覚フィードバックを用いたマルチグラニュラリティ構造化報酬システムを利用する。
テキストレベルでは、ルールベースの報酬は、きめ細かいコードの詳細を検証する。
視覚レベルでは、モデルベースの報酬は、生成されたコードを画像にレンダリングし、評価モデルを用いて構造的類似性を評価する。
トレーニング安定のための2段階のカリキュラムでこれを実装します。
MSRLはSFT高原を著しく破壊し、ChartMimicとReachQAのベンチマークでそれぞれ6.2%と9.9%改善し、高度なクローズドソースモデルと競合する性能を達成した。
関連論文リスト
- Learning Efficient and Generalizable Graph Retriever for Knowledge-Graph Question Answering [75.12322966980003]
大規模言語モデル(LLM)は、様々な領域にわたって強い帰納的推論能力を示している。
既存のRAGパイプラインのほとんどは非構造化テキストに依存しており、解釈可能性と構造化推論を制限する。
近年,知識グラフ解答のための知識グラフとLLMの統合について検討している。
KGQAにおける効率的なグラフ検索のための新しいフレームワークであるRAPLを提案する。
論文 参考訳(メタデータ) (2025-06-11T12:03:52Z) - Compile Scene Graphs with Reinforcement Learning [69.36723767339001]
次世代予測は大規模言語モデル(LLM)の訓練の基本原理である
本稿では,マルチモーダルLLM(M-LLM)であるR1-SGGを紹介する。
私たちは、Hard Recall、Hard Recall+Relax、Soft Recallの3つのリコールベースのバリエーションを含む、グラフ中心の報酬セットを設計します。
論文 参考訳(メタデータ) (2025-04-18T10:46:22Z) - OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。
OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - MTLSO: A Multi-Task Learning Approach for Logic Synthesis Optimization [19.13500546022262]
MTLSOは論理合成最適化のためのマルチタスク学習手法である。
一次回帰タスクと並行して,二元多ラベルグラフ分類の補助タスクを導入する。
また、階層的なグラフ表現学習戦略を用いて、表現力のあるグラフレベルの表現を学習するためのモデルの能力を向上させる。
論文 参考訳(メタデータ) (2024-09-09T21:20:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。