論文の概要: MM-ReCoder: Advancing Chart-to-Code Generation with Reinforcement Learning and Self-Correction
- arxiv url: http://arxiv.org/abs/2604.01600v1
- Date: Thu, 02 Apr 2026 04:21:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.265127
- Title: MM-ReCoder: Advancing Chart-to-Code Generation with Reinforcement Learning and Self-Correction
- Title(参考訳): MM-ReCoder:強化学習と自己補正によるチャート・ツー・コード生成の促進
- Authors: Zitian Tang, Xu Zhang, Jianbo Yuan, Yang Zou, Varad Gunjal, Songyao Jiang, Davide Modolo,
- Abstract要約: 我々は、強化学習(RL)で訓練されたチャート・ツー・コード生成モデルMM-ReCoderを紹介する。
グループ相対政策最適化(GRPO)に基づく2段階多ターン自己補正RL戦略を提案する。
MM-ReCoderの最先端性能を3つのチャート・ツー・コード・ベンチマークで検証した。
- 参考スコア(独自算出の注目度): 18.226927359110018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have recently demonstrated promising capabilities in multimodal coding tasks such as chart-to-code generation. However, existing methods primarily rely on supervised fine-tuning (SFT), which requires the model to learn code patterns through chart-code pairs but does not expose the model to a code execution environment. Moreover, while self-correction through execution feedback offers a potential route to improve coding quality, even state-of-the-art MLLMs have been shown to struggle with effective self-correction. In this work, we introduce MM-ReCoder, a chart-to-code generation model trained with reinforcement learning (RL) and equipped with self-correction ability. We propose a two-stage multi-turn self-correction RL strategy based on Group Relative Policy Optimization (GRPO). The first stage enhances the model's self-correction ability via rolling out a shared first turn, while the second stage improves the coding capability with full-trajectory optimization. MM-ReCoder learns to produce more accurate and executable code through the interaction with the environment and by iteratively correcting its own outputs. Our results on three chart-to-code benchmarks demonstrate the state-of-the-art performance of MM-ReCoder.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、最近、チャート・ツー・コード生成のようなマルチモーダルコーディングタスクにおいて有望な能力を実証した。
しかし、既存のメソッドは主に教師付き微調整(SFT)に依存しており、これはチャートコードペアを通じてコードパターンを学ぶ必要があるが、そのモデルをコード実行環境に公開しない。
さらに、実行フィードバックによる自己補正は、コーディング品質を改善するための潜在的経路を提供する一方で、最先端のMLLMでさえ効果的な自己補正に苦しむことが示されている。
本稿では、強化学習(RL)で訓練された自己補正能力を備えたチャート・ツー・コード生成モデルMM-ReCoderを紹介する。
本稿では,グループ相対政策最適化(GRPO)に基づく2段階多ターン自己補正RL戦略を提案する。
第1段は共有第1ターンをロールアウトすることでモデルの自己補正能力を向上し、第2段は全軌道最適化によるコーディング能力を向上する。
MM-ReCoderは環境との相互作用を通じてより正確で実行可能なコードを生成することを学び、その出力を反復的に修正する。
MM-ReCoderの最先端性能を3つのチャート・ツー・コード・ベンチマークで検証した。
関連論文リスト
- DreamPRM-Code: Function-as-Step Process Reward Model with Label Correction for LLM Coding [30.131052926559956]
本稿では,関数を推論ステップとして扱う符号化型PRMであるDreamPRM-Codeを提案する。
ラベルノイズに対処するため、DreamPRM-Codeはメタラーニングに基づく補正機構を導入した。
テスト時間のスケーリングを適用することで、DreamPRM-Codeは80.9pass@1レートでLiveCodeBenchで最先端のパフォーマンスを達成し、OpenAI o4-miniを上回った。
論文 参考訳(メタデータ) (2025-12-17T01:11:35Z) - SynthCoder: A Synthetical Strategy to Tune LLMs for Code Completion [7.668823606571788]
コード補完は、ソフトウェア工学における大規模言語モデル(LLM)の顕著な応用である。
本稿では,Fill-in-the-Middle(FIM)コード補完タスクにおける最先端技術を実現するために,業界をリードするプラクティスを統合するモデルであるSynthCoderを提案する。
論文 参考訳(メタデータ) (2025-08-21T12:23:49Z) - DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation [68.19756761027351]
拡散大言語モデル(dLLM)は自己回帰(AR)モデルの魅力的な代替品である。
本研究は,それらの認知過程と強化学習手法について考察する。
我々の研究は、dLLM生成のメカニズムについて深い洞察を与え、効果的な拡散ネイティブなRLトレーニングフレームワークを提供します。
論文 参考訳(メタデータ) (2025-06-25T17:35:47Z) - Boosting Chart-to-Code Generation in MLLM via Dual Preference-Guided Refinement [16.22363384653305]
MLLM(Multimodal Large Language Models)は、きめ細かい視覚解析、正確なコード合成、堅牢なクロスモーダル推論を行う。
本稿では、フィードバック駆動の2つのモダリティ報酬機構と反復的な嗜好学習を組み合わせた2つの嗜好誘導改善フレームワークを提案する。
本フレームワークは汎用MLLMの性能を大幅に向上させ,高品質なプロットコードを生成する。
論文 参考訳(メタデータ) (2025-04-03T07:51:20Z) - Exploring Data-Efficient Adaptation of Large Language Models for Code Generation [64.5583894165813]
コード生成のための誤り駆動学習を用いたデータ効率向上のための新しい適応手法DEEDを提案する。
実験により、他の主流の微調整手法と比較して、DEEDは訓練データが少なく、優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-02-29T16:09:02Z) - LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z) - CodeT5+: Open Code Large Language Models for Code Understanding and
Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。
CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。
我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文 参考訳(メタデータ) (2023-05-13T14:23:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。