Fugu-MT 論文翻訳(概要): VinciCoder: Unifying Multimodal Code Generation via Coarse-to-fine Visual Reinforcement Learning

論文の概要: VinciCoder: Unifying Multimodal Code Generation via Coarse-to-fine Visual Reinforcement Learning

arxiv url: http://arxiv.org/abs/2511.00391v1
Date: Sat, 01 Nov 2025 04:05:26 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-05 16:37:26.752748
Title: VinciCoder: Unifying Multimodal Code Generation via Coarse-to-fine Visual Reinforcement Learning
Title（参考訳）: VinciCoder: 粗大な視覚強化学習によるマルチモーダルコード生成
Authors: Xuanle Zhao, Deyang Jiang, Zhixiong Zeng, Lei Chen, Haibo Qiu, Jing Huang, Yufeng Zhong, Liming Zheng, Yilin Cao, Lin Ma,
Abstract要約: 統合マルチモーダルコード生成モデルである textbfciCoder を導入する。まず、1.6Mイメージコードペアからなる大規模スーパービジョンファインタニング(SFT)コーパスを構築する。次に,ビジュアル強化学習(ViRL)戦略を導入する。
参考スコア（独自算出の注目度）: 13.193184888476404
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Multimodal code generation has garnered significant interest within the research community. Despite the notable success of recent vision-language models (VLMs) on specialized tasks like Chart-to-code generation, their reliance on single-task training regimens fosters a narrow paradigm that hinders the development of generalized \textbf{VI}sio\textbf{N} \textbf{C}ode \textbf{I}ntelligence. In this work, we introduce \textbf{VinciCoder}, a unified multimodal code generation model that addresses this limitation via a two-stage training framework. We begin by constructing a large-scale Supervised Finetuning (SFT) corpus comprising 1.6M image-code pairs for tasks involving direct code generation and visual-based code refinement. Subsequently, we introduce a Visual Reinforcement Learning (ViRL) strategy, which employs a coarse-to-fine reward mechanism to improve visual fidelity by calculating visual similarity across local and global image patches. Extensive experiments on various multimodal code generation benchmarks demonstrate that VinciCoder achieves state-of-the-art performance, underscoring the effectiveness of our coarse-to-fine ViRL strategy. The code and model will be available at https://github.com/DocTron-hub/VinciCoder.
Abstract（参考訳）: マルチモーダルコード生成は、研究コミュニティ内で大きな関心を集めている。チャート・ツー・コード生成のような特殊タスクにおける近年の視覚言語モデル(VLM)の顕著な成功にもかかわらず、シングルタスクの訓練体制への依存は、一般化された \textbf{VI}sio\textbf{N} \textbf{C}ode \textbf{I}ntelligence の開発を妨げる狭いパラダイムを育む。本稿では,この制限に対処する統合マルチモーダルコード生成モデルである \textbf{VinciCoder} を紹介する。まず、直接コード生成や視覚的コード修正を含むタスクに対して、1.6Mイメージコードペアからなる大規模スーパービジョンファインタニング(SFT)コーパスを構築する。次に,ビジュアル強化学習(ViRL)戦略を導入し,局所的およびグローバルな画像パッチ間の視覚的類似性を計算することにより,視覚の忠実度を向上させるための粗大な報酬メカニズムを取り入れた。様々なマルチモーダルコード生成ベンチマークに対する大規模な実験により、VinciCoderは最先端のパフォーマンスを実現し、粗大なVRL戦略の有効性を実証した。コードとモデルはhttps://github.com/DocTron-hub/VinciCoder.comから入手できる。

関連論文リスト

JanusCoder: Towards a Foundational Visual-Programmatic Interface for Code Intelligence [48.39202336809688]
本稿では,標準チャートから複雑な対話型Web UI,コード駆動型アニメーションに至るまで,大規模で高品質なコーパスを効率的に生成するための完全合成ツールキットを提案する。これは私たちのモデルであるJanusCoderとJanusCoderVのトレーニングを支えています。 7Bから14Bのスケールモデルは、商用モデルの性能に近づいたり、超えたりしています。
論文参考訳（メタデータ） (2025-10-27T17:13:49Z)
CodePlot-CoT: Mathematical Visual Reasoning by Thinking with Code-Driven Images [69.93976232543066]
本稿では,コード駆動型Chain-of-ThoughtパラダイムであるCodePlot-CoTを提案する。そこで我々はまず,視覚推論を用いた数学問題のための大規模バイリンガルデータセットとベンチマークであるMath-VRを構築した。我々のモデルは,提案したコード駆動推論パラダイムの有効性を十分に検証し,ベースモデルよりも最大で21%向上する。
論文参考訳（メタデータ） (2025-10-13T17:59:55Z)
VisCodex: Unified Multimodal Code Generation via Merging Vision and Coding Models [82.05514464090172]
マルチモーダルな大言語モデル(MLLM)は、視覚的およびテキスト的理解の統合を著しく進歩させてきた。しかし、マルチモーダル入力からコードを生成する能力は依然として限られている。視覚とコーディング言語モデルをシームレスにマージする統合フレームワークであるVisCodexを紹介します。
論文参考訳（メタデータ） (2025-08-13T17:00:44Z)
ScreenCoder: Advancing Visual-to-Code Generation for Front-End Automation via Modular Multimodal Agents [40.697759330690815]
ScreenCoderはモジュール型のマルチエージェントフレームワークで、タスクを3つの解釈可能なステージ(グラウンド、プランニング、生成)に分解する。特殊エージェントにこれらの異なる責任を割り当てることで、我々のフレームワークはエンド・ツー・エンドのアプローチよりもはるかに高い堅牢性と忠実性を達成する。提案手法は, レイアウト精度, 構造コヒーレンス, コード正確性において, 最先端の性能を実現する。
論文参考訳（メタデータ） (2025-07-30T16:41:21Z)
Boosting Chart-to-Code Generation in MLLM via Dual Preference-Guided Refinement [16.22363384653305]
MLLM(Multimodal Large Language Models)は、きめ細かい視覚解析、正確なコード合成、堅牢なクロスモーダル推論を行う。本稿では、フィードバック駆動の2つのモダリティ報酬機構と反復的な嗜好学習を組み合わせた2つの嗜好誘導改善フレームワークを提案する。本フレームワークは汎用MLLMの性能を大幅に向上させ,高品質なプロットコードを生成する。
論文参考訳（メタデータ） (2025-04-03T07:51:20Z)
Harmonizing Visual Representations for Unified Multimodal Understanding and Generation [53.01486796503091]
我々は,共有MARエンコーダによる理解と生成タスクを調和させる統合自己回帰フレームワークであるemphHarmonを提案する。 HarmonはGenEval、MJHQ30K、WISEベンチマークで最先端の画像生成結果を達成する。
論文参考訳（メタデータ） (2025-03-27T20:50:38Z)
Code Representation Learning At Scale [75.04686476303436]
2段階の事前学習スキームを用いて,大量のコードデータを用いてコード表現学習を行う。まず、マスキング言語モデリングにおけるランダム性と、プログラミング言語の構造的側面の両方を活用して、エンコーダを訓練する。そして、教師なしの方法で強陰性かつ強正に構築された対照的な学習を通して表現を強化する。
論文参考訳（メタデータ） (2024-02-02T22:19:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。