論文の概要: VisCodex: Unified Multimodal Code Generation via Merging Vision and Coding Models
- arxiv url: http://arxiv.org/abs/2508.09945v1
- Date: Wed, 13 Aug 2025 17:00:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.967366
- Title: VisCodex: Unified Multimodal Code Generation via Merging Vision and Coding Models
- Title(参考訳): VisCodex: 統合ビジョンとコーディングモデルによる統一マルチモーダルコード生成
- Authors: Lingjie Jiang, Shaohan Huang, Xun Wu, Yixia Li, Dongdong Zhang, Furu Wei,
- Abstract要約: マルチモーダルな大言語モデル(MLLM)は、視覚的およびテキスト的理解の統合を著しく進歩させてきた。
しかし、マルチモーダル入力からコードを生成する能力は依然として限られている。
視覚とコーディング言語モデルをシームレスにマージする統合フレームワークであるVisCodexを紹介します。
- 参考スコア(独自算出の注目度): 82.05514464090172
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) have significantly advanced the integration of visual and textual understanding. However, their ability to generate code from multimodal inputs remains limited. In this work, we introduce VisCodex, a unified framework that seamlessly merges vision and coding language models to empower MLLMs with strong multimodal code generation abilities. Leveraging a task vector-based model merging technique, we integrate a state-of-the-art coding LLM into a strong vision-language backbone, while preserving both visual comprehension and advanced coding skills. To support training and evaluation, we introduce the Multimodal Coding Dataset (MCD), a large-scale and diverse collection of 598k samples, including high-quality HTML code, chart image-code pairs, image-augmented StackOverflow QA, and algorithmic problems. Furthermore, we propose InfiBench-V, a novel and challenging benchmark specifically designed to assess models on visually-rich, real-world programming questions that demand a nuanced understanding of both textual and visual contexts. Extensive experiments show that VisCodex achieves state-of-the-art performance among open-source MLLMs and approaches proprietary models like GPT-4o, highlighting the effectiveness of our model merging strategy and new datasets.
- Abstract(参考訳): マルチモーダルな大言語モデル(MLLM)は、視覚的およびテキスト的理解の統合を著しく進歩させてきた。
しかし、マルチモーダル入力からコードを生成する能力は依然として限られている。
本研究では、視覚とコーディング言語モデルをシームレスに統合し、強力なマルチモーダルコード生成能力を持つMLLMに力を与える統合フレームワークであるVisCodexを紹介する。
タスクベクトルに基づくモデルマージ技術を活用することで、視覚的理解と高度なコーディングスキルの両方を保ちながら、最先端のコーディングLLMを強力な視覚言語バックボーンに統合する。
MCD(Multimodal Coding Dataset)は,高品質なHTMLコード,チャートコードペア,イメージ拡張StackOverflow QA,アルゴリズム問題など,大規模かつ多様な598kサンプルのコレクションである。
InfiBench-Vは、視覚に富んだ実世界のプログラミング問題において、テキストと視覚の両方の文脈の微妙な理解を求めるモデルを評価するために特別に設計された、斬新で挑戦的なベンチマークである。
大規模な実験により、VisCodexはオープンソースのMLLM間での最先端のパフォーマンスを実現し、GPT-4oのようなプロプライエタリなモデルにアプローチし、モデルマージ戦略と新しいデータセットの有効性を強調します。
関連論文リスト
- Multilingual Multimodal Software Developer for Code Generation [35.33149292210637]
マルチ言語マルチモーダルソフトウェア開発者のMM-Coderを紹介する。
MM-Coderはビジュアルデザインインプット-UML(Unified Language)ダイアグラムとフローチャートを統合している。
MMEvalは、マルチモーダルコード生成を評価するための新しいベンチマークである。
論文 参考訳(メタデータ) (2025-07-11T16:19:53Z) - SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding [66.74446220401296]
画像の理解と生成の両方が可能なシンプルだが強力なエンコーダのないMLLMであるSynerGen-VLを提案する。
トークンの折り畳み機構と,高分解能画像理解を効果的に支援するビジョンエキスパートベースのプログレッシブアライメント事前学習戦略を導入する。
コードとモデルはリリースされます。
論文 参考訳(メタデータ) (2024-12-12T18:59:26Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model [17.3535277338312]
u-LLaVAは、MLLMの知覚能力を改善するためにピクセル、地域、グローバル機能を統合する革新的な統合マルチタスクフレームワークである。
この研究は、277Kサンプルからなるマスクベースの新しいマルチタスクデータセットに貢献し、MLLMの微粒化知覚能力に挑戦し評価する。
論文 参考訳(メタデータ) (2023-11-09T13:18:27Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。