論文の概要: JanusCoder: Towards a Foundational Visual-Programmatic Interface for Code Intelligence
- arxiv url: http://arxiv.org/abs/2510.23538v1
- Date: Mon, 27 Oct 2025 17:13:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.638147
- Title: JanusCoder: Towards a Foundational Visual-Programmatic Interface for Code Intelligence
- Title(参考訳): JanusCoder: コードインテリジェンスのための基礎的なビジュアル・プログラミングインターフェースを目指して
- Authors: Qiushi Sun, Jingyang Gong, Yang Liu, Qiaosheng Chen, Lei Li, Kai Chen, Qipeng Guo, Ben Kao, Fei Yuan,
- Abstract要約: 本稿では,標準チャートから複雑な対話型Web UI,コード駆動型アニメーションに至るまで,大規模で高品質なコーパスを効率的に生成するための完全合成ツールキットを提案する。
これは私たちのモデルであるJanusCoderとJanusCoderVのトレーニングを支えています。
7Bから14Bのスケールモデルは、商用モデルの性能に近づいたり、超えたりしています。
- 参考スコア(独自算出の注目度): 48.39202336809688
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The scope of neural code intelligence is rapidly expanding beyond text-based source code to encompass the rich visual outputs that programs generate. This visual dimension is critical for advanced applications like flexible content generation and precise, program-driven editing of visualizations. However, progress has been impeded by the scarcity of high-quality multimodal code data, a bottleneck stemming from challenges in synthesis and quality assessment. To address these challenges, we make contributions from both a data and modeling perspective. We first introduce a complete synthesis toolkit that leverages reciprocal synergies between data modalities to efficiently produce a large-scale, high-quality corpus spanning from standard charts to complex interactive web UIs and code-driven animations. Leveraging this toolkit, we construct JanusCode-800K, the largest multimodal code corpus to date. This powers the training of our models, JanusCoder and JanusCoderV, which establish a visual-programmatic interface for generating code from textual instructions, visual inputs, or a combination of both. Our unified model is a departure from existing approaches that build specialized models for isolated tasks. Extensive experiments on both text-centric and vision-centric coding tasks demonstrate the superior performance of the JanusCoder series, with our 7B to 14B scale models approaching or even exceeding the performance of commercial models. Furthermore, extensive analysis provides key insights into harmonizing programmatic logic with its visual expression. Our code and checkpoints will are available at https://github.com/InternLM/JanusCoder.
- Abstract(参考訳): ニューラルコードインテリジェンスの範囲は、プログラムが生成するリッチなビジュアルアウトプットを含むために、テキストベースのソースコードを超えて急速に拡大している。
このビジュアルディメンションは、フレキシブルなコンテンツ生成や、プログラム駆動による視覚化の編集といった先進的なアプリケーションにとって重要である。
しかし、高品質なマルチモーダルコードデータの不足は、合成と品質評価の課題に起因するボトルネックとなっている。
これらの課題に対処するため、データとモデリングの両方の観点からコントリビューションを行います。
まず,データモダリティ間の相互シナジーを利用して,標準的なチャートから複雑な対話型Web UI,コード駆動型アニメーションに至るまで,大規模で高品質なコーパスを効率よく生成する。
このツールキットを利用することで、これまでで最大のマルチモーダルコードコーパスであるJanusCode-800Kを構築します。
これは私たちのモデルであるJanusCoderとJanusCoderVのトレーニングを支えています。
私たちの統一モデルは、独立したタスクのための特別なモデルを構築する既存のアプローチから離れています。
テキスト中心と視覚中心の両方のコーディングタスクに関する大規模な実験は、JanusCoderシリーズの優れたパフォーマンスを示し、我々の7Bから14Bスケールモデルが商用モデルの性能に近づいたり、超えたりしています。
さらに、広範な分析は、プログラム論理とその視覚的表現との調和に関する重要な洞察を提供する。
私たちのコードとチェックポイントはhttps://github.com/InternLM/JanusCoder.orgで公開されます。
関連論文リスト
- VisCodex: Unified Multimodal Code Generation via Merging Vision and Coding Models [82.05514464090172]
マルチモーダルな大言語モデル(MLLM)は、視覚的およびテキスト的理解の統合を著しく進歩させてきた。
しかし、マルチモーダル入力からコードを生成する能力は依然として限られている。
視覚とコーディング言語モデルをシームレスにマージする統合フレームワークであるVisCodexを紹介します。
論文 参考訳(メタデータ) (2025-08-13T17:00:44Z) - ScreenCoder: Advancing Visual-to-Code Generation for Front-End Automation via Modular Multimodal Agents [40.697759330690815]
ScreenCoderはモジュール型のマルチエージェントフレームワークで、タスクを3つの解釈可能なステージ(グラウンド、プランニング、生成)に分解する。
特殊エージェントにこれらの異なる責任を割り当てることで、我々のフレームワークはエンド・ツー・エンドのアプローチよりもはるかに高い堅牢性と忠実性を達成する。
提案手法は, レイアウト精度, 構造コヒーレンス, コード正確性において, 最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-07-30T16:41:21Z) - CodeEvo: Interaction-Driven Synthesis of Code-centric Data through Hybrid and Iterative Feedback [21.627909324788597]
大規模言語モデルの訓練には高品質な命令コードペアの獲得が不可欠である。
2つのLLMエージェント間の反復的な相互作用を通じてコードデータを合成するフレームワークであるCodeEvoを提案する。
論文 参考訳(メタデータ) (2025-07-25T16:12:51Z) - Boosting Chart-to-Code Generation in MLLM via Dual Preference-Guided Refinement [16.22363384653305]
MLLM(Multimodal Large Language Models)は、きめ細かい視覚解析、正確なコード合成、堅牢なクロスモーダル推論を行う。
本稿では、フィードバック駆動の2つのモダリティ報酬機構と反復的な嗜好学習を組み合わせた2つの嗜好誘導改善フレームワークを提案する。
本フレームワークは汎用MLLMの性能を大幅に向上させ,高品質なプロットコードを生成する。
論文 参考訳(メタデータ) (2025-04-03T07:51:20Z) - Advancing vision-language models in front-end development via data synthesis [30.287628180320137]
本稿では,高品質な画像テキストデータを合成し,フロントエンド開発における多様な特徴を捉えた反射型エージェントワークフローを提案する。
このワークフローは、実際のプロジェクトから自己完結型フットノートA textbfself-完結型コードスニペットを抽出し、対応するビジュアルアウトプットをレンダリングし、設計要素を機能コードにリンクする詳細な記述を生成する。
私たちは、合成データセットに基づいてトレーニングされた大規模なビジョン言語モデルであるFlameを構築し、$textpass@k$メトリックを使用してReactコードを生成する効果を実証しています。
論文 参考訳(メタデータ) (2025-03-03T14:54:01Z) - UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。
私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。
我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文 参考訳(メタデータ) (2025-02-17T05:37:02Z) - SparseCoder: Identifier-Aware Sparse Transformer for File-Level Code
Summarization [51.67317895094664]
本稿では,大規模なソースコードプロジェクトの理解と維持を支援するファイルレベルのコード要約について検討する。
長いコードシーケンスを効果的に処理するための識別子対応スパース変換器であるSparseCoderを提案する。
論文 参考訳(メタデータ) (2024-01-26T09:23:27Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。