論文の概要: VisCoder2: Building Multi-Language Visualization Coding Agents
- arxiv url: http://arxiv.org/abs/2510.23642v1
- Date: Fri, 24 Oct 2025 18:03:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.310291
- Title: VisCoder2: Building Multi-Language Visualization Coding Agents
- Title(参考訳): VisCoder2: 多言語可視化コーディングエージェントの構築
- Authors: Yuansheng Ni, Songcheng Cai, Xiangchao Chen, Jiarong Liang, Zhiheng Lyu, Jiaqi Deng, Kai Zou, Ping Nie, Fei Yuan, Xiang Yue, Wenhu Chen,
- Abstract要約: 可視化符号化エージェントを進化させるための3つの相補的なリソースを紹介する。
VisCoder2は、強力なオープンソースベースラインを著しく上回り、プロプライエタリなモデルのパフォーマンスにアプローチする。
- 参考スコア(独自算出の注目度): 63.63232038173407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have recently enabled coding agents capable of generating, executing, and revising visualization code. However, existing models often fail in practical workflows due to limited language coverage, unreliable execution, and lack of iterative correction mechanisms. Progress has been constrained by narrow datasets and benchmarks that emphasize single-round generation and single-language tasks. To address these challenges, we introduce three complementary resources for advancing visualization coding agents. VisCode-Multi-679K is a large-scale, supervised dataset containing 679K validated and executable visualization samples with multi-turn correction dialogues across 12 programming languages. VisPlotBench is a benchmark for systematic evaluation, featuring executable tasks, rendered outputs, and protocols for both initial generation and multi-round self-debug. Finally, we present VisCoder2, a family of multi-language visualization models trained on VisCode-Multi-679K. Experiments show that VisCoder2 significantly outperforms strong open-source baselines and approaches the performance of proprietary models like GPT-4.1, with further gains from iterative self-debug, reaching 82.4% overall execution pass rate at the 32B scale, particularly in symbolic or compiler-dependent languages.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ビジュアライゼーションコードの生成、実行、修正が可能なコーディングエージェントを最近有効にした。
しかし、既存のモデルは言語カバレッジの制限、信頼性の低い実行、反復的な修正機構の欠如により、現実的なワークフローでは失敗することが多い。
プログレスには、単一ラウンド生成と単一言語タスクを強調する狭いデータセットとベンチマークが制約されている。
これらの課題に対処するために、可視化符号化エージェントを進化させるための3つの補完的なリソースを導入する。
VisCode-Multi-679Kは679Kの検証と実行可能ビジュアライゼーションを含む大規模で教師付きデータセットである。
VisPlotBenchは、実行可能なタスク、レンダリングされた出力、初期および複数ラウンドの自己デバッグのためのプロトコルを特徴とする、体系的な評価のためのベンチマークである。
最後に、VisCode-Multi-679Kでトレーニングされた多言語ビジュアライゼーションモデルであるVisCoder2を紹介する。
実験の結果、VisCoder2はオープンソースのベースラインを著しく上回り、GPT-4.1のようなプロプライエタリなモデルの性能に近づき、反復的な自己デバッグによってさらに向上し、32Bスケール、特にシンボリック言語やコンパイラに依存した言語において、全体の実行パス率82.4%に達した。
関連論文リスト
- Beyond Language Barriers: Multi-Agent Coordination for Multi-Language Code Generation [8.896718697354187]
XL-CoGenは、複数のプログラミング言語で高品質なコードを生成する。
中間表現、コード生成、翻訳、自動修復を統合する。
論文 参考訳(メタデータ) (2025-09-24T09:18:08Z) - VisCodex: Unified Multimodal Code Generation via Merging Vision and Coding Models [82.05514464090172]
マルチモーダルな大言語モデル(MLLM)は、視覚的およびテキスト的理解の統合を著しく進歩させてきた。
しかし、マルチモーダル入力からコードを生成する能力は依然として限られている。
視覚とコーディング言語モデルをシームレスにマージする統合フレームワークであるVisCodexを紹介します。
論文 参考訳(メタデータ) (2025-08-13T17:00:44Z) - VisCoder: Fine-Tuning LLMs for Executable Python Visualization Code Generation [69.35779796364413]
提案するVisCode-200Kは,Pythonによる可視化と自己補正のための大規模インストラクションチューニングデータセットである。
1)オープンソースリポジトリからの検証済みプロットコードと自然言語命令と描画プロットのペア,(2)Code-Feedbackからの45Kのマルチターン補正ダイアログ。
論文 参考訳(メタデータ) (2025-06-04T13:24:44Z) - Multi-IF: Benchmarking LLMs on Multi-Turn and Multilingual Instructions Following [51.18383180774354]
Multi-IFは,大規模言語モデルの習熟度を多元的および多言語的指示に従って評価するための新しいベンチマークである。
Multi-IF 上での14の最先端 LLM の評価結果から,既存のベンチマークよりもはるかに難しい課題であることが判明した。
非ラテン文字(ヒンディー語、ロシア語、中国語)を持つ言語は一般的に高いエラー率を示し、モデルの多言語能力の潜在的な制限を示唆している。
論文 参考訳(メタデータ) (2024-10-21T00:59:47Z) - The Struggles of LLMs in Cross-lingual Code Clone Detection [3.5202378300682162]
言語間のコードクローン検出は、ソフトウェアエンジニアリングコミュニティ内で注目を集めている。
機械学習の大幅な進歩にインスパイアされた本論文では、言語間コードクローン検出を再考する。
言語間コードクローンの識別のための5つの大言語モデル (LLM) と8つのプロンプト (08) の性能評価を行った。
論文 参考訳(メタデータ) (2024-08-08T12:57:14Z) - Output Format Biases in the Evaluation of Large Language Models for Code Translation [6.75681623173699]
出力フォーマットのバリエーションを理解し、対処することが重要です。
非コード要素は評価指標に干渉し、モデルの性能と比較のバイアスのある評価をもたらす。
混合形式出力からソースコードを効果的に抽出する,プロンプトエンジニアリングと正規表現の戦略的組み合わせを提案する。
論文 参考訳(メタデータ) (2024-03-25T21:41:31Z) - What Is Missing in Multilingual Visual Reasoning and How to Fix It [57.37123046817781]
視覚的推論タスクを用いてNLPモデルの多言語・多モーダル機能を評価する。
GPT-4Vのようなプロプライエタリなシステムは、現在このタスクで最高のパフォーマンスを得るが、オープンモデルは比較に遅れている。
LLaVA-v1.5-13Bは13.4%、LLaVA-v1.6-34Bは20.3%、Qwen-VLは16.7%向上した。
論文 参考訳(メタデータ) (2024-03-03T05:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。