論文の概要: VisCoder: Fine-Tuning LLMs for Executable Python Visualization Code Generation
- arxiv url: http://arxiv.org/abs/2506.03930v2
- Date: Mon, 29 Sep 2025 00:45:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 17:47:09.018919
- Title: VisCoder: Fine-Tuning LLMs for Executable Python Visualization Code Generation
- Title(参考訳): VisCoder: 実行可能なPythonビジュアライゼーションコード生成のための微調整LDM
- Authors: Yuansheng Ni, Ping Nie, Kai Zou, Xiang Yue, Wenhu Chen,
- Abstract要約: 提案するVisCode-200Kは,Pythonによる可視化と自己補正のための大規模インストラクションチューニングデータセットである。
1)オープンソースリポジトリからの検証済みプロットコードと自然言語命令と描画プロットのペア,(2)Code-Feedbackからの45Kのマルチターン補正ダイアログ。
- 参考スコア(独自算出の注目度): 69.35779796364413
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) often struggle with visualization tasks like plotting diagrams, charts, where success depends on both code correctness and visual semantics. Existing instruction-tuning datasets lack execution-grounded supervision and offer limited support for iterative code correction, resulting in fragile and unreliable plot generation. We present VisCode-200K, a large-scale instruction tuning dataset for Python-based visualization and self-correction. It contains over 200K examples from two sources: (1) validated plotting code from open-source repositories, paired with natural language instructions and rendered plots; and (2) 45K multi-turn correction dialogues from Code-Feedback, enabling models to revise faulty code using runtime feedback. We fine-tune Qwen2.5-Coder-Instruct on VisCode-200K to create VisCoder, and evaluate it on PandasPlotBench. VisCoder significantly outperforms strong open-source baselines and approaches the performance of proprietary models like GPT-4o-mini. We further adopt a self-debug evaluation protocol to assess iterative repair, demonstrating the benefits of feedback-driven learning for executable, visually accurate code generation.
- Abstract(参考訳): 大規模言語モデル(LLM)は、多くの場合、コードの正確さと視覚的意味論の両方に依存する、図やチャートのプロットのような視覚化タスクに苦労する。
既存の命令チューニングデータセットには実行基盤の監視が欠如しており、反復的なコード修正を限定的にサポートしているため、脆弱で信頼性の低いプロット生成が実現している。
提案するVisCode-200Kは,Pythonによる可視化と自己補正のための大規模インストラクションチューニングデータセットである。
1) オープンソースリポジトリからのプロットコードを検証し、自然言語命令と描画プロットを組み合わせ、(2) Code-Feedbackからの45Kのマルチターン補正ダイアログを使用して、モデルが実行時フィードバックを使って欠陥コードを修正することができる。
We fine-tune Qwen2.5-Coder-Instruct on VisCode-200K, and evaluate it on PandasPlotBench。
VisCoderは、強力なオープンソースベースラインをはるかに上回り、GPT-4o-miniのようなプロプライエタリなモデルのパフォーマンスにアプローチする。
さらに、反復的修復を評価するための自己デバッグ評価プロトコルを採用し、実行可能で視覚的に正確なコード生成のためのフィードバック駆動学習の利点を実証する。
関連論文リスト
- VisCoder2: Building Multi-Language Visualization Coding Agents [63.63232038173407]
可視化符号化エージェントを進化させるための3つの相補的なリソースを紹介する。
VisCoder2は、強力なオープンソースベースラインを著しく上回り、プロプライエタリなモデルのパフォーマンスにアプローチする。
論文 参考訳(メタデータ) (2025-10-24T18:03:57Z) - RECODE: Reasoning Through Code Generation for Visual Question Answering [68.86938437188964]
我々は、検証可能な視覚的推論のための新しいモダリティとして、視覚を実行可能コードにリバースエンジニアリングするプロセスであるデレンダリングを活用することを提案する。
我々の研究は、実行可能コードにおける視覚的認識の基盤が、より正確で検証可能なマルチモーダル推論への新たな道を提供することを示した。
論文 参考訳(メタデータ) (2025-10-15T17:05:37Z) - Enhancing Neural Code Representation with Additional Context [19.42697747205407]
最近のディープラーニングモデルは一般的に、バージョン履歴や構造的関係といったコンテキスト情報を見渡すために、ソースコードのみに依存しています。
このような文脈信号によるコード表現の強化がニューラルモデルの性能に与える影響について実証的研究を行った。
5つの代表モデル(CodeBERT、GraphCodeBERT、CodeT5、PLBART、ASTNN)は、コード専用およびコンテキスト拡張設定の下で微調整される。
論文 参考訳(メタデータ) (2025-10-14T02:45:42Z) - IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。
IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文 参考訳(メタデータ) (2025-07-30T08:08:48Z) - LLM Code Customization with Visual Results: A Benchmark on TikZ [6.3303908500560615]
我々は,協調的な視覚的成果を保ちながらコードをカスタマイズする大規模言語モデルの能力を評価する最初のベンチマークであるvTikZを紹介した。
我々のベンチマークは、慎重にキュレートされたvTikZ編集シナリオ、パラメータ化された基底真理、そして視覚フィードバックを利用して正当性を評価するレビューツールから構成されている。
論文 参考訳(メタデータ) (2025-05-07T08:26:54Z) - Boosting Chart-to-Code Generation in MLLM via Dual Preference-Guided Refinement [16.22363384653305]
MLLM(Multimodal Large Language Models)は、きめ細かい視覚解析、正確なコード合成、堅牢なクロスモーダル推論を行う。
本稿では、フィードバック駆動の2つのモダリティ報酬機構と反復的な嗜好学習を組み合わせた2つの嗜好誘導改善フレームワークを提案する。
本フレームワークは汎用MLLMの性能を大幅に向上させ,高品質なプロットコードを生成する。
論文 参考訳(メタデータ) (2025-04-03T07:51:20Z) - ChartCoder: Advancing Multimodal Large Language Model for Chart-to-Code Generation [62.88742217569754]
textbfChartCoderは、最初の専用チャートからコードへのMLLMである。
textbfChart2Code-160kは、チャート・ツー・コード生成のための、最初の大規模かつ多様なデータセットである。
実験によると、ChartCoderは7Bパラメータしか持たないが、チャート・トゥ・コードベンチマークで既存のオープンソースのMLLMを超えている。
論文 参考訳(メタデータ) (2025-01-11T17:52:22Z) - VDebugger: Harnessing Execution Feedback for Debugging Visual Programs [103.61860743476933]
V Debuggerは、視覚プログラムのローカライズとデバッギングのために、段階的に実行を追跡することで訓練された、批評家とリファインダーのフレームワークである。
Vデバッガは、詳細な実行フィードバックを活用してプログラムエラーを特定し、修正する。
6つのデータセットの評価は、Vデバッガの有効性を示し、ダウンストリームタスクの精度が最大3.2%向上したことを示している。
論文 参考訳(メタデータ) (2024-06-19T11:09:16Z) - On the Impacts of Contexts on Repository-Level Code Generation [5.641402231731082]
本稿ではレポジトリレベルのコード生成を評価するために設計された新しいベンチマークであるRepoExecを紹介する。
実行可能性、包括的なテストケース生成による機能的正当性、ファイル間のコンテキストの正確な利用という3つの重要な側面に注目します。
論文 参考訳(メタデータ) (2024-06-17T10:45:22Z) - Plot2Code: A Comprehensive Benchmark for Evaluating Multi-modal Large Language Models in Code Generation from Scientific Plots [66.95139377783966]
マルチモーダル大言語モデルのための包括的ビジュアルコーディングベンチマークであるPlot2Codeを紹介する。
公開されているマットプロットギャラリーから,手作業で選択した高品質なマットプロットプロットを6種類のプロットタイプで収集する。
各プロットに対して、ソースコードを慎重に提供し、GPT-4で要約した記述的命令を提供する。
論文 参考訳(メタデータ) (2024-05-13T17:59:22Z) - Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文 参考訳(メタデータ) (2023-04-11T10:43:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。