論文の概要: VisCoder: Fine-Tuning LLMs for Executable Python Visualization Code Generation
- arxiv url: http://arxiv.org/abs/2506.03930v1
- Date: Wed, 04 Jun 2025 13:24:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.349538
- Title: VisCoder: Fine-Tuning LLMs for Executable Python Visualization Code Generation
- Title(参考訳): VisCoder: 実行可能なPythonビジュアライゼーションコード生成のための微調整LDM
- Authors: Yuansheng Ni, Ping Nie, Kai Zou, Xiang Yue, Wenhu Chen,
- Abstract要約: 提案するVisCode-200Kは,Pythonによる可視化と自己補正のための大規模インストラクションチューニングデータセットである。
1)オープンソースリポジトリからの検証済みプロットコードと自然言語命令と描画プロットのペア,(2)Code-Feedbackからの45Kのマルチターン補正ダイアログ。
- 参考スコア(独自算出の注目度): 37.477428819390006
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) often struggle with visualization tasks like plotting diagrams, charts, where success depends on both code correctness and visual semantics. Existing instruction-tuning datasets lack execution-grounded supervision and offer limited support for iterative code correction, resulting in fragile and unreliable plot generation. We present VisCode-200K, a large-scale instruction tuning dataset for Python-based visualization and self-correction. It contains over 200K examples from two sources: (1) validated plotting code from open-source repositories, paired with natural language instructions and rendered plots; and (2) 45K multi-turn correction dialogues from Code-Feedback, enabling models to revise faulty code using runtime feedback. We fine-tune Qwen2.5-Coder-Instruct on VisCode-200K to create VisCoder, and evaluate it on PandasPlotBench. VisCoder significantly outperforms strong open-source baselines and approaches the performance of proprietary models like GPT-4o-mini. We further adopt a self-debug evaluation protocol to assess iterative repair, demonstrating the benefits of feedback-driven learning for executable, visually accurate code generation.
- Abstract(参考訳): 大規模言語モデル(LLM)は、多くの場合、コードの正確さと視覚的意味論の両方に依存する、図やチャートのプロットのような視覚化タスクに苦労する。
既存の命令チューニングデータセットには実行基盤の監視が欠如しており、反復的なコード修正を限定的にサポートしているため、脆弱で信頼性の低いプロット生成が実現している。
提案するVisCode-200Kは,Pythonによる可視化と自己補正のための大規模インストラクションチューニングデータセットである。
1) オープンソースリポジトリからのプロットコードを検証し、自然言語命令と描画プロットを組み合わせ、(2) Code-Feedbackからの45Kのマルチターン補正ダイアログを使用して、モデルが実行時フィードバックを使って欠陥コードを修正することができる。
We fine-tune Qwen2.5-Coder-Instruct on VisCode-200K, and evaluate it on PandasPlotBench。
VisCoderは、強力なオープンソースベースラインをはるかに上回り、GPT-4o-miniのようなプロプライエタリなモデルのパフォーマンスにアプローチする。
さらに、反復的修復を評価するための自己デバッグ評価プロトコルを採用し、実行可能で視覚的に正確なコード生成のためのフィードバック駆動学習の利点を実証する。
関連論文リスト
- LLM Code Customization with Visual Results: A Benchmark on TikZ [6.3303908500560615]
我々は,協調的な視覚的成果を保ちながらコードをカスタマイズする大規模言語モデルの能力を評価する最初のベンチマークであるvTikZを紹介した。
我々のベンチマークは、慎重にキュレートされたvTikZ編集シナリオ、パラメータ化された基底真理、そして視覚フィードバックを利用して正当性を評価するレビューツールから構成されている。
論文 参考訳(メタデータ) (2025-05-07T08:26:54Z) - VDebugger: Harnessing Execution Feedback for Debugging Visual Programs [103.61860743476933]
V Debuggerは、視覚プログラムのローカライズとデバッギングのために、段階的に実行を追跡することで訓練された、批評家とリファインダーのフレームワークである。
Vデバッガは、詳細な実行フィードバックを活用してプログラムエラーを特定し、修正する。
6つのデータセットの評価は、Vデバッガの有効性を示し、ダウンストリームタスクの精度が最大3.2%向上したことを示している。
論文 参考訳(メタデータ) (2024-06-19T11:09:16Z) - On the Impacts of Contexts on Repository-Level Code Generation [5.641402231731082]
本稿ではレポジトリレベルのコード生成を評価するために設計された新しいベンチマークであるRepoExecを紹介する。
実行可能性、包括的なテストケース生成による機能的正当性、ファイル間のコンテキストの正確な利用という3つの重要な側面に注目します。
論文 参考訳(メタデータ) (2024-06-17T10:45:22Z) - Plot2Code: A Comprehensive Benchmark for Evaluating Multi-modal Large Language Models in Code Generation from Scientific Plots [66.95139377783966]
マルチモーダル大言語モデルのための包括的ビジュアルコーディングベンチマークであるPlot2Codeを紹介する。
公開されているマットプロットギャラリーから,手作業で選択した高品質なマットプロットプロットを6種類のプロットタイプで収集する。
各プロットに対して、ソースコードを慎重に提供し、GPT-4で要約した記述的命令を提供する。
論文 参考訳(メタデータ) (2024-05-13T17:59:22Z) - Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文 参考訳(メタデータ) (2023-04-11T10:43:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。