論文の概要: PlotCraft: Pushing the Limits of LLMs for Complex and Interactive Data Visualization
- arxiv url: http://arxiv.org/abs/2511.00010v1
- Date: Wed, 15 Oct 2025 10:14:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-09 16:58:40.019817
- Title: PlotCraft: Pushing the Limits of LLMs for Complex and Interactive Data Visualization
- Title(参考訳): PlotCraft: 複雑でインタラクティブなデータ可視化のためのLLMの限界を押し上げる
- Authors: Jiajun Zhang, Jianke Zhang, Zeyu Cui, Jiaxi Yang, Lei Zhang, Binyuan Hui, Qiang Liu, Zilei Wang, Liang Wang, Junyang Lin,
- Abstract要約: PlotCraftは、1kの挑戦的な視覚化タスクを特徴とする新しいベンチマークだ。
PlotCraftは7つのハイレベルな視覚化タスクを中心に構成されており、48の異なるチャートタイプを含んでいる。
単一ターン生成と多ターン改善の両方を多種多様なタスク複雑度にわたって体系的に評価するのは、これが初めてである。
- 参考スコア(独自算出の注目度): 82.96200364977737
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent Large Language Models (LLMs) have demonstrated remarkable proficiency in code generation. However, their ability to create complex visualizations for scaled and structured data remains largely unevaluated and underdeveloped. To address this gap, we introduce PlotCraft, a new benchmark featuring 1k challenging visualization tasks that cover a wide range of topics, such as finance, scientific research, and sociology. The benchmark is structured around seven high-level visualization tasks and encompasses 48 distinct chart types. Crucially, it is the first to systematically evaluate both single-turn generation and multi-turn refinement across a diverse spectrum of task complexities. Our comprehensive evaluation of 23 leading LLMs on PlotCraft reveals obvious performance deficiencies in handling sophisticated visualization tasks. To bridge this performance gap, we develope SynthVis-30K, a large-scale, high-quality dataset of complex visualization code synthesized via a collaborative agent framework. Building upon this dataset, we develope PlotCraftor, a novel code generation model that achieves strong capabilities in complex data visualization with a remarkably small size. Across VisEval, PandasPlotBench, and our proposed PlotCraft, PlotCraftor shows performance comparable to that of leading proprietary approaches. Especially, on hard task, Our model achieves over 50% performance improvement. We will release the benchmark, dataset, and code at https://github.com/Speakn0w/PlotCraft-Benchmark.
- Abstract(参考訳): 最近のLarge Language Models (LLMs) は、コード生成に顕著な習熟性を示している。
しかし、大規模で構造化されたデータのための複雑な可視化を作成する能力はほとんど評価されず、未開発のままである。
このギャップに対処するために、ファイナンス、科学研究、社会学など、幅広いトピックをカバーする1万の挑戦的な可視化タスクを特徴とする新しいベンチマークであるPlotCraftを紹介します。
ベンチマークは7つのハイレベルな可視化タスクを中心に構成されており、48の異なるチャートタイプを含んでいる。
重要なことは、多種多様なタスク複雑度において、単ターン生成と多ターン改善の両方を体系的に評価するのは、これが初めてである。
PlotCraft上で23のLLMを総合的に評価した結果,高度な可視化タスクの処理において,明らかにパフォーマンス上の欠陥が明らかとなった。
この性能ギャップを埋めるため、我々は、協調エージェントフレームワークを介して合成された複雑な視覚化コードの大規模かつ高品質なデータセットであるSynthVis-30Kを開発した。
このデータセットに基づいてPlotCraftorを開発した。PlotCraftorは、非常に小さなサイズの複雑なデータ視覚化において、強力な機能を実現する新しいコード生成モデルである。
VisEval、PandasPlotBench、そして提案したPlotCraftでは、PlotCraftorは主要なプロプライエタリなアプローチに匹敵するパフォーマンスを示している。
特にハードタスクでは,我々のモデルは50%以上の性能向上を実現している。
ベンチマーク、データセット、コードをhttps://github.com/Speakn0w/PlotCraft-Benchmarkでリリースします。
関連論文リスト
- ChartM$^3$: A Multi-Stage Code-Driven Pipeline for Constructing Multi-Dimensional and Multi-Step Visual Reasoning Data in Chart Comprehension [15.798942458550515]
本研究では、視覚的推論データセットを生成するための自動多段階コード駆動パイプラインを提案する。
トレーニング用38Kチャートと142KQ&Aペアを含む多次元・多段階データセットであるChartM$3$と,高品質な評価サンプル2,871。
論文 参考訳(メタデータ) (2025-11-04T09:45:34Z) - Effective Training Data Synthesis for Improving MLLM Chart Understanding [21.347586170711608]
グラフ生成のモジュール化と視覚的詳細の多様化により、チャート理解能力が向上することを示す。
特に、5段階のデータ合成パイプラインを設計し、単一のプロット生成のためにデータと関数を分離する。
このアプローチにより、微調整データセットの生成を合理化できます。
論文 参考訳(メタデータ) (2025-08-08T17:59:10Z) - What Limits Virtual Agent Application? OmniBench: A Scalable Multi-Dimensional Benchmark for Essential Virtual Agent Capabilities [56.646832992178105]
我々は、制御可能な複雑性のタスクを合成するための自動パイプラインを備えたクロスプラットフォームグラフベースのベンチマークであるOmniBenchを紹介した。
OmniEvalは、サブタスクレベルの評価、グラフベースのメトリクス、および10機能にわたる包括的なテストを含む多次元評価フレームワークである。
我々のデータセットには、20のシナリオにわたる36万のグラフ構造化タスクが含まれており、人間の受け入れ率は91%に達する。
論文 参考訳(メタデータ) (2025-06-10T15:59:38Z) - BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。
BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。
BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2024-10-01T15:11:24Z) - What are the Essential Factors in Crafting Effective Long Context Multi-Hop Instruction Datasets? Insights and Best Practices [91.71951459594074]
拡張コンテキストウィンドウを持つLong Language Model (LLM) は、情報抽出、質問応答、複雑な計画シナリオなどのタスクを大幅に改善した。
既存のメソッドは通常、Self-Instructフレームワークを使用して、長いコンテキスト能力を改善するために命令チューニングデータを生成する。
本稿では,品質検証エージェント,シングルホップ質問生成エージェント,複数質問サンプリング戦略,マルチホップ質問マーガーエージェントを組み込んだマルチエージェント対話型マルチホップ生成フレームワークを提案する。
以上の結果から,我々の合成高品位長文指導データにより,多量の人体で訓練したモデルよりも,モデル性能が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2024-09-03T13:30:00Z) - MASSTAR: A Multi-Modal and Large-Scale Scene Dataset with a Versatile Toolchain for Surface Prediction and Completion [25.44529512862336]
MASSTARはマルチモーダルなlArgeスケールのシーンデータセットであり、サーフAce predictionと完了のためのVerSatile Toolchainを備えている。
環境から生の3Dデータを処理するための汎用的で効率的なツールチェーンを開発した。
実世界の部分的なデータを含む1000以上のシーンレベルのモデルからなるサンプルデータセットを生成する。
論文 参考訳(メタデータ) (2024-03-18T11:35:18Z) - A Framework for Large Scale Synthetic Graph Dataset Generation [2.248608623448951]
この研究は、データセットをプロダクションサイズのグラフにスケールするスケーラブルな合成グラフ生成ツールを提案する。
このツールは、研究者にリリース可能なプロプライエタリなデータセットから、一連のパラメトリックモデルを学ぶ。
一連のデータセットにまたがるフレームワークの一般化可能性を示す。
論文 参考訳(メタデータ) (2022-10-04T22:41:33Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Scene-Aware
Ambidextrous Bin Picking via Physics-based Metaverse Synthesis [72.85526892440251]
本稿では,物理に基づくメタバース合成により構築した大規模写真リアリスティックビンピックデータセットであるMetaGraspNetを紹介する。
提案データセットは,82種類の記事に対して217kのRGBD画像を含み,オブジェクト検出,アモーダル認識,キーポイント検出,操作順序,および並列ジャウと真空グリップパー用のアンビデクストグリップラベルの完全なアノテーションを備える。
また,2.3k以上の完全アノテートされた高品質なRGBD画像からなる実際のデータセットを5段階の難易度と,異なるオブジェクトおよびレイアウト特性を評価するための見えないオブジェクトセットに分割する。
論文 参考訳(メタデータ) (2022-08-08T08:15:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。