FuguReport

DV-World: Benchmarking Data Visualization Agents in Real-World Scenarios

著者 Jinxiang Meng, Shaoping Huang, Fangyu Lei, Jingyu Guo, Haoxiang Liu, Jiahao Su, Sihan Wang, Yao Wang, Enrui Wang, Ye Yang, Hongze Chai, Jinming Lv, Anbang Yu, Huangjing Zhang, Yitong Zhang, Yiming Huang, Zeyao Ma, Shizhu He, Jun Zhao, Kang Liu
所属 Chinese Academy of Sciences / University of the Chinese Academy of Sciences / National University of Singapore / Renmin University of China
カテゴリ Evaluation / Benchmarking / Data visualization agent performance, Application / Data Visualization / Professional lifecycle tasks, Method / Agent / Cross-platform agent evaluation
ライセンス CC BY 4.0

Abstractの概要

DV-Worldは、データ可視化エージェントを孤立したコードサンドボックス環境ではなく、現実的な専門的ワークフローにおいて評価するために設計された260タスクのベンチマークである。3つのドメインで構成される:ネイティブスプレッドシートのチャート作成・診断修復・ダッシュボード構築を行うDV-Sheet、5つのプログラミングフレームワーク(Python、Apache ECharts、Vega-Lite、D3.js、Plotly.js)にわたって参照可視化を新しいデータに適応させるDV-Evol、そして二段階ユーザーシミュレーターを用いた曖昧なユーザー意図下でのマルチターン明確化を行うDV-Interである。本ベンチマークは、データ忠実性のためのTable-value Alignmentと、意味的・視覚的品質のためのルーブリックベースのMLLM-as-a-Judge、さらに対話タスク用のInteraction Success Rateを組み合わせたハイブリッド評価フレームワークを採用している。著者らはこれらの構成要素を、ネイティブ環境グラウンディング、クロスプラットフォーム進化、能動的な意図整合をテストする統合スイートとして位置づけている。

新規性

本論文は、ネイティブスプレッドシートのオブジェクトモデル操作、5つのパラダイムにわたるクロスフレームワーク可視化進化、検証済み二段階ユーザーシミュレーターによるインタラクティブな意図明確化を独自に組み合わせた、専門的データ可視化作業のライフサイクル全体にわたるベンチマークを導入している。また、ルールベースチェック、テーブルアライメント信号、ルーブリック誘導型MLLM判定、インタラクション成功指標を混合したハイブリッド評価設定を提案し、人間の判断との強い一致(主要判定者で重み付きκ = 0.821、ICC = 0.850)で検証されている。

成果

実験の結果、現在の最先端エージェントは3つのドメインすべてにおいて人間のベースラインを大幅に下回る性能を示した:報告された最高スコアはDV-Sheetで40.48%(Gemini-3-Pro)、DV-Evolで51.44%(Gemini-3-Pro)、DV-Interで40.43%(Grok-4)であり、人間のベースラインはそれぞれ80.81%、85.23%、79.60%であった。分析により、スプレッドシートのオブジェクトモデル処理、クロスパラダイムの意味的転写(特にD3.jsのような冗長なフレームワーク)、およびインタラクション中の効果的な明確化における繰り返し発生する弱点が明らかになった。

論文の注目点

  1. DV-Worldは、ネイティブスプレッドシート可視化(チャート作成・修復・ダッシュボード)、クロスフレームワーク可視化進化(Python、ECharts、Vega-Lite、D3.js、Plotly.js)、二段階ユーザーシミュレーターによるインタラクティブな曖昧性解消の3つの設定にわたる260のベンチマークタスクを定義している。
  2. ハイブリッド評価フレームワークは、データ忠実性のための定量的Table-value Alignmentと、ルーブリックベースのMLLM判定(人間専門家に対して重み付きκ = 0.821で検証)、および対話タスク用のInteraction Success Rate指標を組み合わせている。
  3. ベンチマーク結果は、主要エージェントでさえいずれのドメインでも52%未満のスコアにとどまり、人間のベースラインが79%以上であることと比較して、ネイティブオブジェクトモデルの習得、クロスパラダイムの意味保存、能動的な意図整合における重大な欠陥を露呈している。

参考リンク

このページはGPT-5、Claude Opus 4、Gemini 3、Gemini 3.1 Flash Image 及びその上位バージョンなどの生成AIを用いて作成されています。内容の保証は一切できません。