論文の概要: DV-World: Benchmarking Data Visualization Agents in Real-World Scenarios
- arxiv url: http://arxiv.org/abs/2604.25914v1
- Date: Tue, 28 Apr 2026 17:58:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.989176
- Title: DV-World: Benchmarking Data Visualization Agents in Real-World Scenarios
- Title(参考訳): DV-World: 実世界のシナリオにおけるデータ可視化エージェントのベンチマーク
- Authors: Jinxiang Meng, Shaoping Huang, Fangyu Lei, Jingyu Guo, Haoxiang Liu, Jiahao Su, Sihan Wang, Yao Wang, Enrui Wang, Ye Yang, Hongze Chai, Jinming Lv, Anbang Yu, Huangjing Zhang, Yitong Zhang, Yiming Huang, Zeyao Ma, Shizhu He, Jun Zhao, Kang Liu,
- Abstract要約: 実世界のデータ可視化(DV)には、ネイティブ環境の接地、クロスプラットフォームの進化、積極的な意図のアライメントが必要である。
DV-WorldはDVエージェントを現実のプロのライフサイクルにまたがって評価するための260のタスクのベンチマークである。
- 参考スコア(独自算出の注目度): 30.737466418739388
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world data visualization (DV) requires native environmental grounding, cross-platform evolution, and proactive intent alignment. Yet, existing benchmarks often suffer from code-sandbox confinement, single-language creation-only tasks, and assumption of perfect intent. To bridge these gaps, we introduce DV-World, a benchmark of 260 tasks designed to evaluate DV agents across real-world professional lifecycles. DV-World spans three domains: DV-Sheet for native spreadsheet manipulation including chart and dashboard creation as well as diagnostic repair; DV-Evolution for adapting and restructuring reference visual artifacts to fit new data across diverse programming paradigms and DV-Interact for proactive intent alignment with a user simulator that mimics real-world ambiguous requirements. Our hybrid evaluation framework integrates Table-value Alignment for numerical precision and MLLM-as-a-Judge with rubrics for semantic-visual assessment. Experiments reveal that state-of-the-art models achieve less than 50% overall performance, exposing critical deficits in handling the complex challenges of real-world data visualization. DV-World provides a realistic testbed to steer development toward the versatile expertise required in enterprise workflows. Our data and code are available at \href{https://github.com/DA-Open/DV-World}{this project page}.
- Abstract(参考訳): 実世界のデータ可視化(DV)には、ネイティブ環境の接地、クロスプラットフォームの進化、積極的な意図のアライメントが必要である。
しかし、既存のベンチマークはコードサンドボックスの制限、単一言語生成のみのタスク、完全な意図の仮定に悩まされることが多い。
これらのギャップを埋めるため、現実のプロのライフサイクルにまたがってDVエージェントを評価するために設計された260のタスクのベンチマークであるDV-Worldを紹介した。
DV-Worldは、チャートやダッシュボード作成を含むネイティブスプレッドシート操作のためのDV-Sheet、さまざまなプログラミングパラダイムにまたがる新しいデータに適合するように参照ビジュアルアーティファクトを適応および再構成するためのDV-Evolution、現実世界の曖昧な要求を模倣するユーザシミュレータとのアクティブなインテントアライメントのためのDV-Interactの3つの領域にまたがっている。
我々のハイブリッド評価フレームワークは、数値精度のためのテーブル値アライメントと、意味視覚評価のためのルーリックとMLLM-as-a-Judgeを統合している。
実験により、最先端のモデルは全体のパフォーマンスを50%以下に抑え、現実世界のデータ視覚化の複雑な課題に対処する上で重大な欠陥を露呈することが明らかになった。
DV-Worldは、エンタープライズワークフローに必要な汎用的な専門知識に向けて開発を進めるための現実的なテストベッドを提供する。
私たちのデータとコードは、 \href{https://github.com/DA-Open/DV-World}{this project page}で公開されています。
関連論文リスト
- FORGE: Fine-grained Multimodal Evaluation for Manufacturing Scenarios [58.34124792457706]
製造業セクターは、単純な認識から自律的な実行に移行するために、MLLM(Multimodal Large Language Models)をますます採用している。
進捗は、データの不足と、既存のデータセットにおけるきめ細かいドメインセマンティクスの欠如によって妨げられている。
まず、実世界の2D画像と3Dポイントクラウドを組み合わせて、微粒なドメインセマンティクスを付加した高品質なデータセットを構築します。
次に, 3 つの製造課題,すなわち, 構造面検査, 組立検査, 組立検証の18の最先端MLLMを評価し, 大幅な性能差を明らかにした。
論文 参考訳(メタデータ) (2026-04-08T12:23:27Z) - MURE: Hierarchical Multi-Resolution Encoding via Vision-Language Models for Visual Document Retrieval [111.99106496142474]
Visual Document Retrieval (VDR)は、微細な視覚的詳細とグローバルな文書構造の両方をキャプチャする表現を必要とする。
既存のVDRモデルは、高解像度文書を処理する際に効率と効率のバランスをとるのに苦労する。
本稿では,X-VisEmbパラダイムを提案する。X-VisEmbパラダイムは,多分解能サンプリングと符号化から,粒度横断的特徴融合から適応的表現蒸留へと進展する。
論文 参考訳(メタデータ) (2026-03-07T15:17:22Z) - Visual Self-Refine: A Pixel-Guided Paradigm for Accurate Chart Parsing [76.2602505940467]
既存のモデルは、しばしば視覚的に密集したチャートに苦しむため、データの欠落、修正ミス、幻覚などのエラーにつながる。
複雑なチャートを読む際の精度を確保するために指を視覚アンカーとして使うという人間の戦略に触発され、視覚自己認識(VSR)と呼ばれる新しいパラダイムを提案する。
VSRの中核となる考え方は、モデルがピクセルレベルのローカライゼーション出力を生成し、それらを視覚化し、それらの視覚化を自身にフィードバックし、直感的にその潜在的な視覚的認識エラーを検査し修正できるようにすることである。
論文 参考訳(メタデータ) (2026-02-18T13:40:53Z) - DAViD: Domain Adaptive Visually-Rich Document Understanding with Synthetic Insights [8.139817615390147]
本稿では,DAViD(Domain Adaptive Visually-rich Document Understanding)フレームワークを紹介する。
DAViDは細粒度と粗粒度の文書表現学習を統合し、コストのかかる手動ラベリングの必要性を減らすために合成アノテーションを使用する。
論文 参考訳(メタデータ) (2024-10-02T14:47:55Z) - DataVisT5: A Pre-trained Language Model for Jointly Understanding Text and Data Visualization [21.37997939694444]
データビジュアライゼーション(DV)に適した新しいPLMであるDataVisT5を紹介する。
DVにおけるT5やBERTのようなPLMは、クロスモーダル情報を扱う上での高コストと課題によって制限されている。
公開データセットの大規模な評価は、DataVisT5がさまざまなDV関連タスクにおける現在の最先端モデルよりも一貫して優れていることを示している。
論文 参考訳(メタデータ) (2024-08-14T09:20:17Z) - Benchmark Granularity and Model Robustness for Image-Text Retrieval [44.045767657945895]
データセットの粒度とクエリの摂動が検索性能とロバスト性にどのように影響するかを示す。
よりリッチなキャプションは、特にテキスト・ツー・イメージタスクにおいて、検索を継続的に強化することを示す。
本研究は, モデル頑健性の変化とキャプション粒度と感度摂動のデータセット依存的関係に着目した。
論文 参考訳(メタデータ) (2024-07-21T18:08:44Z) - BEHAVIOR Vision Suite: Customizable Dataset Generation via Simulation [57.40024206484446]
我々は、コンピュータビジョンモデルの体系的評価のために、完全にカスタマイズされた合成データを生成するためのツールと資産のセットであるBEHAVIOR Vision Suite(BVS)を紹介する。
BVSはシーンレベルで多数の調整可能なパラメータをサポートする。
アプリケーションシナリオを3つ紹介する。
論文 参考訳(メタデータ) (2024-05-15T17:57:56Z) - The Role of the Input in Natural Language Video Description [60.03448250024277]
自然言語ビデオ記述(NLVD)は最近、コンピュータビジョン、自然言語処理、マルチメディア、自律型ロボティクスのコミュニティに強い関心を集めている。
本研究は, 視覚入力の役割に関する広範な研究を行い, 総合的なNLP性能について評価した。
t-SNEをベースとした解析を行い,検討した変換が全体的視覚データ分布に与える影響を評価する。
論文 参考訳(メタデータ) (2021-02-09T19:00:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。