論文の概要: VisEval: A Benchmark for Data Visualization in the Era of Large Language Models
- arxiv url: http://arxiv.org/abs/2407.00981v2
- Date: Wed, 7 Aug 2024 09:52:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-08 15:05:56.642443
- Title: VisEval: A Benchmark for Data Visualization in the Era of Large Language Models
- Title(参考訳): VisEval: 大規模言語モデルの時代におけるデータの可視化のためのベンチマーク
- Authors: Nan Chen, Yuge Zhang, Jiahang Xu, Kan Ren, Yuqing Yang,
- Abstract要約: 事前訓練された大規模言語モデル(LLM)の最近の進歩は、自然言語から可視化を生成するための新たな道を開いた。
本稿では,新しいNL2VISベンチマークであるVisEvalを提案する。
このデータセットには、146のデータベースをカバーする2,524の代表的なクエリが含まれており、正確にラベル付けされた基底真理とペアリングされている。
- 参考スコア(独自算出の注目度): 12.077276008688065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Translating natural language to visualization (NL2VIS) has shown great promise for visual data analysis, but it remains a challenging task that requires multiple low-level implementations, such as natural language processing and visualization design. Recent advancements in pre-trained large language models (LLMs) are opening new avenues for generating visualizations from natural language. However, the lack of a comprehensive and reliable benchmark hinders our understanding of LLMs' capabilities in visualization generation. In this paper, we address this gap by proposing a new NL2VIS benchmark called VisEval. Firstly, we introduce a high-quality and large-scale dataset. This dataset includes 2,524 representative queries covering 146 databases, paired with accurately labeled ground truths. Secondly, we advocate for a comprehensive automated evaluation methodology covering multiple dimensions, including validity, legality, and readability. By systematically scanning for potential issues with a number of heterogeneous checkers, VisEval provides reliable and trustworthy evaluation outcomes. We run VisEval on a series of state-of-the-art LLMs. Our evaluation reveals prevalent challenges and delivers essential insights for future advancements.
- Abstract(参考訳): 自然言語から可視化への変換(NL2VIS)は、ビジュアルデータ分析において非常に有望であるが、自然言語処理や視覚化設計など、複数の低レベル実装を必要とする課題である。
事前訓練された大規模言語モデル(LLM)の最近の進歩は、自然言語から可視化を生成するための新たな道を開いた。
しかし、総合的で信頼性の高いベンチマークが欠如していることは、可視化生成におけるLLMの能力の理解を妨げる。
本稿では,VesEvalと呼ばれる新しいNL2VISベンチマークを提案することで,このギャップに対処する。
まず,高品質で大規模なデータセットを紹介する。
このデータセットには、146のデータベースをカバーする2,524の代表的なクエリが含まれており、正確にラベル付けされた基底真理とペアリングされている。
第2に,有効性,合法性,可読性など,複数の側面を網羅した総合的自動評価手法を提案する。
多くの異種チェッカーによる潜在的な問題を体系的にスキャンすることで、VisEvalは信頼性と信頼性の高い評価結果を提供する。
私たちはVisEvalを最先端のLLMで実行しています。
本評価では,今後の課題を明らかにするとともに,今後の進歩に不可欠な洞察を提供する。
関連論文リスト
- VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - FineCops-Ref: A new Dataset and Task for Fine-Grained Compositional Referring Expression Comprehension [10.482908189805872]
Referring Expression (REC) は言語理解能力、画像理解能力、言語と画像の接地能力を客観的に評価する重要なクロスモーダルタスクである。
我々は2つの重要な特徴を特徴とする新しいRECデータセットを構築した。
これには、既存のデータに基づいて微細な編集と生成によって作成された否定的なテキストと画像が含まれる。
論文 参考訳(メタデータ) (2024-09-23T06:56:51Z) - PUB: Plot Understanding Benchmark and Dataset for Evaluating Large Language Models on Synthetic Visual Data Interpretation [2.1184929769291294]
本稿では,データ視覚化における大規模言語モデルの習熟度を評価するために設計された,新しい合成データセットを提案する。
我々のデータセットは、制御されたパラメータを使って生成され、潜在的な現実世界シナリオの包括的カバレッジが保証されます。
我々は、画像中の視覚データに関連する質問を多モーダルテキストプロンプトを用いて、いくつかの最先端モデルをベンチマークする。
論文 参考訳(メタデータ) (2024-09-04T11:19:17Z) - Are Large Vision Language Models up to the Challenge of Chart Comprehension and Reasoning? An Extensive Investigation into the Capabilities and Limitations of LVLMs [11.19928977117624]
自然言語は、バーやラインチャートのようなデータ視覚化のためのコミュニケーションの強力な補完的モダリティである。
近年,チャート質問応答,チャート要約,ファクトチェックなど,さまざまなダウンストリームタスクが導入されている。
これらのタスクはユニークな課題であり、視覚言語推論とグラフデータテーブル、ビジュアルエンコーディング、自然言語プロンプトの微妙な理解の両方を要求する。
本稿では,最近開発された大規模視覚言語モデル(LVLM)の総合的な評価を,チャート理解と推論のタスクに対して行った。
論文 参考訳(メタデータ) (2024-06-01T01:43:30Z) - Automated Data Visualization from Natural Language via Large Language Models: An Exploratory Study [41.84915013818794]
The Natural Language to Visualization (NL2Vis) taskは、自然言語記述を接地テーブルの視覚表現に変換することを目的としている。
多くのディープラーニングベースのアプローチがNL2Vis向けに開発されているが、目に見えないデータベースや複数のテーブルにまたがるデータの視覚化には課題が続いている。
本稿では,Large Language Models (LLMs) の顕著な生成能力からインスピレーションを得て,その可能性を評価するための実証的研究を行う。
論文 参考訳(メタデータ) (2024-04-26T03:25:35Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models [50.653838482083614]
本稿では,IT-LVLMの基本的なコンピュータビジョンタスクにおける能力を評価するために,スケーラブルなテストベッドを提案する。
MERLIMには300K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
論文 参考訳(メタデータ) (2023-12-03T16:39:36Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - ELEVATER: A Benchmark and Toolkit for Evaluating Language-Augmented
Visual Models [102.63817106363597]
ELEVATERは、事前訓練された言語拡張ビジュアルモデルの比較と評価を行う最初のベンチマークである。
20の画像分類データセットと35のオブジェクト検出データセットで構成され、それぞれが外部知識で拡張されている。
研究コミュニティ向けのツールキットと評価プラットフォームをリリースします。
論文 参考訳(メタデータ) (2022-04-19T10:23:42Z) - e-ViL: A Dataset and Benchmark for Natural Language Explanations in
Vision-Language Tasks [52.918087305406296]
説明可能な視覚言語タスクを評価するベンチマークe-ViLを紹介します。
また、NLEで最大のデータセットであるe-SNLI-VEについても紹介する。
画像とテキストの共同埋め込みを学習するUNITERと、予め訓練された言語モデルであるGPT-2を組み合わせた新しいモデルを提案する。
論文 参考訳(メタデータ) (2021-05-08T18:46:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。