論文の概要: Text2Vis: A Challenging and Diverse Benchmark for Generating Multimodal Visualizations from Text
- arxiv url: http://arxiv.org/abs/2507.19969v1
- Date: Sat, 26 Jul 2025 14:59:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:56.563299
- Title: Text2Vis: A Challenging and Diverse Benchmark for Generating Multimodal Visualizations from Text
- Title(参考訳): Text2Vis: テキストからマルチモーダルビジュアライゼーションを生成するためのチェアリングとディバースベンチマーク
- Authors: Mizanur Rahman, Md Tahmid Rahman Laskar, Shafiq Joty, Enamul Hoque,
- Abstract要約: テキスト・ツー・ビジュアル化モデルを評価するためのベンチマークであるText2Visを紹介する。
1,985のサンプルからなり、それぞれにデータテーブル、自然言語クエリ、短い回答、視覚化コード、注釈付きチャートがある。
これは大きなパフォーマンスギャップを明らかにし、重要な課題を強調し、将来の進歩に対する洞察を提供する。
- 参考スコア(独自算出の注目度): 30.74255946385862
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated data visualization plays a crucial role in simplifying data interpretation, enhancing decision-making, and improving efficiency. While large language models (LLMs) have shown promise in generating visualizations from natural language, the absence of comprehensive benchmarks limits the rigorous evaluation of their capabilities. We introduce Text2Vis, a benchmark designed to assess text-to-visualization models, covering 20+ chart types and diverse data science queries, including trend analysis, correlation, outlier detection, and predictive analytics. It comprises 1,985 samples, each with a data table, natural language query, short answer, visualization code, and annotated charts. The queries involve complex reasoning, conversational turns, and dynamic data retrieval. We benchmark 11 open-source and closed-source models, revealing significant performance gaps, highlighting key challenges, and offering insights for future advancements. To close this gap, we propose the first cross-modal actor-critic agentic framework that jointly refines the textual answer and visualization code, increasing GPT-4o`s pass rate from 26% to 42% over the direct approach and improving chart quality. We also introduce an automated LLM-based evaluation framework that enables scalable assessment across thousands of samples without human annotation, measuring answer correctness, code execution success, visualization readability, and chart accuracy. We release Text2Vis at https://github.com/vis-nlp/Text2Vis.
- Abstract(参考訳): データビジュアライゼーションの自動化は、データの解釈を単純化し、意思決定を強化し、効率を向上させる上で重要な役割を果たす。
大規模言語モデル(LLM)は、自然言語から可視化を生成することを約束しているが、包括的なベンチマークがないため、その能力の厳密な評価は制限されている。
テキスト・ツー・ビジュアル化モデルを評価するために設計されたベンチマークであるText2Visを導入し、20以上のチャートタイプと、トレンド分析、相関、外れ値検出、予測分析を含む多様なデータサイエンスクエリをカバーする。
1,985のサンプルからなり、それぞれにデータテーブル、自然言語クエリ、短い回答、視覚化コード、注釈付きチャートがある。
クエリには複雑な推論、会話のターン、動的データ検索が含まれる。
11のオープンソースおよびクローズドソースモデルをベンチマークし、大きなパフォーマンスギャップを明らかにし、重要な課題を強調し、将来の進歩に対する洞察を提供する。
このギャップを埋めるために,テキスト応答と可視化コードを共同で洗練し,GPT-4oの通過率を26%から42%に向上し,チャート品質を向上させる,最初のクロスモーダル・アクター・クリティカル・エージェント・フレームワークを提案する。
また,人間のアノテーションや回答の正しさ,コード実行の成功,可視化の可読性,チャートの精度を計測することなく,数千のサンプルに対してスケーラブルな評価を可能にするLLMベースの自動評価フレームワークを導入する。
https://github.com/vis-nlp/Text2Vis.comでText2Visをリリースします。
関連論文リスト
- Text2Insight: Transform natural language text into insights seamlessly using multi-model architecture [0.0]
Text2Insightは、ユーザ定義の自然言語要求に基づいて、カスタマイズされたデータ分析と視覚化を提供する革新的なソリューションである。
解析能力を向上するため,BERTフレームワークを用いた質問応答モデルと予測モデルを統合した。
Text2Insightの性能評価は高い精度(99%)、精度(100%)、リコール(99%)、F1スコア(99%)、BLEUスコア0.5。
論文 参考訳(メタデータ) (2024-12-27T16:17:22Z) - Distill Visual Chart Reasoning Ability from LLMs to MLLMs [38.62832112530892]
マルチモーダル大言語モデル(MLLM)における複雑なチャートQ&Aタスクの解決には高度な視覚的推論能力が必要である
我々は,LLMからMLLMへの視覚的推論能力を蒸留するための費用効率,効率的,スケーラブルなデータ合成法であるCode-as-Intermediary Translation (CIT)を提案する。
我々は、テキストベースの合成技術を用いて、チャート作成コードを構築し、3kの推論集約チャートと20kのQ&Aペアを含むデータセットであるReachQAを作成した。
論文 参考訳(メタデータ) (2024-10-24T14:50:42Z) - PUB: Plot Understanding Benchmark and Dataset for Evaluating Large Language Models on Synthetic Visual Data Interpretation [2.1184929769291294]
本稿では,データ視覚化における大規模言語モデルの習熟度を評価するために設計された,新しい合成データセットを提案する。
我々のデータセットは、制御されたパラメータを使って生成され、潜在的な現実世界シナリオの包括的カバレッジが保証されます。
我々は、画像中の視覚データに関連する質問を多モーダルテキストプロンプトを用いて、いくつかの最先端モデルをベンチマークする。
論文 参考訳(メタデータ) (2024-09-04T11:19:17Z) - VisEval: A Benchmark for Data Visualization in the Era of Large Language Models [12.077276008688065]
事前訓練された大規模言語モデル(LLM)の最近の進歩は、自然言語から可視化を生成するための新たな道を開いた。
本稿では,新しいNL2VISベンチマークであるVisEvalを提案する。
このデータセットには、146のデータベースをカバーする2,524の代表的なクエリが含まれており、正確にラベル付けされた基底真理とペアリングされている。
論文 参考訳(メタデータ) (2024-07-01T05:35:30Z) - CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs [62.84082370758761]
CharXivは、arXiv論文の2,323のチャートを含む総合的な評価スイートである。
品質を確保するために、すべてのチャートと質問は、人間の専門家によって手書きされ、キュレーションされ、検証されます。
その結果、最強のプロプライエタリモデルの推論スキルの間に、かなり過小評価されていたギャップが明らかとなった。
論文 参考訳(メタデータ) (2024-06-26T17:50:11Z) - TextSquare: Scaling up Text-Centric Visual Instruction Tuning [62.878378882175284]
大規模かつ高品質な命令チューニングデータセットSquare-10Mを作成するための新しいアプローチを提案する。
われわれのモデルであるTextSquareは、最先端のText中心のMLLMをはるかに上回っている。
さらに、GPT4VやGeminiといったトップクラスのモデルでは、テキスト中心のベンチマークを10つ中6つで上回っている。
論文 参考訳(メタデータ) (2024-04-19T11:38:08Z) - ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models [92.60282074937305]
テキストリッチな画像に対して文脈に敏感な推論を必要とする人為的な命令を特徴とする新しいデータセットであるConTextualを紹介した。
そこで本研究では,14の基盤モデルの性能評価実験を行い,人為的な性能基準を確立する。
GPT-4Vとヒトのパフォーマンスの30.8%の有意な性能差を観察した。
論文 参考訳(メタデータ) (2024-01-24T09:07:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。