論文の概要: nvBench 2.0: A Benchmark for Natural Language to Visualization under Ambiguity
- arxiv url: http://arxiv.org/abs/2503.12880v1
- Date: Mon, 17 Mar 2025 07:20:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:36:04.741364
- Title: nvBench 2.0: A Benchmark for Natural Language to Visualization under Ambiguity
- Title(参考訳): nvBench 2.0: あいまいさの下で自然言語から可視化するためのベンチマーク
- Authors: Tianqi Luo, Chuhan Huang, Leixian Shen, Boyan Li, Shuyu Shen, Wei Zeng, Nan Tang, Yuyu Luo,
- Abstract要約: 曖昧なシナリオでNL2VISシステムを評価するために設計された新しいベンチマークであるnvBench 2.0を紹介する。
nvBench 2.0には7,878の自然言語クエリと24,076の視覚化が含まれている。
また,nvBench 2.0をベースとしたLLMモデルであるStep-NL2VISを提案する。
- 参考スコア(独自算出の注目度): 10.917884908223288
- License:
- Abstract: Natural Language to Visualization (NL2VIS) enables users to create visualizations from natural language queries, making data insights more accessible. However, NL2VIS faces challenges in interpreting ambiguous queries, as users often express their visualization needs in imprecise language. To address this challenge, we introduce nvBench 2.0, a new benchmark designed to evaluate NL2VIS systems in scenarios involving ambiguous queries. nvBench 2.0 includes 7,878 natural language queries and 24,076 corresponding visualizations, derived from 780 tables across 153 domains. It is built using a controlled ambiguity-injection pipeline that generates ambiguous queries through a reverse-generation workflow. By starting with unambiguous seed visualizations and selectively injecting ambiguities, the pipeline yields multiple valid interpretations for each query, with each ambiguous query traceable to its corresponding visualization through step-wise reasoning paths. We evaluate various Large Language Models (LLMs) on their ability to perform ambiguous NL2VIS tasks using nvBench 2.0. We also propose Step-NL2VIS, an LLM-based model trained on nvBench 2.0, which enhances performance in ambiguous scenarios through step-wise preference optimization. Our results show that Step-NL2VIS outperforms all baselines, setting a new state-of-the-art for ambiguous NL2VIS tasks.
- Abstract(参考訳): 自然言語を可視化するNL2VIS(Natural Language to Visualization)は、自然言語クエリから視覚化を作成し、データインサイトをよりアクセスしやすくする。
しかし、NL2VISは曖昧なクエリを解釈する際の課題に直面している。
この課題に対処するために、不明瞭なクエリを含むシナリオにおいてNL2VISシステムを評価するために設計された新しいベンチマークであるnvBench 2.0を紹介する。
nvBench 2.0には7,878の自然言語クエリと24,076の視覚化が含まれている。
制御されたあいまいさ注入パイプラインを使用して構築され、逆生成ワークフローを通じてあいまいなクエリを生成する。
あいまいなシードビジュアライゼーションから始めて、曖昧さを選択的に注入することで、パイプラインは各クエリに対して複数の有効な解釈を出力し、各あいまいなクエリはステップワイズ推論パスを通じて対応するビジュアライゼーションにトレース可能である。
nvBench 2.0 を用いたあいまいな NL2VIS タスクの実行能力について,様々なLarge Language Model (LLM) の評価を行った。
また,nvBench 2.0に基づくLLMモデルであるStep-NL2VISを提案する。
以上の結果から,Step-NL2VISはすべてのベースラインを上回り,あいまいなNL2VISタスクの最先端化を実現している。
関連論文リスト
- Beyond Coarse-Grained Matching in Video-Text Retrieval [50.799697216533914]
きめ細かい評価のための新しいアプローチを導入する。
テストキャプションを自動的に生成することで,既存のデータセットにアプローチを適用することができる。
きめ細かい評価実験は、このアプローチがきめ細かな違いを理解するモデルの能力を高めることを実証している。
論文 参考訳(メタデータ) (2024-10-16T09:42:29Z) - VisEval: A Benchmark for Data Visualization in the Era of Large Language Models [12.077276008688065]
事前訓練された大規模言語モデル(LLM)の最近の進歩は、自然言語から可視化を生成するための新たな道を開いた。
本稿では,新しいNL2VISベンチマークであるVisEvalを提案する。
このデータセットには、146のデータベースをカバーする2,524の代表的なクエリが含まれており、正確にラベル付けされた基底真理とペアリングされている。
論文 参考訳(メタデータ) (2024-07-01T05:35:30Z) - AMBROSIA: A Benchmark for Parsing Ambiguous Questions into Database Queries [56.82807063333088]
我々は,新たなベンチマークであるAMBROSIAを導入し,テキスト・ツー・オープン・プログラムの開発を促進することを期待する。
私たちのデータセットには、3種類のあいまいさ(スコープのあいまいさ、アタッチメントのあいまいさ、あいまいさ)を示す質問が含まれている。
いずれの場合も、データベースのコンテキストが提供されてもあいまいさは持続する。
これは、スクラッチからデータベースを制御して生成する、新しいアプローチによって実現される。
論文 参考訳(メタデータ) (2024-06-27T10:43:04Z) - Automated Data Visualization from Natural Language via Large Language Models: An Exploratory Study [41.84915013818794]
The Natural Language to Visualization (NL2Vis) taskは、自然言語記述を接地テーブルの視覚表現に変換することを目的としている。
多くのディープラーニングベースのアプローチがNL2Vis向けに開発されているが、目に見えないデータベースや複数のテーブルにまたがるデータの視覚化には課題が続いている。
本稿では,Large Language Models (LLMs) の顕著な生成能力からインスピレーションを得て,その可能性を評価するための実証的研究を行う。
論文 参考訳(メタデータ) (2024-04-26T03:25:35Z) - SEED-Bench-2-Plus: Benchmarking Multimodal Large Language Models with Text-Rich Visual Comprehension [62.40482764691584]
MLLMのテキストに富んだ視覚的理解を評価するためのベンチマークSEED-Bench-2-Plusを紹介する。
私たちのベンチマークでは、チャート、マップ、ウェブの3つのカテゴリにまたがる、正確な人間のアノテーションによる2.3Kの多重選択質問で構成されています。
我々は,34の著名なMLLMを包含する徹底的な評価を行い,テキストリッチ視覚理解におけるMLLMの現在の限界を強調した。
論文 参考訳(メタデータ) (2024-04-25T17:39:35Z) - VISREAS: Complex Visual Reasoning with Unanswerable Questions [29.398956873585796]
本稿では,新しい視覚的質問応答データセットVISREASを紹介する。
それは、共通性とオブジェクト、属性、関係の差異をトラバースし、摂動することで構成される、応答可能で解決不可能なビジュアルクエリで構成されている。
このタスクのユニークな特徴は、回答する前のイメージに対する質問応答性を検証すること、そして最先端モデルの貧弱な性能が、新しいモジュラーベースラインであるLOGIC2VISIONの設計に影響を与えたことである。
論文 参考訳(メタデータ) (2024-02-23T00:12:10Z) - Prompt4Vis: Prompting Large Language Models with Example Mining and
Schema Filtering for Tabular Data Visualization [13.425454489560376]
本稿では,自然言語からデータビジュアライゼーションクエリを生成するフレームワークであるPrompt4Visを紹介する。
データビジュアライゼーションクエリを生成するためのテキスト・ツー・ビジュアリーに、インコンテキスト・ラーニングが導入される。
Prompt4Visは最先端(SOTA)のRGVisNetを約35.9%、開発とテストセットで71.3%上回っている。
論文 参考訳(メタデータ) (2024-01-29T10:23:47Z) - VELMA: Verbalization Embodiment of LLM Agents for Vision and Language
Navigation in Street View [81.58612867186633]
視覚と言語ナビゲーション(VLN)は、視覚的および自然言語の理解と空間的および時間的推論能力を必要とする。
VELMAは,2つのコンテキスト内例のみを用いて,ストリートビューでのナビゲーション指示に従うことができることを示す。
数千の例でLLMエージェントをさらに微調整し、従来の2つのデータセットのタスク完了に対する25%-30%の相対的な改善を実現した。
論文 参考訳(メタデータ) (2023-07-12T11:08:24Z) - Exploring Multi-Modal Representations for Ambiguity Detection &
Coreference Resolution in the SIMMC 2.0 Challenge [60.616313552585645]
会話型AIにおける効果的なあいまいさ検出と参照解決のためのモデルを提案する。
具体的には,TOD-BERTとLXMERTをベースとしたモデルを用いて,多数のベースラインと比較し,アブレーション実験を行う。
以上の結果から,(1)言語モデルでは曖昧さを検出するためにデータの相関を活用でき,(2)言語モデルではビジョンコンポーネントの必要性を回避できることがわかった。
論文 参考訳(メタデータ) (2022-02-25T12:10:02Z) - nvBench: A Large-Scale Synthesized Dataset for Cross-Domain Natural
Language to Visualization Task [15.009563490979689]
105ドメイン上の750テーブルから25,750(NL, VIS)のペアを含む,最初の大規模NL2VISベンチマークであるnvBenchを提案する。
nvBenchの品質は、23人の専門家と300人以上の群衆労働者によって広く検証されている。
論文 参考訳(メタデータ) (2021-12-24T03:33:20Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。