論文の概要: QTSumm: A New Benchmark for Query-Focused Table Summarization
- arxiv url: http://arxiv.org/abs/2305.14303v1
- Date: Tue, 23 May 2023 17:43:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 13:57:33.200265
- Title: QTSumm: A New Benchmark for Query-Focused Table Summarization
- Title(参考訳): QTSumm: クエリフォーカステーブル要約のための新しいベンチマーク
- Authors: Yilun Zhao, Zhenting Qi, Linyong Nan, Boyu Mi, Yixin Liu, Weijin Zou,
Simeng Han, Xiangru Tang, Yumo Xu, Arman Cohan, Dragomir Radev
- Abstract要約: QTSummは、さまざまなトピックに関する2,437のテーブル上に、5,625の人間アノテーション付きクエリサマリーペアで構成されている。
本稿では,QTSummデータセット上の最先端モデル(テキスト生成,テーブル・ツー・テキスト生成,大規模言語モデル)について検討する。
- 参考スコア(独自算出の注目度): 35.5868309455567
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: People primarily consult tables to conduct data analysis or answer specific
questions. Text generation systems that can provide accurate table summaries
tailored to users' information needs can facilitate more efficient access to
relevant data insights. However, existing table-to-text generation studies
primarily focus on converting tabular data into coherent statements, rather
than addressing information-seeking purposes. In this paper, we define a new
query-focused table summarization task, where text generation models have to
perform human-like reasoning and analysis over the given table to generate a
tailored summary, and we introduce a new benchmark named QTSumm for this task.
QTSumm consists of 5,625 human-annotated query-summary pairs over 2,437 tables
on diverse topics. Moreover, we investigate state-of-the-art models (i.e., text
generation, table-to-text generation, and large language models) on the QTSumm
dataset. Experimental results and manual analysis reveal that our benchmark
presents significant challenges in table-to-text generation for future
research.
- Abstract(参考訳): 人々は主に、データ分析や特定の質問に答えるためにテーブルをコンサルティングします。
ユーザの情報に合わせた正確な表要約を提供するテキスト生成システムは、関連するデータへのより効率的なアクセスを容易にする。
しかし、既存の表からテキストへの生成研究は主に、情報参照の目的ではなく、表データからコヒーレントステートメントへの変換に焦点を当てている。
本稿では,与えられたテーブル上でテキスト生成モデルが人間的な推論と分析を行なわなければならない,クエリ中心のテーブル要約タスクを定義し,このタスクにqtsummという新しいベンチマークを導入する。
QTSummは、さまざまなトピックに関する2,437のテーブル上に、5,625の人間アノテーション付きクエリサマリーペアで構成されている。
さらに,qtsummデータセットの最先端モデル(テキスト生成,テーブル間生成,大規模言語モデル)についても検討する。
実験結果と手動解析により,本ベンチマークはテーブル・ツー・テクスチャ生成における重要な課題を示す。
関連論文リスト
- TACT: Advancing Complex Aggregative Reasoning with Information Extraction Tools [51.576974932743596]
大規模言語モデル(LLM)は、テキスト間の情報の集約を必要とするクエリではよく機能しないことが多い。
TACTには、1つ以上のテキストに散らばる縫合情報を要求する難しい命令が含まれている。
既存のテキストと関連するテーブルのデータセットを活用することで、このデータセットを構築します。
現代のLLMはいずれも,このデータセットでは性能が悪く,精度が38%以下であることが実証された。
論文 参考訳(メタデータ) (2024-06-05T20:32:56Z) - TANQ: An open domain dataset of table answered questions [15.323690523538572]
TANQは、複数のソースにまたがる情報からテーブルを構築する必要がある、最初のオープンドメイン質問応答データセットである。
結果の表にあるすべてのセルに対する完全なソース属性を公開し、オープン、オラクル、クローズドブックのセットアップで最先端の言語モデルをベンチマークします。
最も優れたベースラインであるGPT4は、全体的なF1スコア29.1に達し、人間のパフォーマンスを19.7ポイント遅れています。
論文 参考訳(メタデータ) (2024-05-13T14:07:20Z) - QFMTS: Generating Query-Focused Summaries over Multi-Table Inputs [63.98556480088152]
表要約は、情報を簡潔で分かりやすいテキスト要約に凝縮するための重要な課題である。
本稿では,クエリ中心のマルチテーブル要約を導入することで,これらの制約に対処する新しい手法を提案する。
提案手法は,テーブルシリアライズモジュール,要約コントローラ,および大規模言語モデルからなり,ユーザの情報要求に合わせたクエリ依存のテーブル要約を生成する。
論文 参考訳(メタデータ) (2024-05-08T15:05:55Z) - Text-Tuple-Table: Towards Information Integration in Text-to-Table Generation via Global Tuple Extraction [36.915250638481986]
リアルタイムのコメンタリーテキストに基づいたコンペの要約表を生成するためのベンチマークデータセットであるLiveSumを紹介する。
我々は,このタスクにおける最先端の大規模言語モデルの性能を,微調整とゼロショットの両方で評価する。
さらに、パフォーマンスを改善するために、$T3$(Text-Tuple-Table)と呼ばれる新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:31:28Z) - Text2Analysis: A Benchmark of Table Question Answering with Advanced
Data Analysis and Unclear Queries [67.0083902913112]
高度な解析タスクを取り入れたText2Analysisベンチマークを開発した。
また,5つのイノベーティブかつ効果的なアノテーション手法を開発した。
3つの異なる指標を用いて5つの最先端モデルを評価する。
論文 参考訳(メタデータ) (2023-12-21T08:50:41Z) - ReTAG: Reasoning Aware Table to Analytic Text Generation [12.603569641254417]
ReTAGは、ベクトル量子化を用いて異なるタイプの解析的推論を出力に注入するテーブルおよび推論認識モデルである。
私たちは、ToTTo、InfoTabsデータセットを参照文毎に推論カテゴリで拡張(そして、オープンソースの35.6K分析、55.9k記述インスタンス)します。
論文 参考訳(メタデータ) (2023-05-19T17:03:09Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - FeTaQA: Free-form Table Question Answering [33.018256483762386]
FeTaQAは10Kのウィキペディアベースのテーブル、質問、自由形式の回答、テーブルセルペアをサポートする新しいデータセットである。
FeTaQAは、構造化された知識ソースから複数の不連続な事実の検索、推論、および統合後に自由形式のテキスト回答を生成する必要があるため、より困難なテーブル質問回答設定を提供する。
論文 参考訳(メタデータ) (2021-04-01T09:59:40Z) - Summarizing and Exploring Tabular Data in Conversational Search [36.14882974814593]
会話指向のオープンドメインテーブル要約データセットを新たに構築する。
注釈付きテーブルサマリーが含まれており、質問に答えるだけでなく、テーブル内の他の情報を探索するのに役立つ。
本データセットを用いて,SOTAベースラインとして自動テーブル要約システムの開発を行う。
論文 参考訳(メタデータ) (2020-05-23T08:29:51Z) - ToTTo: A Controlled Table-To-Text Generation Dataset [61.83159452483026]
ToTToはオープンドメインの英語のテーブル・トゥ・テキストのデータセットで、12万以上のトレーニングサンプルがある。
本稿では、ウィキペディアから既存の候補文を直接修正するデータセット構築プロセスを紹介する。
通常流動的であるが、既存の方法は多くの場合、表がサポートしていないフレーズを幻覚させる。
論文 参考訳(メタデータ) (2020-04-29T17:53:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。