論文の概要: QTSumm: Query-Focused Summarization over Tabular Data
- arxiv url: http://arxiv.org/abs/2305.14303v2
- Date: Tue, 7 Nov 2023 04:53:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 19:46:56.185272
- Title: QTSumm: Query-Focused Summarization over Tabular Data
- Title(参考訳): QTSumm: タブラルデータに対するクエリ指向の要約
- Authors: Yilun Zhao, Zhenting Qi, Linyong Nan, Boyu Mi, Yixin Liu, Weijin Zou,
Simeng Han, Ruizhe Chen, Xiangru Tang, Yumo Xu, Dragomir Radev, Arman Cohan
- Abstract要約: 人々は主に、データ分析を行うか、特定の質問に答えるためにテーブルをコンサルティングします。
そこで本研究では,テキスト生成モデルに人間的な推論を行なわなければならない,クエリ中心のテーブル要約タスクを新たに定義する。
このタスクには,2,934テーブル上の7,111の人間注釈付きクエリ-サマリーペアを含む,QTSummという新しいベンチマークを導入する。
- 参考スコア(独自算出の注目度): 58.62152746690958
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: People primarily consult tables to conduct data analysis or answer specific
questions. Text generation systems that can provide accurate table summaries
tailored to users' information needs can facilitate more efficient access to
relevant data insights. Motivated by this, we define a new query-focused table
summarization task, where text generation models have to perform human-like
reasoning and analysis over the given table to generate a tailored summary. We
introduce a new benchmark named QTSumm for this task, which contains 7,111
human-annotated query-summary pairs over 2,934 tables covering diverse topics.
We investigate a set of strong baselines on QTSumm, including text generation,
table-to-text generation, and large language models. Experimental results and
manual analysis reveal that the new task presents significant challenges in
table-to-text generation for future research. Moreover, we propose a new
approach named ReFactor, to retrieve and reason over query-relevant information
from tabular data to generate several natural language facts. Experimental
results demonstrate that ReFactor can bring improvements to baselines by
concatenating the generated facts to the model input. Our data and code are
publicly available at https://github.com/yale-nlp/QTSumm.
- Abstract(参考訳): 人々は主に、データ分析や特定の質問に答えるためにテーブルをコンサルティングします。
ユーザの情報に合わせた正確な表要約を提供するテキスト生成システムは、関連するデータへのより効率的なアクセスを容易にする。
そこで本研究では,テキスト生成モデルが与えられたテーブル上で人間ライクな推論と解析を行い,調整した要約を生成する必要がある,新しい問合せ型テーブル要約タスクを定義する。
このタスクのために、QTSummという新しいベンチマークを導入し、多様なトピックをカバーする2,934のテーブル上に、7,111の人間による注釈付きクエリ-サマリーペアを含む。
テキスト生成,テーブル間生成,大規模言語モデルなど,qtsummの強力なベースラインのセットを調査した。
実験結果と手動による分析により,テーブル・ツー・テクスト生成における新たな課題が明らかとなった。
さらに,表データからクエリ関連情報を検索して推論し,複数の自然言語ファクトを生成するrefactorという新しい手法を提案する。
実験結果は、生成した事実をモデル入力に結合することで、リファクタリングがベースラインに改善をもたらすことを実証する。
私たちのデータとコードはhttps://github.com/yale-nlp/qtsummで公開されている。
関連論文リスト
- TACT: Advancing Complex Aggregative Reasoning with Information Extraction Tools [51.576974932743596]
大規模言語モデル(LLM)は、テキスト間の情報の集約を必要とするクエリではよく機能しないことが多い。
TACTには、1つ以上のテキストに散らばる縫合情報を要求する難しい命令が含まれている。
既存のテキストと関連するテーブルのデータセットを活用することで、このデータセットを構築します。
現代のLLMはいずれも,このデータセットでは性能が悪く,精度が38%以下であることが実証された。
論文 参考訳(メタデータ) (2024-06-05T20:32:56Z) - TANQ: An open domain dataset of table answered questions [15.323690523538572]
TANQは、複数のソースにまたがる情報からテーブルを構築する必要がある、最初のオープンドメイン質問応答データセットである。
結果の表にあるすべてのセルに対する完全なソース属性を公開し、オープン、オラクル、クローズドブックのセットアップで最先端の言語モデルをベンチマークします。
最も優れたベースラインであるGPT4は、全体的なF1スコア29.1に達し、人間のパフォーマンスを19.7ポイント遅れています。
論文 参考訳(メタデータ) (2024-05-13T14:07:20Z) - QFMTS: Generating Query-Focused Summaries over Multi-Table Inputs [63.98556480088152]
表要約は、情報を簡潔で分かりやすいテキスト要約に凝縮するための重要な課題である。
本稿では,クエリ中心のマルチテーブル要約を導入することで,これらの制約に対処する新しい手法を提案する。
提案手法は,テーブルシリアライズモジュール,要約コントローラ,および大規模言語モデルからなり,ユーザの情報要求に合わせたクエリ依存のテーブル要約を生成する。
論文 参考訳(メタデータ) (2024-05-08T15:05:55Z) - Text-Tuple-Table: Towards Information Integration in Text-to-Table Generation via Global Tuple Extraction [36.915250638481986]
リアルタイムのコメンタリーテキストに基づいたコンペの要約表を生成するためのベンチマークデータセットであるLiveSumを紹介する。
我々は,このタスクにおける最先端の大規模言語モデルの性能を,微調整とゼロショットの両方で評価する。
さらに、パフォーマンスを改善するために、$T3$(Text-Tuple-Table)と呼ばれる新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:31:28Z) - Text2Analysis: A Benchmark of Table Question Answering with Advanced
Data Analysis and Unclear Queries [67.0083902913112]
高度な解析タスクを取り入れたText2Analysisベンチマークを開発した。
また,5つのイノベーティブかつ効果的なアノテーション手法を開発した。
3つの異なる指標を用いて5つの最先端モデルを評価する。
論文 参考訳(メタデータ) (2023-12-21T08:50:41Z) - ReTAG: Reasoning Aware Table to Analytic Text Generation [12.603569641254417]
ReTAGは、ベクトル量子化を用いて異なるタイプの解析的推論を出力に注入するテーブルおよび推論認識モデルである。
私たちは、ToTTo、InfoTabsデータセットを参照文毎に推論カテゴリで拡張(そして、オープンソースの35.6K分析、55.9k記述インスタンス)します。
論文 参考訳(メタデータ) (2023-05-19T17:03:09Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - FeTaQA: Free-form Table Question Answering [33.018256483762386]
FeTaQAは10Kのウィキペディアベースのテーブル、質問、自由形式の回答、テーブルセルペアをサポートする新しいデータセットである。
FeTaQAは、構造化された知識ソースから複数の不連続な事実の検索、推論、および統合後に自由形式のテキスト回答を生成する必要があるため、より困難なテーブル質問回答設定を提供する。
論文 参考訳(メタデータ) (2021-04-01T09:59:40Z) - Summarizing and Exploring Tabular Data in Conversational Search [36.14882974814593]
会話指向のオープンドメインテーブル要約データセットを新たに構築する。
注釈付きテーブルサマリーが含まれており、質問に答えるだけでなく、テーブル内の他の情報を探索するのに役立つ。
本データセットを用いて,SOTAベースラインとして自動テーブル要約システムの開発を行う。
論文 参考訳(メタデータ) (2020-05-23T08:29:51Z) - ToTTo: A Controlled Table-To-Text Generation Dataset [61.83159452483026]
ToTToはオープンドメインの英語のテーブル・トゥ・テキストのデータセットで、12万以上のトレーニングサンプルがある。
本稿では、ウィキペディアから既存の候補文を直接修正するデータセット構築プロセスを紹介する。
通常流動的であるが、既存の方法は多くの場合、表がサポートしていないフレーズを幻覚させる。
論文 参考訳(メタデータ) (2020-04-29T17:53:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。