論文の概要: ToTTo: A Controlled Table-To-Text Generation Dataset
- arxiv url: http://arxiv.org/abs/2004.14373v3
- Date: Tue, 6 Oct 2020 06:07:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 12:48:27.222657
- Title: ToTTo: A Controlled Table-To-Text Generation Dataset
- Title(参考訳): ToTTo: 制御されたテーブルからテキスト生成データセット
- Authors: Ankur P. Parikh, Xuezhi Wang, Sebastian Gehrmann, Manaal Faruqui,
Bhuwan Dhingra, Diyi Yang, Dipanjan Das
- Abstract要約: ToTToはオープンドメインの英語のテーブル・トゥ・テキストのデータセットで、12万以上のトレーニングサンプルがある。
本稿では、ウィキペディアから既存の候補文を直接修正するデータセット構築プロセスを紹介する。
通常流動的であるが、既存の方法は多くの場合、表がサポートしていないフレーズを幻覚させる。
- 参考スコア(独自算出の注目度): 61.83159452483026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present ToTTo, an open-domain English table-to-text dataset with over
120,000 training examples that proposes a controlled generation task: given a
Wikipedia table and a set of highlighted table cells, produce a one-sentence
description. To obtain generated targets that are natural but also faithful to
the source table, we introduce a dataset construction process where annotators
directly revise existing candidate sentences from Wikipedia. We present
systematic analyses of our dataset and annotation process as well as results
achieved by several state-of-the-art baselines. While usually fluent, existing
methods often hallucinate phrases that are not supported by the table,
suggesting that this dataset can serve as a useful research benchmark for
high-precision conditional text generation.
- Abstract(参考訳): 我々は,wikipediaテーブルと強調されたテーブルセルのセットが与えられた場合,一文記述を生成するという,制御された生成タスクを提案する12万以上のトレーニング例を持つ,オープンドメインの英語テーブルツーテキストデータセットであるtottoを提案する。
ソーステーブルに自然だが忠実な生成ターゲットを得るために、アノテータがウィキペディアから既存の候補文を直接修正するデータセット構築プロセスを導入する。
本稿では,我々のデータセットとアノテーションプロセスの系統的解析と,いくつかの最先端ベースラインによる結果について述べる。
既存の手法では、表でサポートされていないフレーズを幻覚的に表現することが多いため、このデータセットは高精度条件付きテキスト生成のための有用な研究ベンチマークとして機能することを示唆している。
関連論文リスト
- ArxivDIGESTables: Synthesizing Scientific Literature into Tables using Language Models [58.34560740973768]
本稿では,言語モデル(LM)を利用して文献レビュー表を生成するフレームワークを提案する。
ArXiv論文から抽出された2,228の文献レビューテーブルの新しいデータセットは、合計で7,542の論文を合成する。
我々は、LMが参照テーブルを再構築する能力を評価し、追加のコンテキストからこのタスクの利点を見出す。
論文 参考訳(メタデータ) (2024-10-25T18:31:50Z) - Is This a Bad Table? A Closer Look at the Evaluation of Table Generation from Text [21.699434525769586]
テーブルの品質評価のための既存の尺度は、テーブルの全体的なセマンティクスをキャプチャすることができない。
テーブルのセマンティクスをキャプチャするテーブル評価戦略であるTabEvalを提案する。
提案手法を検証するために,1250種類のウィキペディアテーブルのテキスト記述からなるデータセットをキュレートする。
論文 参考訳(メタデータ) (2024-06-21T02:18:03Z) - Text-Tuple-Table: Towards Information Integration in Text-to-Table Generation via Global Tuple Extraction [36.915250638481986]
リアルタイムのコメンタリーテキストに基づいたコンペの要約表を生成するためのベンチマークデータセットであるLiveSumを紹介する。
我々は,このタスクにおける最先端の大規模言語モデルの性能を,微調整とゼロショットの両方で評価する。
さらに、パフォーマンスを改善するために、$T3$(Text-Tuple-Table)と呼ばれる新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:31:28Z) - WikiTableEdit: A Benchmark for Table Editing by Natural Language
Instruction [56.196512595940334]
本稿では,表編集作業におけるLarge Language Models(LLM)の性能について検討する。
Wikiデータセットから26,531のテーブルを活用し、6つの異なる基本操作のための自然言語命令を生成する。
WikiTableEditデータセット上でいくつかの代表的大規模言語モデルを評価し,その課題を実証する。
論文 参考訳(メタデータ) (2024-03-05T13:33:12Z) - QTSumm: Query-Focused Summarization over Tabular Data [58.62152746690958]
人々は主に、データ分析を行うか、特定の質問に答えるためにテーブルをコンサルティングします。
そこで本研究では,テキスト生成モデルに人間的な推論を行なわなければならない,クエリ中心のテーブル要約タスクを新たに定義する。
このタスクには,2,934テーブル上の7,111の人間注釈付きクエリ-サマリーペアを含む,QTSummという新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:43:51Z) - CTE: A Dataset for Contextualized Table Extraction [1.1859913430860336]
データセットは、35k以上のテーブルを含む、75kの完全な注釈付き科学論文で構成されている。
PubMed Centralから収集されたデータは、PubTables-1MとPubLayNetデータセットのアノテーションによって提供される情報をマージする。
生成されたアノテーションは、ドキュメントレイアウト分析、テーブル検出、構造認識、機能解析など、さまざまなタスクのためのエンドツーエンドパイプラインの開発に使用することができる。
論文 参考訳(メタデータ) (2023-02-02T22:38:23Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。