論文の概要: Learning to Reason for Text Generation from Scientific Tables
- arxiv url: http://arxiv.org/abs/2104.08296v1
- Date: Fri, 16 Apr 2021 18:01:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-20 14:17:52.210920
- Title: Learning to Reason for Text Generation from Scientific Tables
- Title(参考訳): 科学表からのテキスト生成のための推論学習
- Authors: Nafise Sadat Moosavi, Andreas R\"uckl\'e, Dan Roth, Iryna Gurevych
- Abstract要約: SciGenは、テキスト間のデータ生成を推論するタスクのための新しいチャレンジデータセットです。
科学的なテーブルの記述は表の内容の表面的な実現を越えて、テーブルの価値上の推論を要求します。
本研究は,scigenにおける最先端データ対テキスト生成モデルの有効性について検討し,共通指標と人的評価を用いて結果を評価する。
- 参考スコア(独自算出の注目度): 100.61286775597947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce SciGen, a new challenge dataset for the task of
reasoning-aware data-to-text generation consisting of tables from scientific
articles and their corresponding descriptions. Describing scientific tables
goes beyond the surface realization of the table content and requires reasoning
over table values. The unique properties of SciGen are that (1) tables mostly
contain numerical values, and (2) the corresponding descriptions require
arithmetic reasoning. SciGen is therefore the first dataset that assesses the
arithmetic reasoning capabilities of generation models on complex input
structures, i.e., tables from scientific articles. We study the effectiveness
of state-of-the-art data-to-text generation models on SciGen and evaluate the
results using common metrics as well as human evaluation. Our results and
analyses show that (a) while humans like to reason for describing scientific
tables, the ability of state-of-the-art models is severely limited on this
task, (b) while adding more training data improves the results, it is not the
solution for reasoning-aware text generation, and (c) one of the main
bottlenecks for this task is the lack of proper automatic evaluation metrics.
The data, code, and annotations for human evaluation will be available at
https://github.com/UKPLab/SciGen. SciGen opens new avenues for future research
in reasoning-aware text generation and evaluation.
- Abstract(参考訳): 本稿では,科学論文の表とそれに対応する記述からなる推論・認識データ対テキスト生成タスクのための,新たなチャレンジデータセットであるscigenを紹介する。
科学的な表を記述することは、表の内容の表面的実現を超えて、表の値に対する推論を必要とする。
scigenのユニークな性質は、(1)テーブルが主に数値を含むこと、(2)対応する記述には算術的推論が必要であることである。
従ってscigenは、複雑な入力構造、すなわち科学論文の表における生成モデルの算術推論能力を評価する最初のデータセットである。
本研究は,scigenにおける最先端データ対テキスト生成モデルの有効性について検討し,共通指標と人的評価を用いて結果を評価する。
実験結果と分析結果から, (a) 人間が科学的な表を記述することを好む一方で, 最先端モデルの能力はこのタスクにおいて著しく制限されており, (b) より多くのトレーニングデータを追加することで結果が改善される一方で, 推論を意識したテキスト生成の解決策ではなく, (c) 適切な自動評価指標が欠如していることが示唆された。
人間の評価のためのデータ、コード、アノテーションはhttps://github.com/UKPLab/SciGen.comで入手できる。
SciGenは、推論対応のテキスト生成と評価における将来の研究のための新たな道を開く。
関連論文リスト
- ArxivDIGESTables: Synthesizing Scientific Literature into Tables using Language Models [58.34560740973768]
本稿では,言語モデル(LM)を利用して文献レビュー表を生成するフレームワークを提案する。
ArXiv論文から抽出された2,228の文献レビューテーブルの新しいデータセットは、合計で7,542の論文を合成する。
我々は、LMが参照テーブルを再構築する能力を評価し、追加のコンテキストからこのタスクの利点を見出す。
論文 参考訳(メタデータ) (2024-10-25T18:31:50Z) - How Robust are the Tabular QA Models for Scientific Tables? A Study using Customized Dataset [23.822733961152103]
SciTabQAは、科学的異種データに対する質問応答を研究する革新的なデータセットである。
3つの最先端のタブラルQAモデルをベンチマークした結果、最良のF1スコアは0.462であることがわかった。
論文 参考訳(メタデータ) (2024-03-30T15:48:49Z) - Towards Controlled Table-to-Text Generation with Scientific Reasoning [46.87189607486007]
本稿では,科学的文書分析の自動化を目的とした,科学的データに対するユーザの嗜好に合致する,流動的で論理的な記述を生成するための新しいタスクを提案する。
学術文献から抽出したテーブル記述ペアからなる新しい挑戦的データセットSciTabを構築し,強調されたセルとそれに対応するドメイン固有知識ベースを構築した。
その結果、大規模なモデルでは、ユーザの好みに合わせて正確なコンテンツを生成するのに苦労していることがわかりました。
論文 参考訳(メタデータ) (2023-12-08T22:57:35Z) - QTSumm: Query-Focused Summarization over Tabular Data [58.62152746690958]
人々は主に、データ分析を行うか、特定の質問に答えるためにテーブルをコンサルティングします。
そこで本研究では,テキスト生成モデルに人間的な推論を行なわなければならない,クエリ中心のテーブル要約タスクを新たに定義する。
このタスクには,2,934テーブル上の7,111の人間注釈付きクエリ-サマリーペアを含む,QTSummという新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:43:51Z) - Leveraging Data Recasting to Enhance Tabular Reasoning [21.970920861791015]
これまでの作業は、主に2つのデータ生成戦略に依存していた。
ひとつは人間のアノテーションで、言語学的に多様なデータを生成するが、拡張は困難である。
第2のカテゴリは合成生成であり、スケーラブルで費用対効果があるが、発明性に欠ける。
論文 参考訳(メタデータ) (2022-11-23T00:04:57Z) - Sketch and Refine: Towards Faithful and Informative Table-to-Text
Generation [58.320248632121476]
自己回帰世代と非自己回帰世代(SANA)を組み合わせた新しい2段階法を提案する。
提案手法は,(1)ソーステーブルからキートークンを選択するための自己回帰ポインタネットワークを用いた骨格生成,(2)反復挿入と削除操作によるテキスト生成のための編集ベースの非自己回帰生成モデルを含む。
骨格から厳しい制約を統合することで、非自己回帰モデルはソーステーブル上の生成のカバレッジを改善し、その忠実性を高める。
論文 参考訳(メタデータ) (2021-05-31T08:18:13Z) - Logical Natural Language Generation from Open-Domain Tables [107.04385677577862]
本稿では,その事実に関連付けられた自然言語文をモデルで生成するタスクを提案する。
提案した論理的 NLG 問題の研究を容易にするために,幅広い論理的・記号的推論を特徴とする既存の TabFact データセットcitechen 2019tabfact を用いる。
新しいタスクは、シーケンス順序と論理順序のミスマッチのため、既存のモノトニック生成フレームワークに課題をもたらす。
論文 参考訳(メタデータ) (2020-04-22T06:03:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。