論文の概要: STOAT: Structured Data to Analytical Text With Controls
- arxiv url: http://arxiv.org/abs/2305.11826v1
- Date: Fri, 19 May 2023 17:03:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 13:21:37.891976
- Title: STOAT: Structured Data to Analytical Text With Controls
- Title(参考訳): STOAT: 構造化データから分析テキストへの制御
- Authors: Deepanway Ghosal and Preksha Nema and Aravindan Raghuveer
- Abstract要約: 本稿では, 数値推論, 常識推論, 時間的推論, 表知識, 実体知識の順に, 制御可能な表からテキスト生成に焦点をあてる。
本稿では,ベクトル量子化を用いたテーブルと推論を意識したSTOATモデルを提案する。
解析文タスクに対するiToTToおよびInfotabsにおけるPARENT測定値の10.19%,1.13%の改善を提供する。
- 参考スコア(独自算出の注目度): 12.933464773424323
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent language models have made tremendous progress in the structured data
to text generation task. However, these models still give sub-optimal
performance where logical inference is required to generate the descriptions.
In this work, we specifically focus on analytical text generation from
structured data such as tables. Building on the taxonomy proposed in (Gupta et
al., 2020) we focus on controllable table to text generation for the following
reasoning categories: numerical reasoning, commonsense reasoning, temporal
reasoning, table knowledge, and entity knowledge. We propose STOAT model, which
is table and reasoning aware, with vector-quantization to infuse the given
reasoning categories in the output. We observe that our model provides 10.19%,
1.13% improvement on the PARENT metric in iToTTo and Infotabs for the
analytical sentence task. We also found that our model generates 15.3% more
faithful and analytical descriptions as compared to the baseline models in
human evaluation. We curate and release two reasoning category annotated
table-to-interesting text generation datasets based on the ToTTo (Parikh et
al., 2020) and InfoTabs datasets (Gupta et al.,2020).
- Abstract(参考訳): 最近の言語モデルは構造化データからテキスト生成タスクに多大な進歩を遂げている。
しかしながら、これらのモデルは、記述を生成するために論理的推論を必要とする場合、サブ最適性能を提供する。
本研究では,テーブルなどの構造化データから分析テキストを生成することに焦点を当てる。
gupta et al., 2020で提案された分類法に基づいて,数値推論,コモンセンス推論,時間推論,表知識,エンティティ知識といった,テキスト生成のための制御可能なテーブルに注目した。
本稿では,与えられた推論カテゴリを出力に注入するために,ベクトル量子化を用いて表と推論を意識したstatモデルを提案する。
分析文タスクでは, itotto と infotabs の親メトリクスに対して10.19%, 1.13% の改善が得られている。
また,本モデルでは,人体評価におけるベースラインモデルと比較して,忠実で分析的な記述が15.3%増加した。
totto (parikh et al., 2020) とinfotabs dataset (gupta et al.,2020) に基づく2つの推論カテゴリをアノテートしたテーブル間テキスト生成データセットをキュレートし,公開する。
関連論文リスト
- ArxivDIGESTables: Synthesizing Scientific Literature into Tables using Language Models [58.34560740973768]
本稿では,言語モデル(LM)を利用して文献レビュー表を生成するフレームワークを提案する。
ArXiv論文から抽出された2,228の文献レビューテーブルの新しいデータセットは、合計で7,542の論文を合成する。
我々は、LMが参照テーブルを再構築する能力を評価し、追加のコンテキストからこのタスクの利点を見出す。
論文 参考訳(メタデータ) (2024-10-25T18:31:50Z) - Is This a Bad Table? A Closer Look at the Evaluation of Table Generation from Text [21.699434525769586]
テーブルの品質評価のための既存の尺度は、テーブルの全体的なセマンティクスをキャプチャすることができない。
テーブルのセマンティクスをキャプチャするテーブル評価戦略であるTabEvalを提案する。
提案手法を検証するために,1250種類のウィキペディアテーブルのテキスト記述からなるデータセットをキュレートする。
論文 参考訳(メタデータ) (2024-06-21T02:18:03Z) - TDeLTA: A Light-weight and Robust Table Detection Method based on
Learning Text Arrangement [34.73880086005418]
本稿では,学習テキストアレンジメント(TDeLTA)に基づく新しい,軽量で堅牢なテーブル検出手法を提案する。
表を正確に特定するために,表内の意味的役割に応じてテキストブロックを4つのカテゴリに分類するテキスト分類タスクを設計する。
いくつかの最先端の手法と比較して、TDeLTAは大規模な公開データセットの3.1Mモデルパラメータで競合する結果を得る。
論文 参考訳(メタデータ) (2023-12-18T09:18:43Z) - HeLM: Highlighted Evidence augmented Language Model for Enhanced Table-to-Text Generation [7.69801337810352]
LLaMA2モデル上でパラメータ効率の良い微調整を行う。
我々のアプローチは、テーブル固有の行データを強調することにより、推論情報を入力に注入することである。
FetaQAデータセットとQTSummデータセットの両方で、我々のアプローチは最先端の結果を得た。
論文 参考訳(メタデータ) (2023-11-15T12:02:52Z) - QTSumm: Query-Focused Summarization over Tabular Data [58.62152746690958]
人々は主に、データ分析を行うか、特定の質問に答えるためにテーブルをコンサルティングします。
そこで本研究では,テキスト生成モデルに人間的な推論を行なわなければならない,クエリ中心のテーブル要約タスクを新たに定義する。
このタスクには,2,934テーブル上の7,111の人間注釈付きクエリ-サマリーペアを含む,QTSummという新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:43:51Z) - Doc2SoarGraph: Discrete Reasoning over Visually-Rich Table-Text
Documents via Semantic-Oriented Hierarchical Graphs [79.0426838808629]
視覚的にリッチなテーブルテキスト文書に答えるTAT-DQAを提案する。
具体的には、離散推論機能を強化した新しいDoc2SoarGraphフレームワークを提案する。
我々は,TAT-DQAデータセットに関する広範な実験を行い,提案したフレームワークは,テストセット上でのエクサクティマッチ(EM)とF1スコアでそれぞれ17.73%,F1スコアで16.91%の最高のベースラインモデルを上回る結果を得た。
論文 参考訳(メタデータ) (2023-05-03T07:30:32Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z) - Towards Faithful Neural Table-to-Text Generation with Content-Matching
Constraints [63.84063384518667]
そこで本研究では,トランスフォーマーをベースとした新たな生成フレームワークを提案する。
忠実度を強制する手法の中核となる技術は、テーブル-テキストの最適トランスポート・マッチング・ロスである。
忠実度を評価するため,テーブル・ツー・テキスト生成問題に特化した新しい自動尺度を提案する。
論文 参考訳(メタデータ) (2020-05-03T02:54:26Z) - ToTTo: A Controlled Table-To-Text Generation Dataset [61.83159452483026]
ToTToはオープンドメインの英語のテーブル・トゥ・テキストのデータセットで、12万以上のトレーニングサンプルがある。
本稿では、ウィキペディアから既存の候補文を直接修正するデータセット構築プロセスを紹介する。
通常流動的であるが、既存の方法は多くの場合、表がサポートしていないフレーズを幻覚させる。
論文 参考訳(メタデータ) (2020-04-29T17:53:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。