論文の概要: Revisiting Challenges in Data-to-Text Generation with Fact Grounding
- arxiv url: http://arxiv.org/abs/2001.03830v1
- Date: Sun, 12 Jan 2020 02:31:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-12 04:40:40.705117
- Title: Revisiting Challenges in Data-to-Text Generation with Fact Grounding
- Title(参考訳): Fact Grounding を用いたデータ・テキスト生成における課題の再考
- Authors: Hongmin Wang
- Abstract要約: 大規模データセットであるRotoWire-FG(Ground-Facting)を導入し、2017-19年のデータは50%増加した。
我々は,テーブル再構築の新たな形式を統合することにより,最先端モデルに対するデータ忠実度の向上を実現した。
- 参考スコア(独自算出の注目度): 2.969705152497174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data-to-text generation models face challenges in ensuring data fidelity by
referring to the correct input source. To inspire studies in this area, Wiseman
et al. (2017) introduced the RotoWire corpus on generating NBA game summaries
from the box- and line-score tables. However, limited attempts have been made
in this direction and the challenges remain. We observe a prominent bottleneck
in the corpus where only about 60% of the summary contents can be grounded to
the boxscore records. Such information deficiency tends to misguide a
conditioned language model to produce unconditioned random facts and thus leads
to factual hallucinations. In this work, we restore the information balance and
revamp this task to focus on fact-grounded data-to-text generation. We
introduce a purified and larger-scale dataset, RotoWire-FG (Fact-Grounding),
with 50% more data from the year 2017-19 and enriched input tables, hoping to
attract more research focuses in this direction. Moreover, we achieve improved
data fidelity over the state-of-the-art models by integrating a new form of
table reconstruction as an auxiliary task to boost the generation quality.
- Abstract(参考訳): データ対テキスト生成モデルは、正しい入力ソースを参照してデータの忠実性を保証するという課題に直面している。
この分野の研究を刺激するために、ワイズマンらは、ボックステーブルとラインスコアテーブルからnbaゲームサマリーを生成するために、rotowireコーパスを導入した。
しかし、この方向に限定的な試みが行われ、課題は残る。
我々は,要約内容の約60%しかボックススコアレコードに接地できないコーパスにおける顕著なボトルネックを観察する。
このような情報不足は、条件付き言語モデルが無条件の無作為な事実を生み出すことを誤認し、結果として事実的幻覚を引き起こす傾向がある。
本研究では,情報バランスを回復し,実地データ・テキスト生成に重点を置いたタスクを改良する。
我々は、2017-19年の50パーセント以上のデータと豊富な入力テーブルを備えた、浄化された大規模データセットであるRotoWire-FG(Fact-Grounding)を導入し、この方向へのさらなる研究の焦点を期待している。
さらに,新たなテーブル再構成を補助タスクとして統合することで,最先端モデルに対するデータ忠実度の向上を実現し,生成品質を向上する。
関連論文リスト
- Towards Robustness of Text-to-Visualization Translation against Lexical and Phrasal Variability [27.16741353384065]
テキスト・トゥ・バイ・モデルはしばしば、質問における単語間の語彙マッチングとデータスキーマにおけるトークンに依存している。
本研究では,これまで検討されていない領域である現行のテキスト・ツー・ヴィジュア・モデルのロバスト性について検討する。
本稿では,2つの変種における入力摂動に対処するために特別に設計されたGRED(Retrieval-Augmented Generation, RAG)技術に基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-10T16:12:50Z) - Groundedness in Retrieval-augmented Long-form Generation: An Empirical Study [61.74571814707054]
検索した文書やモデルの事前学習データに生成されたすべての文が接地されているかどうかを評価する。
3つのデータセットと4つのモデルファミリーにまたがって、生成した文のかなりの部分が一貫してアングラウンド化されていることが明らかとなった。
以上の結果から,より大きなモデルではアウトプットをより効果的に基礎づける傾向にあるものの,正解のかなりの部分が幻覚によって損なわれていることが示唆された。
論文 参考訳(メタデータ) (2024-04-10T14:50:10Z) - NumHG: A Dataset for Number-Focused Headline Generation [28.57003500212883]
見出し生成(英: Headline generation)は、抽象的な要約において重要なタスクであり、全長の記事を簡潔で単行のテキストに凝縮しようと試みている。
我々はNumHGという新しいデータセットを導入し、27,000以上の注釈付き数字に富んだニュース記事を詳細な調査のために提供している。
我々は,従来の見出し生成タスクから,数値的精度,妥当性,可読性の観点から,人間の評価を用いて5つの優れたモデルを評価する。
論文 参考訳(メタデータ) (2023-09-04T09:03:53Z) - QTSumm: Query-Focused Summarization over Tabular Data [58.62152746690958]
人々は主に、データ分析を行うか、特定の質問に答えるためにテーブルをコンサルティングします。
そこで本研究では,テキスト生成モデルに人間的な推論を行なわなければならない,クエリ中心のテーブル要約タスクを新たに定義する。
このタスクには,2,934テーブル上の7,111の人間注釈付きクエリ-サマリーペアを含む,QTSummという新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:43:51Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - Grounded Keys-to-Text Generation: Towards Factual Open-Ended Generation [92.1582872870226]
そこで我々は,新しい接地型キー・ツー・テキスト生成タスクを提案する。
タスクは、ガイドキーと接地パスのセットが与えられたエンティティに関する事実記述を生成することである。
近年のQAに基づく評価手法に着想を得て,生成した記述の事実的正当性を示す自動計量MAFEを提案する。
論文 参考訳(メタデータ) (2022-12-04T23:59:41Z) - Leveraging Data Recasting to Enhance Tabular Reasoning [21.970920861791015]
これまでの作業は、主に2つのデータ生成戦略に依存していた。
ひとつは人間のアノテーションで、言語学的に多様なデータを生成するが、拡張は困難である。
第2のカテゴリは合成生成であり、スケーラブルで費用対効果があるが、発明性に欠ける。
論文 参考訳(メタデータ) (2022-11-23T00:04:57Z) - Evaluating Factuality in Generation with Dependency-level Entailment [57.5316011554622]
本稿では,依存弧のレベルで分解するエンテーメントの新たな定式化を提案する。
このデータに基づいて訓練された依存関係弧包含モデルにより,文レベルの手法よりもパラフレーズ化や要約における現実的不整合を識別できることが示されている。
論文 参考訳(メタデータ) (2020-10-12T06:43:10Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。