論文の概要: Rows from Many Sources: Enriching row completions from Wikidata with a
pre-trained Language Model
- arxiv url: http://arxiv.org/abs/2204.07014v1
- Date: Thu, 14 Apr 2022 15:11:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-15 12:21:40.013960
- Title: Rows from Many Sources: Enriching row completions from Wikidata with a
pre-trained Language Model
- Title(参考訳): さまざまなソースからの引用:事前学習された言語モデルによるWikidataからの行補完強化
- Authors: Carina Negreanu, Alperen Karaoglu, Jack Williams, Shuang Chen, Daniel
Fabian, Andrew Gordon, Chin-Yew Lin
- Abstract要約: 標準ベンチマーク(WikiTables)で測定した課題提案とギャップフィリングの最先端結果を示す。
我々は、知識ベースを用いてテーブルを解釈し、新しい行を提案し、プロパティリンクを通じてヘッダのようなメタデータを生成する。
我々は、GPT-3を介して自由テキスト生成を用いて追加行を合成し、重要なことに、文生成のためのより良いプロンプトを生成するために解釈したメタデータを利用する。
- 参考スコア(独自算出の注目度): 9.084045516880444
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Row completion is the task of augmenting a given table of text and numbers
with additional, relevant rows. The task divides into two steps: subject
suggestion, the task of populating the main column; and gap filling, the task
of populating the remaining columns. We present state-of-the-art results for
subject suggestion and gap filling measured on a standard benchmark
(WikiTables). Our idea is to solve this task by harmoniously combining
knowledge base table interpretation and free text generation. We interpret the
table using the knowledge base to suggest new rows and generate metadata like
headers through property linking. To improve candidate diversity, we synthesize
additional rows using free text generation via GPT-3, and crucially, we exploit
the metadata we interpret to produce better prompts for text generation.
Finally, we verify that the additional synthesized content can be linked to the
knowledge base or a trusted web source such as Wikipedia.
- Abstract(参考訳): ロウ補完は、与えられたテキストと数字のテーブルを、追加の関連する行で拡張するタスクである。
タスクは2つのステップに分けられる: 主題の提案、メインカラムをポピュレーションするタスク、そして、残りのカラムをポピュレーションするタスクであるギャップフィリング。
標準ベンチマーク(WikiTables)で測定した課題提案とギャップフィリングの最先端結果を示す。
我々のアイデアは知識ベーステーブルの解釈と自由テキスト生成を調和させることでこの課題を解決することである。
我々は、知識ベースを用いてテーブルを解釈し、新しい行を提案し、プロパティリンクを通じてヘッダーのようなメタデータを生成する。
候補の多様性を向上させるために,GPT-3を介して自由テキスト生成を用いて追加行を合成し,重要な点として,文生成のためのより良いプロンプトを生成するために解釈したメタデータを利用する。
最後に,知識ベースやウィキペディアなどの信頼できるWebソースに,追加の合成コンテンツがリンク可能であることを検証した。
関連論文リスト
- QTSumm: Query-Focused Summarization over Tabular Data [58.62152746690958]
人々は主に、データ分析を行うか、特定の質問に答えるためにテーブルをコンサルティングします。
そこで本研究では,テキスト生成モデルに人間的な推論を行なわなければならない,クエリ中心のテーブル要約タスクを新たに定義する。
このタスクには,2,934テーブル上の7,111の人間注釈付きクエリ-サマリーペアを含む,QTSummという新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:43:51Z) - Klexikon: A German Dataset for Joint Summarization and Simplification [2.931632009516441]
我々は、ドイツ語ウィキペディアとドイツ語児童辞書「クレキシコン」に基づく共同テキスト簡素化と要約のための新しいデータセットを作成する。
我々は要約の側面を強調し、この資源が単純化にも適しているという統計的証拠を提供する。
論文 参考訳(メタデータ) (2022-01-18T18:50:43Z) - Open Domain Question Answering over Virtual Documents: A Unified
Approach for Data and Text [62.489652395307914]
我々は、知識集約型アプリケーションのための構造化知識を符号化する手段として、Data-to-text法、すなわち、オープンドメイン質問応答(QA)を用いる。
具体的には、ウィキペディアとウィキソースの3つのテーブルを付加知識源として使用する、データとテキスト上でのオープンドメインQAのための冗長化-レトリバー・リーダー・フレームワークを提案する。
UDT-QA(Unified Data and Text QA)は,知識インデックスの拡大を効果的に活用できることを示す。
論文 参考訳(メタデータ) (2021-10-16T00:11:21Z) - Extending Multi-Text Sentence Fusion Resources via Pyramid Annotations [12.394777121890925]
本稿では、過去のデータセット作成の取り組みを再考し、大幅に拡張する。
拡張版では、複数のドキュメントタスクにもっと代表的なテキストを使用し、より大きく、より多様なトレーニングセットを提供しています。
論文 参考訳(メタデータ) (2021-10-09T09:15:05Z) - Generating Wikipedia Article Sections from Diverse Data Sources [57.23574577984244]
WikiTableTでいくつかのトレーニングとデコード戦略をベンチマークする。
我々の定性的な分析は、最良のアプローチは、流動的で高品質なテキストを生成することができるが、コヒーレンスに苦しむことがあることを示している。
論文 参考訳(メタデータ) (2020-12-29T19:35:34Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - ToTTo: A Controlled Table-To-Text Generation Dataset [61.83159452483026]
ToTToはオープンドメインの英語のテーブル・トゥ・テキストのデータセットで、12万以上のトレーニングサンプルがある。
本稿では、ウィキペディアから既存の候補文を直接修正するデータセット構築プロセスを紹介する。
通常流動的であるが、既存の方法は多くの場合、表がサポートしていないフレーズを幻覚させる。
論文 参考訳(メタデータ) (2020-04-29T17:53:45Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。