論文の概要: Rows from Many Sources: Enriching row completions from Wikidata with a
pre-trained Language Model
- arxiv url: http://arxiv.org/abs/2204.07014v1
- Date: Thu, 14 Apr 2022 15:11:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-15 12:21:40.013960
- Title: Rows from Many Sources: Enriching row completions from Wikidata with a
pre-trained Language Model
- Title(参考訳): さまざまなソースからの引用:事前学習された言語モデルによるWikidataからの行補完強化
- Authors: Carina Negreanu, Alperen Karaoglu, Jack Williams, Shuang Chen, Daniel
Fabian, Andrew Gordon, Chin-Yew Lin
- Abstract要約: 標準ベンチマーク(WikiTables)で測定した課題提案とギャップフィリングの最先端結果を示す。
我々は、知識ベースを用いてテーブルを解釈し、新しい行を提案し、プロパティリンクを通じてヘッダのようなメタデータを生成する。
我々は、GPT-3を介して自由テキスト生成を用いて追加行を合成し、重要なことに、文生成のためのより良いプロンプトを生成するために解釈したメタデータを利用する。
- 参考スコア(独自算出の注目度): 9.084045516880444
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Row completion is the task of augmenting a given table of text and numbers
with additional, relevant rows. The task divides into two steps: subject
suggestion, the task of populating the main column; and gap filling, the task
of populating the remaining columns. We present state-of-the-art results for
subject suggestion and gap filling measured on a standard benchmark
(WikiTables). Our idea is to solve this task by harmoniously combining
knowledge base table interpretation and free text generation. We interpret the
table using the knowledge base to suggest new rows and generate metadata like
headers through property linking. To improve candidate diversity, we synthesize
additional rows using free text generation via GPT-3, and crucially, we exploit
the metadata we interpret to produce better prompts for text generation.
Finally, we verify that the additional synthesized content can be linked to the
knowledge base or a trusted web source such as Wikipedia.
- Abstract(参考訳): ロウ補完は、与えられたテキストと数字のテーブルを、追加の関連する行で拡張するタスクである。
タスクは2つのステップに分けられる: 主題の提案、メインカラムをポピュレーションするタスク、そして、残りのカラムをポピュレーションするタスクであるギャップフィリング。
標準ベンチマーク(WikiTables)で測定した課題提案とギャップフィリングの最先端結果を示す。
我々のアイデアは知識ベーステーブルの解釈と自由テキスト生成を調和させることでこの課題を解決することである。
我々は、知識ベースを用いてテーブルを解釈し、新しい行を提案し、プロパティリンクを通じてヘッダーのようなメタデータを生成する。
候補の多様性を向上させるために,GPT-3を介して自由テキスト生成を用いて追加行を合成し,重要な点として,文生成のためのより良いプロンプトを生成するために解釈したメタデータを利用する。
最後に,知識ベースやウィキペディアなどの信頼できるWebソースに,追加の合成コンテンツがリンク可能であることを検証した。
関連論文リスト
- Integrating Planning into Single-Turn Long-Form Text Generation [66.08871753377055]
長文コンテンツを生成するための計画案を提案する。
私たちの主な新規性は、複数のプロンプトや計画のラウンドを必要としない単一の補助的なタスクにあります。
実験では,LLMを補助タスクで微調整し,高品質な文書を生成する,異なる領域からの2つのデータセットを実証した。
論文 参考訳(メタデータ) (2024-10-08T17:02:40Z) - The Power of Summary-Source Alignments [62.76959473193149]
多文書要約(MDS)は難しい課題であり、しばしばサリエンスと冗長性検出のサブタスクに分解される。
参照要約とそのソース文書間の対応する文のアライメントを利用して、トレーニングデータを生成する。
本稿では,よりきめ細かな提案スパンレベルで適用することで,要約ソースアライメントフレームワークを拡張することを提案する。
論文 参考訳(メタデータ) (2024-06-02T19:35:19Z) - Text-Tuple-Table: Towards Information Integration in Text-to-Table Generation via Global Tuple Extraction [36.915250638481986]
リアルタイムのコメンタリーテキストに基づいたコンペの要約表を生成するためのベンチマークデータセットであるLiveSumを紹介する。
我々は,このタスクにおける最先端の大規模言語モデルの性能を,微調整とゼロショットの両方で評価する。
さらに、パフォーマンスを改善するために、$T3$(Text-Tuple-Table)と呼ばれる新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:31:28Z) - QTSumm: Query-Focused Summarization over Tabular Data [58.62152746690958]
人々は主に、データ分析を行うか、特定の質問に答えるためにテーブルをコンサルティングします。
そこで本研究では,テキスト生成モデルに人間的な推論を行なわなければならない,クエリ中心のテーブル要約タスクを新たに定義する。
このタスクには,2,934テーブル上の7,111の人間注釈付きクエリ-サマリーペアを含む,QTSummという新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:43:51Z) - Open Domain Question Answering over Virtual Documents: A Unified
Approach for Data and Text [62.489652395307914]
我々は、知識集約型アプリケーションのための構造化知識を符号化する手段として、Data-to-text法、すなわち、オープンドメイン質問応答(QA)を用いる。
具体的には、ウィキペディアとウィキソースの3つのテーブルを付加知識源として使用する、データとテキスト上でのオープンドメインQAのための冗長化-レトリバー・リーダー・フレームワークを提案する。
UDT-QA(Unified Data and Text QA)は,知識インデックスの拡大を効果的に活用できることを示す。
論文 参考訳(メタデータ) (2021-10-16T00:11:21Z) - Extending Multi-Text Sentence Fusion Resources via Pyramid Annotations [12.394777121890925]
本稿では、過去のデータセット作成の取り組みを再考し、大幅に拡張する。
拡張版では、複数のドキュメントタスクにもっと代表的なテキストを使用し、より大きく、より多様なトレーニングセットを提供しています。
論文 参考訳(メタデータ) (2021-10-09T09:15:05Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - ToTTo: A Controlled Table-To-Text Generation Dataset [61.83159452483026]
ToTToはオープンドメインの英語のテーブル・トゥ・テキストのデータセットで、12万以上のトレーニングサンプルがある。
本稿では、ウィキペディアから既存の候補文を直接修正するデータセット構築プロセスを紹介する。
通常流動的であるが、既存の方法は多くの場合、表がサポートしていないフレーズを幻覚させる。
論文 参考訳(メタデータ) (2020-04-29T17:53:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。