論文の概要: Generating Wikipedia Article Sections from Diverse Data Sources
- arxiv url: http://arxiv.org/abs/2012.14919v1
- Date: Tue, 29 Dec 2020 19:35:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-18 23:20:23.798185
- Title: Generating Wikipedia Article Sections from Diverse Data Sources
- Title(参考訳): 多様なデータソースからウィキペディア記事セクションを生成する
- Authors: Mingda Chen, Sam Wiseman, Kevin Gimpel
- Abstract要約: WikiTableTでいくつかのトレーニングとデコード戦略をベンチマークする。
我々の定性的な分析は、最良のアプローチは、流動的で高品質なテキストを生成することができるが、コヒーレンスに苦しむことがあることを示している。
- 参考スコア(独自算出の注目度): 57.23574577984244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Datasets for data-to-text generation typically focus either on multi-domain,
single-sentence generation or on single-domain, long-form generation. In this
work, we create a large-scale dataset, WikiTableT, that pairs Wikipedia
sections with their corresponding tabular data and various metadata. WikiTableT
contains millions of instances, covering a broad range of topics, as well as a
variety of flavors of generation tasks with different levels of flexibility. We
benchmark several training and decoding strategies on WikiTableT. Our
qualitative analysis shows that the best approaches can generate fluent and
high quality texts but they sometimes struggle with coherence.
- Abstract(参考訳): データからテキストへの生成のためのデータセットは通常、マルチドメイン、シングルセンテンス生成、またはシングルドメイン、ロングフォーム生成に焦点が当てられる。
本研究では,wikipediaの項目と対応する表データと各種メタデータを組み合わせる大規模データセットwikitabletを作成した。
WikiTableTには数百万のインスタンスがあり、さまざまなトピックやさまざまなレベルの柔軟性を備えた生成タスクをカバーしている。
WikiTableTでいくつかのトレーニングとデコード戦略をベンチマークする。
質的な分析から、最良のアプローチは、流動的で高品質なテキストを生成することができるが、時には一貫性に苦しむ。
関連論文リスト
- Large-Scale Multi-Document Summarization with Information Extraction and
Compression [31.601707033466766]
複数の異種文書のラベル付きデータとは無関係に抽象的な要約フレームワークを開発する。
我々のフレームワークは、同じトピックのドキュメントではなく、異なるストーリーを伝えるドキュメントを処理する。
我々の実験は、このより汎用的な設定において、我々のフレームワークが現在の最先端メソッドより優れていることを示した。
論文 参考訳(メタデータ) (2022-05-01T19:49:15Z) - Rows from Many Sources: Enriching row completions from Wikidata with a
pre-trained Language Model [9.084045516880444]
標準ベンチマーク(WikiTables)で測定した課題提案とギャップフィリングの最先端結果を示す。
我々は、知識ベースを用いてテーブルを解釈し、新しい行を提案し、プロパティリンクを通じてヘッダのようなメタデータを生成する。
我々は、GPT-3を介して自由テキスト生成を用いて追加行を合成し、重要なことに、文生成のためのより良いプロンプトを生成するために解釈したメタデータを利用する。
論文 参考訳(メタデータ) (2022-04-14T15:11:52Z) - Attend, Memorize and Generate: Towards Faithful Table-to-Text Generation
in Few Shots [58.404516361586325]
Few-shot table-to-text generation は、限られたデータを用いてテーブル内容を伝えるために、流動的で忠実な文を構成するタスクである。
本稿では,人間のテキスト生成プロセスに触発された新しい手法,覚醒と生成(AMG)を提案する。
論文 参考訳(メタデータ) (2022-03-01T20:37:20Z) - Data-to-text Generation with Variational Sequential Planning [74.3955521225497]
非言語的な入力からテキスト出力を生成することを目的としたデータ・ツー・テキスト生成の課題について考察する。
協調的かつ有意義な方法で高レベルの情報を整理する責任を負う計画要素を付加したニューラルモデルを提案する。
我々は、計画と生成のステップをインターリーブしながら、構造化された変動モデルで逐次、潜在計画を推測する。
論文 参考訳(メタデータ) (2022-02-28T13:17:59Z) - Open Domain Question Answering over Virtual Documents: A Unified
Approach for Data and Text [62.489652395307914]
我々は、知識集約型アプリケーションのための構造化知識を符号化する手段として、Data-to-text法、すなわち、オープンドメイン質問応答(QA)を用いる。
具体的には、ウィキペディアとウィキソースの3つのテーブルを付加知識源として使用する、データとテキスト上でのオープンドメインQAのための冗長化-レトリバー・リーダー・フレームワークを提案する。
UDT-QA(Unified Data and Text QA)は,知識インデックスの拡大を効果的に活用できることを示す。
論文 参考訳(メタデータ) (2021-10-16T00:11:21Z) - Extending Multi-Text Sentence Fusion Resources via Pyramid Annotations [12.394777121890925]
本稿では、過去のデータセット作成の取り組みを再考し、大幅に拡張する。
拡張版では、複数のドキュメントタスクにもっと代表的なテキストを使用し、より大きく、より多様なトレーニングセットを提供しています。
論文 参考訳(メタデータ) (2021-10-09T09:15:05Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z) - Multilayer Networks for Text Analysis with Multiple Data Types [0.21108097398435335]
本稿では,マルチレイヤネットワークとブロックモデルに基づく新しいフレームワークを提案する。
複数の種類の情報を考慮すると、トピックやドキュメントクラスタに関するより微妙なビューが得られます。
論文 参考訳(メタデータ) (2021-06-30T05:47:39Z) - Topic Modeling Based Extractive Text Summarization [0.0]
本稿では,潜在トピックに基づいて内容をクラスタリングすることで,テキストを要約する新しい手法を提案する。
我々は、テキスト要約へのアプローチにおいて、より使用量が少なく挑戦的なWikiHowデータセットを活用している。
論文 参考訳(メタデータ) (2021-06-29T12:28:19Z) - Minimally-Supervised Structure-Rich Text Categorization via Learning on
Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。
具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。
実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文 参考訳(メタデータ) (2021-02-23T04:14:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。