論文の概要: TWAG: A Topic-Guided Wikipedia Abstract Generator
- arxiv url: http://arxiv.org/abs/2106.15135v1
- Date: Tue, 29 Jun 2021 07:42:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-01 04:48:04.317072
- Title: TWAG: A Topic-Guided Wikipedia Abstract Generator
- Title(参考訳): TWAG: トピックガイド付きウィキペディア抽象ジェネレータ
- Authors: Fangwei Zhu, Shangqing Tu, Jiaxin Shi, Juanzi Li, Lei Hou, Tong Cui
- Abstract要約: Wikipediaの抽象生成は、ウィキペディアの抽象化をWebソースから抽出することを目的としており、大きな成功を収めている。
それまでの著作では、抽象概念を平易なテキストとみなしており、ある実体の記述であり、異なるトピックに分解できるという事実を無視している。
本稿では,トピック情報を用いた2段階モデルTWAGを提案する。
- 参考スコア(独自算出の注目度): 23.937804531845938
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Wikipedia abstract generation aims to distill a Wikipedia abstract from web
sources and has met significant success by adopting multi-document
summarization techniques. However, previous works generally view the abstract
as plain text, ignoring the fact that it is a description of a certain entity
and can be decomposed into different topics. In this paper, we propose a
two-stage model TWAG that guides the abstract generation with topical
information. First, we detect the topic of each input paragraph with a
classifier trained on existing Wikipedia articles to divide input documents
into different topics. Then, we predict the topic distribution of each abstract
sentence, and decode the sentence from topic-aware representations with a
Pointer-Generator network. We evaluate our model on the WikiCatSum dataset, and
the results show that \modelnames outperforms various existing baselines and is
capable of generating comprehensive abstracts. Our code and dataset can be
accessed at \url{https://github.com/THU-KEG/TWAG}
- Abstract(参考訳): Wikipediaの抽象生成は、ウィキペディアをWebソースから抽出することを目的としており、多文書要約技術を採用することで大きな成功を収めている。
しかし、従来の著作では、抽象を平易なテキストとして捉えており、あるエンティティの記述であり、異なるトピックに分解できるという事実を無視している。
本稿では,トピック情報を用いた2段階モデルTWAGを提案する。
まず, 既存のwikipedia記事に学習した分類器を用いて各入力段落のトピックを検出し, 入力文書を異なるトピックに分割する。
そして,各要約文のトピック分布を予測し,ポインタ・ジェネレータネットワークを用いてトピック認識表現から文をデコードする。
WikiCatSumデータセット上でモデルを評価した結果, \modelnamesは既存のベースラインよりも優れ, 包括的な抽象化を生成することができることがわかった。
私たちのコードとデータセットは \url{https://github.com/THU-KEG/TWAG} でアクセスできます。
関連論文リスト
- GoSum: Extractive Summarization of Long Documents by Reinforcement
Learning and Graph Organized discourse state [6.4805900740861]
長文要約のための強化学習に基づく抽出モデルであるGoSumを提案する。
GoSumは入力文書ごとに異なる談話レベルから異質なグラフを構築することで状態をエンコードする。
論文要約の2つのデータセット,PubMed と arXiv のモデルを評価する。
論文 参考訳(メタデータ) (2022-11-18T14:07:29Z) - Mapping Process for the Task: Wikidata Statements to Text as Wikipedia
Sentences [68.8204255655161]
本稿では,ウィキデータ文をウィキペディアのプロジェクト用自然言語テキスト(WS2T)に変換するタスクに対して,文レベルでのマッピングプロセスを提案する。
主なステップは、文を整理し、四つ組と三つ組のグループとして表現し、それらを英語のウィキペディアで対応する文にマッピングすることである。
文構造解析,ノイズフィルタリング,および単語埋め込みモデルに基づく文成分間の関係について,出力コーパスの評価を行った。
論文 参考訳(メタデータ) (2022-10-23T08:34:33Z) - WikiDes: A Wikipedia-Based Dataset for Generating Short Descriptions
from Paragraphs [66.88232442007062]
ウィキデックスはウィキペディアの記事の短い記述を生成するデータセットである。
データセットは、6987のトピックに関する80万以上の英語サンプルで構成されている。
本論文は,ウィキペディアとウィキデータに多くの記述が欠落していることから,実際的な影響を示すものである。
論文 参考訳(メタデータ) (2022-09-27T01:28:02Z) - Keyphrase Generation Beyond the Boundaries of Title and Abstract [28.56508031460787]
キーワード生成は、与えられた文書を最もよく記述するフレーズ(キーワード)を生成することを目的としている。
本研究では、意味論的に類似した記事からの追加データの統合や、与えられた記事の全文の統合が、ニューラルキーフレーズ生成モデルに役立つかどうかを考察する。
特に記事の要約形式で全文から文を追加することは、両方のキーフレーズの生成を著しく改善することを発見した。
論文 参考訳(メタデータ) (2021-12-13T16:33:01Z) - DESCGEN: A Distantly Supervised Datasetfor Generating Abstractive Entity
Descriptions [41.80938919728834]
複数のドキュメントにまたがる言及を考えると、目的はエンティティの要約記述を生成することである。
DESCGENはWikipediaとFandomの37Kのエンティティ記述で構成されており、それぞれに平均9つの証拠文書が組み合わされている。
結果として得られる要約は、既存のデータセットよりも抽象的で、新しいエンティティや新興エンティティを記述する上での課題に対して、より優れたプロキシを提供する。
論文 参考訳(メタデータ) (2021-06-09T20:10:48Z) - WikiAsp: A Dataset for Multi-domain Aspect-based Summarization [69.13865812754058]
マルチドメインアスペクトベースの要約のための大規模データセットであるWikiAspを提案する。
具体的には、アスペクトアノテーションのプロキシとして、各記事のセクションタイトルとバウンダリを使用して、20の異なるドメインからウィキペディア記事を使用してデータセットを構築します。
その結果,既存の要約モデルがこの設定で直面する重要な課題,例えば引用されたソースの適切な代名詞処理,時間に敏感なイベントの一貫した説明などが浮き彫りになった。
論文 参考訳(メタデータ) (2020-11-16T10:02:52Z) - Topic-Guided Abstractive Text Summarization: a Joint Learning Approach [19.623946402970933]
本稿では,抽象テキスト要約のための新しいアプローチ,トピックガイドによる抽象要約を提案する。
ニューラルネットワークをTransformerベースのシーケンス・ツー・シーケンス(seq2seq)モデルに結合学習フレームワークに組み込むことが目的だ。
論文 参考訳(メタデータ) (2020-10-20T14:45:25Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - Few-Shot Learning for Opinion Summarization [117.70510762845338]
オピニオン要約は、複数の文書で表現された主観的な情報を反映したテキストの自動生成である。
本研究では,要約テキストの生成をブートストラップするのには,少数の要約でも十分であることを示す。
提案手法は, 従来の抽出法および抽象法を, 自動的, 人的評価において大きく上回っている。
論文 参考訳(メタデータ) (2020-04-30T15:37:38Z) - Pre-training for Abstractive Document Summarization by Reinstating
Source Text [105.77348528847337]
本稿では,Seq2Seqに基づく非ラベルテキストによる抽象要約モデルの事前学習を可能にする3つの事前学習目標を提案する。
2つのベンチマーク要約データセットの実験では、3つの目的がすべてベースラインでパフォーマンスを向上させることが示されている。
論文 参考訳(メタデータ) (2020-04-04T05:06:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。