論文の概要: WikiDes: A Wikipedia-Based Dataset for Generating Short Descriptions
from Paragraphs
- arxiv url: http://arxiv.org/abs/2209.13101v1
- Date: Tue, 27 Sep 2022 01:28:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-09-28 15:14:54.769614
- Title: WikiDes: A Wikipedia-Based Dataset for Generating Short Descriptions
from Paragraphs
- Title(参考訳): WikiDes: パラグラフから短い記述を生成するWikipediaベースのデータセット
- Authors: Hoang Thang Ta, Abu Bakar Siddiqur Rahman, Navonil Majumder, Amir
Hussain, Lotfollah Najjar, Newton Howard, Soujanya Poria and Alexander
Gelbukh
- Abstract要約: ウィキデックスはウィキペディアの記事の短い記述を生成するデータセットである。
データセットは、6987のトピックに関する80万以上の英語サンプルで構成されている。
本論文は,ウィキペディアとウィキデータに多くの記述が欠落していることから,実際的な影響を示すものである。
- 参考スコア(独自算出の注目度): 66.88232442007062
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As free online encyclopedias with massive volumes of content, Wikipedia and
Wikidata are key to many Natural Language Processing (NLP) tasks, such as
information retrieval, knowledge base building, machine translation, text
classification, and text summarization. In this paper, we introduce WikiDes, a
novel dataset to generate short descriptions of Wikipedia articles for the
problem of text summarization. The dataset consists of over 80k English samples
on 6987 topics. We set up a two-phase summarization method - description
generation (Phase I) and candidate ranking (Phase II) - as a strong approach
that relies on transfer and contrastive learning. For description generation,
T5 and BART show their superiority compared to other small-scale pre-trained
models. By applying contrastive learning with the diverse input from beam
search, the metric fusion-based ranking models outperform the direct
description generation models significantly up to 22 ROUGE in topic-exclusive
split and topic-independent split. Furthermore, the outcome descriptions in
Phase II are supported by human evaluation in over 45.33% chosen compared to
23.66% in Phase I against the gold descriptions. In the aspect of sentiment
analysis, the generated descriptions cannot effectively capture all sentiment
polarities from paragraphs while doing this task better from the gold
descriptions. The automatic generation of new descriptions reduces the human
efforts in creating them and enriches Wikidata-based knowledge graphs. Our
paper shows a practical impact on Wikipedia and Wikidata since there are
thousands of missing descriptions. Finally, we expect WikiDes to be a useful
dataset for related works in capturing salient information from short
paragraphs. The curated dataset is publicly available at:
https://github.com/declare-lab/WikiDes.
- Abstract(参考訳): 大量のコンテンツを持つ無料のオンライン百科事典として、ウィキペディアとウィキデータは情報検索、知識ベース構築、機械翻訳、テキスト分類、テキスト要約といった多くの自然言語処理(NLP)タスクの鍵となる。
本稿では,テキスト要約問題に対するウィキペディア記事の短い記述を生成する新しいデータセットであるWikiDesを紹介する。
このデータセットは6987のトピックで80万以上の英語サンプルで構成されている。
二相要約法(説明生成法(第1相)と候補ランキング法(第2相)を,伝達とコントラスト学習に依拠する強固なアプローチとして設定した。
記述生成では、T5とBARTは他の小規模の事前訓練モデルと比較して優位性を示す。
ビーム探索からの多様な入力と対比学習を適用することで、メトリック融合に基づくランキングモデルは、トピック排他的スプリットとトピック非依存的スプリットにおいて、直接記述生成モデルを大幅に上回る。
さらに、第2相の結果記述は、第1相の23.66%に対して、第45.33%以上の人的評価によって支持されている。
感情分析の観点では、生成した記述は、金の記述からより優れた処理をしながら、段落から全ての感情極性を効果的に捉えることはできない。
新しい記述の自動生成は、それらを作成する人間の労力を減らし、Wikidataベースの知識グラフを強化します。
本論文はウィキペディアとウィキデータに実際に影響していることを示す。
最後に、WikiDesは、短い段落から有能な情報を収集するのに有用なデータセットとして期待する。
キュレートされたデータセットは、https://github.com/declare-lab/WikiDesで公開されている。
関連論文リスト
- WikiIns: A High-Quality Dataset for Controlled Text Editing by Natural
Language Instruction [56.196512595940334]
WikiInsは高品質な制御されたテキスト編集データセットで、情報性が向上している。
高品質なアノテートデータセットを用いて,大規模な銀のトレーニングセットを生成するための自動アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-08T04:46:39Z) - WikiSQE: A Large-Scale Dataset for Sentence Quality Estimation in
Wikipedia [14.325320851640084]
ウィキペディアにおける文質推定のための大規模データセットであるWikiSQEを提案する。
それぞれの文は、英語のウィキペディアの改訂履歴全体から抽出される。
WikiSQEには約3.4Mの文と153の品質ラベルがある。
論文 参考訳(メタデータ) (2023-05-10T06:45:13Z) - XWikiGen: Cross-lingual Summarization for Encyclopedic Text Generation
in Low Resource Languages [11.581072296148031]
ウィキペディアのテキスト生成に関する既存の研究は、英語の参照記事が要約されて英語のウィキペディアページを生成する場合にのみ、英語に焦点を当てている。
本稿では,ウィキペディア形式のテキストを生成するために,多言語で書かれた複数の参照記事からテキストを多文書で要約するタスクであるXWikiGenを提案する。
論文 参考訳(メタデータ) (2023-03-22T04:52:43Z) - Mapping Process for the Task: Wikidata Statements to Text as Wikipedia
Sentences [68.8204255655161]
本稿では,ウィキデータ文をウィキペディアのプロジェクト用自然言語テキスト(WS2T)に変換するタスクに対して,文レベルでのマッピングプロセスを提案する。
主なステップは、文を整理し、四つ組と三つ組のグループとして表現し、それらを英語のウィキペディアで対応する文にマッピングすることである。
文構造解析,ノイズフィルタリング,および単語埋め込みモデルに基づく文成分間の関係について,出力コーパスの評価を行った。
論文 参考訳(メタデータ) (2022-10-23T08:34:33Z) - TWAG: A Topic-Guided Wikipedia Abstract Generator [23.937804531845938]
Wikipediaの抽象生成は、ウィキペディアの抽象化をWebソースから抽出することを目的としており、大きな成功を収めている。
それまでの著作では、抽象概念を平易なテキストとみなしており、ある実体の記述であり、異なるトピックに分解できるという事実を無視している。
本稿では,トピック情報を用いた2段階モデルTWAGを提案する。
論文 参考訳(メタデータ) (2021-06-29T07:42:08Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - Learning to Summarize Passages: Mining Passage-Summary Pairs from
Wikipedia Revision Histories [110.54963847339775]
ウィキペディアページのリビジョン履歴をマイニングすることで,パス・トゥ・サマリーデータセットを自動構築する手法を提案する。
特に、本手法では、ページに追加される本体の通路と導入文を同時にマイニングする。
構築されたデータセットは、100万以上のパス・サマー・ペアを含む。
論文 参考訳(メタデータ) (2020-04-06T12:11:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。