論文の概要: GameWikiSum: a Novel Large Multi-Document Summarization Dataset
- arxiv url: http://arxiv.org/abs/2002.06851v1
- Date: Mon, 17 Feb 2020 09:25:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-31 12:55:16.586717
- Title: GameWikiSum: a Novel Large Multi-Document Summarization Dataset
- Title(参考訳): GameWikiSum: 大規模マルチドキュメント要約データセット
- Authors: Diego Antognini, Boi Faltings
- Abstract要約: GameWikiSumは、マルチドキュメント要約のための新しいドメイン固有のデータセットである。
一般的に使用されるデータセットの100倍の大きさであり、ニュースよりも別の領域にある。
提案したデータセットを分析し,抽象モデルと抽出モデルの両方をトレーニング可能であることを示す。
- 参考スコア(独自算出の注目度): 39.38032088973816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Today's research progress in the field of multi-document summarization is
obstructed by the small number of available datasets. Since the acquisition of
reference summaries is costly, existing datasets contain only hundreds of
samples at most, resulting in heavy reliance on hand-crafted features or
necessitating additional, manually annotated data. The lack of large corpora
therefore hinders the development of sophisticated models. Additionally, most
publicly available multi-document summarization corpora are in the news domain,
and no analogous dataset exists in the video game domain. In this paper, we
propose GameWikiSum, a new domain-specific dataset for multi-document
summarization, which is one hundred times larger than commonly used datasets,
and in another domain than news. Input documents consist of long professional
video game reviews as well as references of their gameplay sections in
Wikipedia pages. We analyze the proposed dataset and show that both abstractive
and extractive models can be trained on it. We release GameWikiSum for further
research: https://github.com/Diego999/GameWikiSum.
- Abstract(参考訳): マルチドキュメント要約の分野での今日の研究の進展は、利用可能な少数のデータセットによって妨げられている。
参照サマリーの取得はコストがかかるため、既存のデータセットには数百のサンプルしか含まれておらず、手作りのフィーチャに依存するか、手作業で注釈付きデータが必要となる。
大きなコーパスの欠如は、洗練されたモデルの開発を妨げる。
加えて、一般に入手可能なマルチドキュメント要約コーパスはニュースドメインにあり、ビデオゲームドメインには類似のデータセットは存在しない。
本稿では,多文書要約のための新しいドメイン固有データセットであるGameWikiSumを提案する。
入力文書は、長いプロのビデオゲームレビューとウィキペディアページのゲームプレイセクションの参照で構成されている。
提案するデータセットを分析し,抽象モデルと抽出モデルの両方をトレーニング可能であることを示す。
さらなる研究のためにGameWikiSumをリリースします。
関連論文リスト
- MMSum: A Dataset for Multimodal Summarization and Thumbnail Generation
of Videos [106.06278332186106]
マルチモーダル・アウトプット(MSMO)を用いたマルチモーダル・サマリゼーションが有望な研究方向として浮上している。
既存のパブリックMSMOデータセットには多くの制限がある。
textbfMMSumデータセットを精巧にキュレートした。
論文 参考訳(メタデータ) (2023-06-07T07:43:11Z) - How "Multi" is Multi-Document Summarization? [15.574673241564932]
MDSデータセットの参照要約とシステム要約の両方が、実際に分散情報に基づいていることが期待されている。
「要約が分散する度合いを評価するための自動測度を提案する。」
以上の結果から,MSSデータセットは複数の文書からの情報の組み合わせをほとんど必要とせず,単一の文書が要約内容全体をカバーしていることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T10:20:09Z) - HowSumm: A Multi-Document Summarization Dataset Derived from WikiHow
Articles [8.53502615629675]
クエリ中心のマルチドキュメント要約(qMDS)タスクのための,新たな大規模データセットであるHowSummを提案する。
このユースケースは、既存のマルチドキュメント要約(MDS)データセットでカバーされているユースケースと異なり、教育や産業のシナリオに適用できる。
データセットの作成について述べ、他の要約コーパスと区別するユニークな特徴について論じる。
論文 参考訳(メタデータ) (2021-10-07T04:44:32Z) - MiRANews: Dataset and Benchmarks for Multi-Resource-Assisted News
Summarization [19.062996443574047]
我々は、新しいデータセットMiRANewsと既存の要約モデルをベンチマークする。
データ分析を通じて、責任を負うのはモデルだけではないことを示します。
Assisted summarization is reduce 55% of Hallucination than single-document summarization model trained on the main article only。
論文 参考訳(メタデータ) (2021-09-22T10:58:40Z) - DESCGEN: A Distantly Supervised Datasetfor Generating Abstractive Entity
Descriptions [41.80938919728834]
複数のドキュメントにまたがる言及を考えると、目的はエンティティの要約記述を生成することである。
DESCGENはWikipediaとFandomの37Kのエンティティ記述で構成されており、それぞれに平均9つの証拠文書が組み合わされている。
結果として得られる要約は、既存のデータセットよりも抽象的で、新しいエンティティや新興エンティティを記述する上での課題に対して、より優れたプロキシを提供する。
論文 参考訳(メタデータ) (2021-06-09T20:10:48Z) - SummScreen: A Dataset for Abstractive Screenplay Summarization [52.56760815805357]
SummScreenは、テレビシリーズトランスクリプトと人間の書かれたリキャップのペアで構成されたデータセットです。
プロットの詳細はしばしば文字対話で間接的に表現され、書き起こしの全体にわたって散らばることがある。
キャラクタはテレビシリーズの基本であるため,2つのエンティティ中心評価指標も提案する。
論文 参考訳(メタデータ) (2021-04-14T19:37:40Z) - WikiAsp: A Dataset for Multi-domain Aspect-based Summarization [69.13865812754058]
マルチドメインアスペクトベースの要約のための大規模データセットであるWikiAspを提案する。
具体的には、アスペクトアノテーションのプロキシとして、各記事のセクションタイトルとバウンダリを使用して、20の異なるドメインからウィキペディア記事を使用してデータセットを構築します。
その結果,既存の要約モデルがこの設定で直面する重要な課題,例えば引用されたソースの適切な代名詞処理,時間に敏感なイベントの一貫した説明などが浮き彫りになった。
論文 参考訳(メタデータ) (2020-11-16T10:02:52Z) - A Large-Scale Multi-Document Summarization Dataset from the Wikipedia
Current Events Portal [10.553314461761968]
MDS(Multi-document summarization)は、大規模な文書コレクションの内容を短い要約に圧縮することを目的としている。
この研究は、文書クラスタの総数と個々のクラスタのサイズの両方で大きいMDS用の新しいデータセットを示す。
論文 参考訳(メタデータ) (2020-05-20T14:33:33Z) - From Standard Summarization to New Tasks and Beyond: Summarization with
Manifold Information [77.89755281215079]
テキスト要約は、原文書の短く凝縮した版を作成することを目的とした研究分野である。
現実世界のアプリケーションでは、ほとんどのデータは平易なテキスト形式ではない。
本稿では,現実のアプリケーションにおけるこれらの新しい要約タスクとアプローチについて調査する。
論文 参考訳(メタデータ) (2020-05-10T14:59:36Z) - SciREX: A Challenge Dataset for Document-Level Information Extraction [56.83748634747753]
ドキュメントレベルで大規模な情報抽出データセットを作成するのは難しい。
複数のIEタスクを含む文書レベルのIEデータセットであるSciREXを紹介する。
我々は、従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとして、ニューラルモデルを開発する。
論文 参考訳(メタデータ) (2020-05-01T17:30:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。