論文の概要: MiRANews: Dataset and Benchmarks for Multi-Resource-Assisted News
Summarization
- arxiv url: http://arxiv.org/abs/2109.10650v1
- Date: Wed, 22 Sep 2021 10:58:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-23 18:24:44.794727
- Title: MiRANews: Dataset and Benchmarks for Multi-Resource-Assisted News
Summarization
- Title(参考訳): MiRANews:マルチソース支援ニュース要約のためのデータセットとベンチマーク
- Authors: Xinnuo Xu, Ond\v{r}ej Du\v{s}ek, Shashi Narayan, Verena Rieser and
Ioannis Konstas
- Abstract要約: 我々は、新しいデータセットMiRANewsと既存の要約モデルをベンチマークする。
データ分析を通じて、責任を負うのはモデルだけではないことを示します。
Assisted summarization is reduce 55% of Hallucination than single-document summarization model trained on the main article only。
- 参考スコア(独自算出の注目度): 19.062996443574047
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the most challenging aspects of current single-document news
summarization is that the summary often contains 'extrinsic hallucinations',
i.e., facts that are not present in the source document, which are often
derived via world knowledge. This causes summarization systems to act more like
open-ended language models tending to hallucinate facts that are erroneous. In
this paper, we mitigate this problem with the help of multiple supplementary
resource documents assisting the task. We present a new dataset MiRANews and
benchmark existing summarization models. In contrast to multi-document
summarization, which addresses multiple events from several source documents,
we still aim at generating a summary for a single document. We show via data
analysis that it's not only the models which are to blame: more than 27% of
facts mentioned in the gold summaries of MiRANews are better grounded on
assisting documents than in the main source articles. An error analysis of
generated summaries from pretrained models fine-tuned on MiRANews reveals that
this has an even bigger effects on models: assisted summarization reduces 55%
of hallucinations when compared to single-document summarization models trained
on the main article only. Our code and data are available at
https://github.com/XinnuoXu/MiRANews.
- Abstract(参考訳): 現在の単一文書ニュース要約の最も難しい側面の1つは、要約がしばしば「外在的幻覚」、すなわち、しばしば世界知識によって引き起こされる、ソース文書に存在しない事実を含んでいることである。
これにより、要約システムは、誤った事実を幻覚させる傾向があるオープンエンド言語モデルのように振る舞う。
本稿では,タスクを補助する複数の補助資料の助けを借りて,この問題を緩和する。
我々は、新しいデータセットMiRANewsと既存の要約モデルをベンチマークする。
複数のソースドキュメントから複数のイベントを処理するマルチドキュメント要約とは対照的に、単一ドキュメントのサマリ生成を目標としています。
MiRANewsのゴールドサマリーで言及されている事実の27%以上は、メインソースの記事よりもドキュメントのアシストに重点を置いています。
MiRANewsで微調整された事前学習モデルから生成された要約の誤り解析により、これはモデルにさらに大きな影響を及ぼすことが明らかとなった。
私たちのコードとデータはhttps://github.com/xinnuoxu/miranewsで入手できます。
関連論文リスト
- Shaping Political Discourse using multi-source News Summarization [0.46040036610482665]
複数のニュース文書からトピックの簡潔な要約を生成する機械学習モデルを開発した。
モデルは、トピックのすべての異なる側面からインプットを等しくサンプリングすることで、偏りのないように設計されている。
論文 参考訳(メタデータ) (2023-12-18T21:03:46Z) - Embrace Divergence for Richer Insights: A Multi-document Summarization Benchmark and a Case Study on Summarizing Diverse Information from News Articles [136.84278943588652]
同一イベントを含む複数のニュース記事において遭遇する多様な情報を要約する新しい課題を提案する。
この作業を容易にするために、多様な情報を特定するためのデータ収集スキーマの概要と、DiverseSummというデータセットをキュレートした。
データセットには245のニュース記事が含まれており、各ストーリーは10のニュース記事からなり、人間公認の参照と組み合わせられる。
論文 参考訳(メタデータ) (2023-09-17T20:28:17Z) - Correcting Diverse Factual Errors in Abstractive Summarization via
Post-Editing and Language Model Infilling [56.70682379371534]
提案手法は, 誤要約の修正において, 従来手法よりもはるかに優れていることを示す。
我々のモデルであるFactEditは、CNN/DMで11点、XSumで31点以上のファクトリティスコアを改善する。
論文 参考訳(メタデータ) (2022-10-22T07:16:19Z) - Unsupervised Summarization with Customized Granularities [76.26899748972423]
本稿では,最初の教師なし多粒度要約フレームワークであるGranuSumを提案する。
異なる数のイベントを入力することで、GranuSumは教師なしの方法で複数の粒度のサマリーを生成することができる。
論文 参考訳(メタデータ) (2022-01-29T05:56:35Z) - Modeling Endorsement for Multi-Document Abstractive Summarization [10.166639983949887]
単一文書の要約と多文書の要約の重大な違いは、文書の中で健全なコンテンツがどのように現れるかである。
本稿では,複数文書要約における文書間補完効果とその活用をモデル化する。
提案手法は各文書から合成を生成し,他の文書から有意な内容を識別する支援者として機能する。
論文 参考訳(メタデータ) (2021-10-15T03:55:42Z) - Topic Modeling Based Extractive Text Summarization [0.0]
本稿では,潜在トピックに基づいて内容をクラスタリングすることで,テキストを要約する新しい手法を提案する。
我々は、テキスト要約へのアプローチにおいて、より使用量が少なく挑戦的なWikiHowデータセットを活用している。
論文 参考訳(メタデータ) (2021-06-29T12:28:19Z) - Hidden Biases in Unreliable News Detection Datasets [60.71991809782698]
データ収集中の選択バイアスがデータセットの望ましくないアーティファクトにつながることを示す。
クリーンスプリットでテストされたすべてのモデルに対して,列車/テストソースの重なりが無く,精度が大幅に低下した(>10%)。
将来的なデータセット生成には、困難/バイアスプローブとしての単純なモデルと、クリーンな非重複サイトと日付分割を使用する将来のモデル開発が含まれることを提案する。
論文 参考訳(メタデータ) (2021-04-20T17:16:41Z) - Corpora Evaluation and System Bias Detection in Multi-document
Summarization [25.131744693121508]
MDS(Multi-document summarization)は、文書の集合から簡潔なテキスト段落にキーポイントを反映するタスクである。
タスクの標準的な定義がないため、さまざまなレベルの重複と、参加するドキュメント間のコンフリクトを持つデータセットに遭遇する。
新しいシステムは、選択したデータセットのセットについて結果を報告し、他のデータセットのパフォーマンスと相関しないかもしれない。
論文 参考訳(メタデータ) (2020-10-05T05:25:43Z) - Leveraging Graph to Improve Abstractive Multi-Document Summarization [50.62418656177642]
我々は、文書のよく知られたグラフ表現を活用することができる、抽象的多文書要約(MDS)モデルを開発する。
本モデルでは,長い文書の要約に欠かせない文書間関係を捉えるために,文書の符号化にグラフを利用する。
また,このモデルでは,要約生成プロセスの導出にグラフを利用することが可能であり,一貫性と簡潔な要約を生成するのに有用である。
論文 参考訳(メタデータ) (2020-05-20T13:39:47Z) - Pre-training for Abstractive Document Summarization by Reinstating
Source Text [105.77348528847337]
本稿では,Seq2Seqに基づく非ラベルテキストによる抽象要約モデルの事前学習を可能にする3つの事前学習目標を提案する。
2つのベンチマーク要約データセットの実験では、3つの目的がすべてベースラインでパフォーマンスを向上させることが示されている。
論文 参考訳(メタデータ) (2020-04-04T05:06:26Z) - GameWikiSum: a Novel Large Multi-Document Summarization Dataset [39.38032088973816]
GameWikiSumは、マルチドキュメント要約のための新しいドメイン固有のデータセットである。
一般的に使用されるデータセットの100倍の大きさであり、ニュースよりも別の領域にある。
提案したデータセットを分析し,抽象モデルと抽出モデルの両方をトレーニング可能であることを示す。
論文 参考訳(メタデータ) (2020-02-17T09:25:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。