論文の概要: How "Multi" is Multi-Document Summarization?
- arxiv url: http://arxiv.org/abs/2210.12688v1
- Date: Sun, 23 Oct 2022 10:20:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 16:25:24.399654
- Title: How "Multi" is Multi-Document Summarization?
- Title(参考訳): マルチドキュメントの要約はいかに"マルチ"か?
- Authors: Ruben Wolhandler, Arie Cattan, Ori Ernst and Ido Dagan
- Abstract要約: MDSデータセットの参照要約とシステム要約の両方が、実際に分散情報に基づいていることが期待されている。
「要約が分散する度合いを評価するための自動測度を提案する。」
以上の結果から,MSSデータセットは複数の文書からの情報の組み合わせをほとんど必要とせず,単一の文書が要約内容全体をカバーしていることが示唆された。
- 参考スコア(独自算出の注目度): 15.574673241564932
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The task of multi-document summarization (MDS) aims at models that, given
multiple documents as input, are able to generate a summary that combines
disperse information, originally spread across these documents. Accordingly, it
is expected that both reference summaries in MDS datasets, as well as system
summaries, would indeed be based on such dispersed information. In this paper,
we argue for quantifying and assessing this expectation. To that end, we
propose an automated measure for evaluating the degree to which a summary is
``disperse'', in the sense of the number of source documents needed to cover
its content. We apply our measure to empirically analyze several popular MDS
datasets, with respect to their reference summaries, as well as the output of
state-of-the-art systems. Our results show that certain MDS datasets barely
require combining information from multiple documents, where a single document
often covers the full summary content. Overall, we advocate using our metric
for assessing and improving the degree to which summarization datasets require
combining multi-document information, and similarly how summarization models
actually meet this challenge. Our code is available in
https://github.com/ariecattan/multi_mds.
- Abstract(参考訳): MDS(Multi-Docment summarization)の課題は、複数の文書を入力として与え、もともとこれらの文書に散在する分散情報を組み合わせた要約を生成することができるモデルを対象としている。
したがって、MDSデータセットの参照要約とシステム要約の両方が、実際にそのような分散情報に基づいていることが期待されている。
本稿では,この予測の定量化と評価について論じる。
そこで本研究では,要約が‘分散’である程度を評価するための自動的な尺度を提案する。
提案手法を応用して,いくつかの一般的なMDSデータセットの参照サマリーや最先端システムの出力を実証的に分析する。
その結果,特定のmdsデータセットは,複数の文書からの情報の組み合わせをほとんど必要としないことが分かった。
全体として,要約データセットが複数文書情報の組み合わせを必要とする程度を評価・改善するために,我々の測定値を用いることを提唱する。
私たちのコードはhttps://github.com/ariecattan/multi_mdsで利用可能です。
関連論文リスト
- The Power of Summary-Source Alignments [62.76959473193149]
多文書要約(MDS)は難しい課題であり、しばしばサリエンスと冗長性検出のサブタスクに分解される。
参照要約とそのソース文書間の対応する文のアライメントを利用して、トレーニングデータを生成する。
本稿では,よりきめ細かな提案スパンレベルで適用することで,要約ソースアライメントフレームワークを拡張することを提案する。
論文 参考訳(メタデータ) (2024-06-02T19:35:19Z) - Embrace Divergence for Richer Insights: A Multi-document Summarization Benchmark and a Case Study on Summarizing Diverse Information from News Articles [136.84278943588652]
同一イベントを含む複数のニュース記事において遭遇する多様な情報を要約する新しい課題を提案する。
この作業を容易にするために、多様な情報を特定するためのデータ収集スキーマの概要と、DiverseSummというデータセットをキュレートした。
データセットには245のニュース記事が含まれており、各ストーリーは10のニュース記事からなり、人間公認の参照と組み合わせられる。
論文 参考訳(メタデータ) (2023-09-17T20:28:17Z) - LMGQS: A Large-scale Dataset for Query-focused Summarization [77.6179359525065]
我々は4つの一般的な要約ベンチマークを新しいQFSベンチマークデータセットであるLMGQSに変換する。
我々は最先端の要約モデルを用いてベースラインを確立する。
複数の既存のQFSベンチマークにおいて、最先端のゼロショットと教師付きパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-05-22T14:53:45Z) - HowSumm: A Multi-Document Summarization Dataset Derived from WikiHow
Articles [8.53502615629675]
クエリ中心のマルチドキュメント要約(qMDS)タスクのための,新たな大規模データセットであるHowSummを提案する。
このユースケースは、既存のマルチドキュメント要約(MDS)データセットでカバーされているユースケースと異なり、教育や産業のシナリオに適用できる。
データセットの作成について述べ、他の要約コーパスと区別するユニークな特徴について論じる。
論文 参考訳(メタデータ) (2021-10-07T04:44:32Z) - Text Summarization with Latent Queries [60.468323530248945]
本稿では,LaQSumについて紹介する。LaQSumは,既存の問合せ形式と抽象的な要約のための文書から遅延クエリを学習する,最初の統一テキスト要約システムである。
本システムでは, 潜伏クエリモデルと条件付き言語モデルとを協調的に最適化し, ユーザがテスト時に任意のタイプのクエリをプラグイン・アンド・プレイできるようにする。
本システムでは,クエリタイプ,文書設定,ターゲットドメインの異なる要約ベンチマークにおいて,強力な比較システムの性能を強く向上させる。
論文 参考訳(メタデータ) (2021-05-31T21:14:58Z) - Data Augmentation for Abstractive Query-Focused Multi-Document
Summarization [129.96147867496205]
2つのQMDSトレーニングデータセットを提示し,2つのデータ拡張手法を用いて構築する。
これらの2つのデータセットは相補的な性質を持ち、すなわちQMDSCNNは実際のサマリを持つが、クエリはシミュレートされる。
組み合わせたデータセット上にエンドツーエンドのニューラルネットワークモデルを構築し、DUCデータセットに最新の転送結果をもたらします。
論文 参考訳(メタデータ) (2021-03-02T16:57:01Z) - WSL-DS: Weakly Supervised Learning with Distant Supervision for Query
Focused Multi-Document Abstractive Summarization [16.048329028104643]
Query Focused Multi-Document Summarization (QF-MDS)タスクでは、ドキュメントのセットとクエリが与えられ、そこでこれらのドキュメントから要約を生成する。
このタスクの大きな課題のひとつは、ラベル付きトレーニングデータセットの可用性の欠如である。
本稿では,遠隔指導による弱教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2020-11-03T02:02:55Z) - AQuaMuSe: Automatically Generating Datasets for Query-Based
Multi-Document Summarization [17.098075160558576]
本稿では,質問応答データセットと大規模文書コーパスからqMDS例を自動的に抽出する,AQuaMuSeと呼ばれるスケーラブルな手法を提案する。
5,519のクエリベースの要約を持つAQuaMuSeデータセットの特定のインスタンスを公開し、それぞれがCommon Crawlから355万のドキュメントのインデックスから選択された平均6つの入力ドキュメントを関連づける。
論文 参考訳(メタデータ) (2020-10-23T22:38:18Z) - SupMMD: A Sentence Importance Model for Extractive Summarization using
Maximum Mean Discrepancy [92.5683788430012]
SupMMDは、カーネルの2サンプルテストと最大の相違点に基づく、ジェネリックおよび更新の要約のための新しいテクニックである。
DUC-2004 および TAC-2009 データセット上での現在の技術状況を満たしたり超えたりすることで,SupMMD の総合的および更新的要約タスクにおける有効性を示す。
論文 参考訳(メタデータ) (2020-10-06T09:26:55Z) - Corpora Evaluation and System Bias Detection in Multi-document
Summarization [25.131744693121508]
MDS(Multi-document summarization)は、文書の集合から簡潔なテキスト段落にキーポイントを反映するタスクである。
タスクの標準的な定義がないため、さまざまなレベルの重複と、参加するドキュメント間のコンフリクトを持つデータセットに遭遇する。
新しいシステムは、選択したデータセットのセットについて結果を報告し、他のデータセットのパフォーマンスと相関しないかもしれない。
論文 参考訳(メタデータ) (2020-10-05T05:25:43Z) - A Large-Scale Multi-Document Summarization Dataset from the Wikipedia
Current Events Portal [10.553314461761968]
MDS(Multi-document summarization)は、大規模な文書コレクションの内容を短い要約に圧縮することを目的としている。
この研究は、文書クラスタの総数と個々のクラスタのサイズの両方で大きいMDS用の新しいデータセットを示す。
論文 参考訳(メタデータ) (2020-05-20T14:33:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。