論文の概要: HowSumm: A Multi-Document Summarization Dataset Derived from WikiHow
Articles
- arxiv url: http://arxiv.org/abs/2110.03179v1
- Date: Thu, 7 Oct 2021 04:44:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-08 15:48:33.038260
- Title: HowSumm: A Multi-Document Summarization Dataset Derived from WikiHow
Articles
- Title(参考訳): HowSumm:WikiHowの記事から得られた複数文書の要約データセット
- Authors: Odellia Boni (1), Guy Feigenblat, Guy Lev (1), Michal Shmueli-Scheuer
(1), Benjamin Sznajder (1), David Konopnicki ((1) IBM Research - AI)
- Abstract要約: textscHowSummは、クエリ中心のマルチドキュメント要約(qMDS)タスクのための新しい大規模データセットである。
このユースケースは、既存のマルチドキュメント要約(MDS)データセットでカバーされているユースケースとは異なる。
我々は,textscHowSumm を利用して要約研究を進めることを提案する。
- 参考スコア(独自算出の注目度): 1.1404212819961732
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present \textsc{HowSumm}, a novel large-scale dataset for the task of
query-focused multi-document summarization (qMDS), which targets the use-case
of generating actionable instructions from a set of sources. This use-case is
different from the use-cases covered in existing multi-document summarization
(MDS) datasets and is applicable to educational and industrial scenarios. We
employed automatic methods, and leveraged statistics from existing
human-crafted qMDS datasets, to create \textsc{HowSumm} from wikiHow website
articles and the sources they cite. We describe the creation of the dataset and
discuss the unique features that distinguish it from other summarization
corpora. Automatic and human evaluations of both extractive and abstractive
summarization models on the dataset reveal that there is room for improvement.
% in existing summarization models We propose that \textsc{HowSumm} can be
leveraged to advance summarization research.
- Abstract(参考訳): 本稿では,クエリ指向マルチドキュメント要約(qmds)タスクのための,新たな大規模データセットである \textsc{howsumm} を提案する。
このユースケースは、既存のマルチドキュメント要約(mds)データセットをカバーするユースケースと異なり、教育および産業シナリオに適用できる。
我々は, wikiHow のウェブサイト記事や引用ソースから \textsc{HowSumm} を作成するために, 自動手法を採用し, 既存の qMDS データセットの統計を利用した。
データセットの作成について述べ、他の要約コーパスと区別するユニークな特徴について論じる。
データセット上の抽出的および抽象的要約モデルの自動的および人的評価は、改善の余地があることを明らかにする。
既成の要約モデルでは, <textsc{HowSumm} を用いて要約研究を進展させることが提案されている。
関連論文リスト
- CRAFT Your Dataset: Task-Specific Synthetic Dataset Generation Through Corpus Retrieval and Augmentation [51.2289822267563]
合成データセットを生成するCRAFT(Corpus Retrieval and Augmentation for Fine-Tuning)を提案する。
我々は、大規模な公開ウェブクローラコーパスと類似性に基づく文書検索を用いて、他の関連する人文文書を検索する。
我々は,CRAFTが4つのタスクに対して,大規模タスク固有のトレーニングデータセットを効率的に生成できることを実証した。
論文 参考訳(メタデータ) (2024-09-03T17:54:40Z) - The Power of Summary-Source Alignments [62.76959473193149]
多文書要約(MDS)は難しい課題であり、しばしばサリエンスと冗長性検出のサブタスクに分解される。
参照要約とそのソース文書間の対応する文のアライメントを利用して、トレーニングデータを生成する。
本稿では,よりきめ細かな提案スパンレベルで適用することで,要約ソースアライメントフレームワークを拡張することを提案する。
論文 参考訳(メタデータ) (2024-06-02T19:35:19Z) - Embrace Divergence for Richer Insights: A Multi-document Summarization Benchmark and a Case Study on Summarizing Diverse Information from News Articles [136.84278943588652]
同一イベントを含む複数のニュース記事において遭遇する多様な情報を要約する新しい課題を提案する。
この作業を容易にするために、多様な情報を特定するためのデータ収集スキーマの概要と、DiverseSummというデータセットをキュレートした。
データセットには245のニュース記事が含まれており、各ストーリーは10のニュース記事からなり、人間公認の参照と組み合わせられる。
論文 参考訳(メタデータ) (2023-09-17T20:28:17Z) - UniSumm and SummZoo: Unified Model and Diverse Benchmark for Few-Shot
Summarization [54.59104881168188]
textscUniSummは、複数の要約タスクで事前訓練された、統合された数ショットの要約モデルである。
textscSummZooは、スクリーンショットの要約をよりよく評価するための新しいベンチマークである。
論文 参考訳(メタデータ) (2022-11-17T18:54:47Z) - How "Multi" is Multi-Document Summarization? [15.574673241564932]
MDSデータセットの参照要約とシステム要約の両方が、実際に分散情報に基づいていることが期待されている。
「要約が分散する度合いを評価するための自動測度を提案する。」
以上の結果から,MSSデータセットは複数の文書からの情報の組み合わせをほとんど必要とせず,単一の文書が要約内容全体をカバーしていることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T10:20:09Z) - Data Augmentation for Abstractive Query-Focused Multi-Document
Summarization [129.96147867496205]
2つのQMDSトレーニングデータセットを提示し,2つのデータ拡張手法を用いて構築する。
これらの2つのデータセットは相補的な性質を持ち、すなわちQMDSCNNは実際のサマリを持つが、クエリはシミュレートされる。
組み合わせたデータセット上にエンドツーエンドのニューラルネットワークモデルを構築し、DUCデータセットに最新の転送結果をもたらします。
論文 参考訳(メタデータ) (2021-03-02T16:57:01Z) - WSL-DS: Weakly Supervised Learning with Distant Supervision for Query
Focused Multi-Document Abstractive Summarization [16.048329028104643]
Query Focused Multi-Document Summarization (QF-MDS)タスクでは、ドキュメントのセットとクエリが与えられ、そこでこれらのドキュメントから要約を生成する。
このタスクの大きな課題のひとつは、ラベル付きトレーニングデータセットの可用性の欠如である。
本稿では,遠隔指導による弱教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2020-11-03T02:02:55Z) - AQuaMuSe: Automatically Generating Datasets for Query-Based
Multi-Document Summarization [17.098075160558576]
本稿では,質問応答データセットと大規模文書コーパスからqMDS例を自動的に抽出する,AQuaMuSeと呼ばれるスケーラブルな手法を提案する。
5,519のクエリベースの要約を持つAQuaMuSeデータセットの特定のインスタンスを公開し、それぞれがCommon Crawlから355万のドキュメントのインデックスから選択された平均6つの入力ドキュメントを関連づける。
論文 参考訳(メタデータ) (2020-10-23T22:38:18Z) - SupMMD: A Sentence Importance Model for Extractive Summarization using
Maximum Mean Discrepancy [92.5683788430012]
SupMMDは、カーネルの2サンプルテストと最大の相違点に基づく、ジェネリックおよび更新の要約のための新しいテクニックである。
DUC-2004 および TAC-2009 データセット上での現在の技術状況を満たしたり超えたりすることで,SupMMD の総合的および更新的要約タスクにおける有効性を示す。
論文 参考訳(メタデータ) (2020-10-06T09:26:55Z) - A Large-Scale Multi-Document Summarization Dataset from the Wikipedia
Current Events Portal [10.553314461761968]
MDS(Multi-document summarization)は、大規模な文書コレクションの内容を短い要約に圧縮することを目的としている。
この研究は、文書クラスタの総数と個々のクラスタのサイズの両方で大きいMDS用の新しいデータセットを示す。
論文 参考訳(メタデータ) (2020-05-20T14:33:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。