論文の概要: Corpora Evaluation and System Bias Detection in Multi-document
Summarization
- arxiv url: http://arxiv.org/abs/2010.01786v1
- Date: Mon, 5 Oct 2020 05:25:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 20:22:18.431440
- Title: Corpora Evaluation and System Bias Detection in Multi-document
Summarization
- Title(参考訳): 多文書要約におけるコーパス評価とシステムバイアス検出
- Authors: Alvin Dey, Tanya Chowdhury, Yash Kumar Atri, Tanmoy Chakraborty
- Abstract要約: MDS(Multi-document summarization)は、文書の集合から簡潔なテキスト段落にキーポイントを反映するタスクである。
タスクの標準的な定義がないため、さまざまなレベルの重複と、参加するドキュメント間のコンフリクトを持つデータセットに遭遇する。
新しいシステムは、選択したデータセットのセットについて結果を報告し、他のデータセットのパフォーマンスと相関しないかもしれない。
- 参考スコア(独自算出の注目度): 25.131744693121508
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-document summarization (MDS) is the task of reflecting key points from
any set of documents into a concise text paragraph. In the past, it has been
used to aggregate news, tweets, product reviews, etc. from various sources.
Owing to no standard definition of the task, we encounter a plethora of
datasets with varying levels of overlap and conflict between participating
documents. There is also no standard regarding what constitutes summary
information in MDS. Adding to the challenge is the fact that new systems report
results on a set of chosen datasets, which might not correlate with their
performance on the other datasets. In this paper, we study this heterogeneous
task with the help of a few widely used MDS corpora and a suite of
state-of-the-art models. We make an attempt to quantify the quality of
summarization corpus and prescribe a list of points to consider while proposing
a new MDS corpus. Next, we analyze the reason behind the absence of an MDS
system which achieves superior performance across all corpora. We then observe
the extent to which system metrics are influenced, and bias is propagated due
to corpus properties. The scripts to reproduce the experiments in this work are
available at https://github.com/LCS2-IIITD/summarization_bias.git.
- Abstract(参考訳): MDS(Multi-document summarization)は、文書の集合から簡潔なテキスト段落にキーポイントを反映するタスクである。
過去には、さまざまなソースからニュースやツイート、製品レビューなどを集約するために使われてきた。
タスクの標準的な定義がないため、さまざまなレベルの重複と、参加するドキュメント間のコンフリクトを持つデータセットに遭遇する。
また、MDSの要約情報を構成する基準も存在しない。
課題に加え、新しいシステムが選択したデータセットのセットを報告し、他のデータセットのパフォーマンスとは相関しない可能性があるという事実がある。
本稿では、この異種タスクを、広く使われているMDSコーパスと最先端モデルの組の助けを借りて研究する。
我々は,要約コーパスの品質を定量化し,新しいMDSコーパスを提案しながら検討すべき点のリストを定めようとする。
次に,全コーパスにおいて優れた性能を実現するMDSシステムがない理由を分析する。
次に,システムメトリクスの影響を受ける範囲を観察し,コーパス特性によりバイアスが伝播する。
この実験を再現するスクリプトはhttps://github.com/lcs2-iiitd/summarization_bias.gitで入手できる。
関連論文リスト
- The Power of Summary-Source Alignments [62.76959473193149]
多文書要約(MDS)は難しい課題であり、しばしばサリエンスと冗長性検出のサブタスクに分解される。
参照要約とそのソース文書間の対応する文のアライメントを利用して、トレーニングデータを生成する。
本稿では,よりきめ細かな提案スパンレベルで適用することで,要約ソースアライメントフレームワークを拡張することを提案する。
論文 参考訳(メタデータ) (2024-06-02T19:35:19Z) - Embrace Divergence for Richer Insights: A Multi-document Summarization Benchmark and a Case Study on Summarizing Diverse Information from News Articles [136.84278943588652]
同一イベントを含む複数のニュース記事において遭遇する多様な情報を要約する新しい課題を提案する。
この作業を容易にするために、多様な情報を特定するためのデータ収集スキーマの概要と、DiverseSummというデータセットをキュレートした。
データセットには245のニュース記事が含まれており、各ストーリーは10のニュース記事からなり、人間公認の参照と組み合わせられる。
論文 参考訳(メタデータ) (2023-09-17T20:28:17Z) - How "Multi" is Multi-Document Summarization? [15.574673241564932]
MDSデータセットの参照要約とシステム要約の両方が、実際に分散情報に基づいていることが期待されている。
「要約が分散する度合いを評価するための自動測度を提案する。」
以上の結果から,MSSデータセットは複数の文書からの情報の組み合わせをほとんど必要とせず,単一の文書が要約内容全体をカバーしていることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T10:20:09Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Unsupervised Summarization with Customized Granularities [76.26899748972423]
本稿では,最初の教師なし多粒度要約フレームワークであるGranuSumを提案する。
異なる数のイベントを入力することで、GranuSumは教師なしの方法で複数の粒度のサマリーを生成することができる。
論文 参考訳(メタデータ) (2022-01-29T05:56:35Z) - HowSumm: A Multi-Document Summarization Dataset Derived from WikiHow
Articles [8.53502615629675]
クエリ中心のマルチドキュメント要約(qMDS)タスクのための,新たな大規模データセットであるHowSummを提案する。
このユースケースは、既存のマルチドキュメント要約(MDS)データセットでカバーされているユースケースと異なり、教育や産業のシナリオに適用できる。
データセットの作成について述べ、他の要約コーパスと区別するユニークな特徴について論じる。
論文 参考訳(メタデータ) (2021-10-07T04:44:32Z) - WSL-DS: Weakly Supervised Learning with Distant Supervision for Query
Focused Multi-Document Abstractive Summarization [16.048329028104643]
Query Focused Multi-Document Summarization (QF-MDS)タスクでは、ドキュメントのセットとクエリが与えられ、そこでこれらのドキュメントから要約を生成する。
このタスクの大きな課題のひとつは、ラベル付きトレーニングデータセットの可用性の欠如である。
本稿では,遠隔指導による弱教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2020-11-03T02:02:55Z) - SupMMD: A Sentence Importance Model for Extractive Summarization using
Maximum Mean Discrepancy [92.5683788430012]
SupMMDは、カーネルの2サンプルテストと最大の相違点に基づく、ジェネリックおよび更新の要約のための新しいテクニックである。
DUC-2004 および TAC-2009 データセット上での現在の技術状況を満たしたり超えたりすることで,SupMMD の総合的および更新的要約タスクにおける有効性を示す。
論文 参考訳(メタデータ) (2020-10-06T09:26:55Z) - Massive Multi-Document Summarization of Product Reviews with Weak
Supervision [11.462916848094403]
製品レビュー要約は、MDS(Multi-Document Summarization)タスクの一種です。
レビューの小さなサンプルを要約すると、重要な情報が失われる可能性がある。
本稿では,標準的な要約アルゴリズムに基づいて,大量のレビューを要約するスキーマを提案する。
論文 参考訳(メタデータ) (2020-07-22T11:22:57Z) - Overview of the TREC 2019 Fair Ranking Track [65.15263872493799]
TREC Fair Ranking トラックの目標は、異なるコンテンツプロバイダに対する公正性の観点から、検索システムを評価するベンチマークを開発することであった。
本稿では,タスク定義やデータ記述,アノテーションプロセスなどを含むトラックの概要について述べる。
論文 参考訳(メタデータ) (2020-03-25T21:34:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。