論文の概要: Embrace Divergence for Richer Insights: A Multi-document Summarization
Benchmark and a Case Study on Summarizing Diverse Information from News
Articles
- arxiv url: http://arxiv.org/abs/2309.09369v1
- Date: Sun, 17 Sep 2023 20:28:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 15:50:08.043725
- Title: Embrace Divergence for Richer Insights: A Multi-document Summarization
Benchmark and a Case Study on Summarizing Diverse Information from News
Articles
- Title(参考訳): リッチインサイトのためのエンブレス多様性:多文書要約ベンチマークとニュース記事からの異種情報の要約に関する事例研究
- Authors: Kung-Hsiang Huang, Philippe Laban, Alexander R. Fabbri, Prafulla Kumar
Choubey, Shafiq Joty, Caiming Xiong, Chien-Sheng Wu
- Abstract要約: 同一イベントを含む複数のニュース記事において遭遇する多様な情報を要約する新しい課題を提案する。
この作業を容易にするために、多様な情報を特定するためのデータ収集スキーマの概要と、DiverseSummというデータセットをキュレートした。
データセットには245のニュース記事が含まれており、各ストーリーは10のニュース記事からなり、人間公認の参照と組み合わせられる。
- 参考スコア(独自算出の注目度): 142.7366365876213
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Previous research in multi-document news summarization has typically
concentrated on collating information that all sources agree upon. However, to
our knowledge, the summarization of diverse information dispersed across
multiple articles about an event has not been previously investigated. The
latter imposes a different set of challenges for a summarization model. In this
paper, we propose a new task of summarizing diverse information encountered in
multiple news articles encompassing the same event. To facilitate this task, we
outlined a data collection schema for identifying diverse information and
curated a dataset named DiverseSumm. The dataset includes 245 news stories,
with each story comprising 10 news articles and paired with a human-validated
reference. Moreover, we conducted a comprehensive analysis to pinpoint the
position and verbosity biases when utilizing Large Language Model (LLM)-based
metrics for evaluating the coverage and faithfulness of the summaries, as well
as their correlation with human assessments. We applied our findings to study
how LLMs summarize multiple news articles by analyzing which type of diverse
information LLMs are capable of identifying. Our analyses suggest that despite
the extraordinary capabilities of LLMs in single-document summarization, the
proposed task remains a complex challenge for them mainly due to their limited
coverage, with GPT-4 only able to cover less than 40% of the diverse
information on average.
- Abstract(参考訳): 複数文書のニュース要約に関するこれまでの研究は、通常、すべての情報源が同意する情報の照合に集中している。
しかし、我々の知識では、イベントに関する複数の記事に分散した多様な情報の要約は、以前にも研究されていない。
後者は、要約モデルに対して異なる課題のセットを課している。
本稿では,同一イベントを含む複数のニュース記事において遭遇する多様な情報を要約するタスクを提案する。
この作業を容易にするために,我々は,多様な情報を識別するためのデータ収集スキーマを概説し, differentsumm というデータセットをキュレートした。
データセットには245のニュース記事が含まれており、各ストーリーは10のニュース記事からなり、人間公認の参照と組み合わせられる。
さらに,大規模言語モデル(llm)に基づく指標を用いて要約文のカバレッジと忠実性を評価する場合の位置と冗長性バイアスと,その人間評価との相関関係を包括的に分析した。
本稿では,LLMが複数のニュース記事をどのように要約するかを,LLMが識別できる多様な情報の種類を分析して検討した。
本研究は, 単一文書要約におけるLCMの異常な能力にもかかわらず, GPT-4は平均的な多様性情報の40%以下しかカバーできないため, 提案課題は依然として複雑であることを示す。
関連論文リスト
- MetaSumPerceiver: Multimodal Multi-Document Evidence Summarization for Fact-Checking [0.283600654802951]
マルチモーダルデータセットからファクトチェックに有用なクレーム固有の要約を生成するために設計された要約モデルを提案する。
任意の長さの複数のモードから入力を処理できる動的知覚モデルを提案する。
提案手法は,MOCHEGデータセットのクレーム検証タスクにおいて,SOTAアプローチを4.6%向上させる。
論文 参考訳(メタデータ) (2024-07-18T01:33:20Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - SEAM: A Stochastic Benchmark for Multi-Document Tasks [30.153949809172605]
現在、マルチドキュメントタスクにおける大規模言語モデル(LLM)の能力を測定するベンチマークは存在しない。
マルチドキュメントタスクの評価手法であるSEAM(SEAM: Evaluation Approach for Multi-document task)を提案する。
マルチドキュメントタスクは,70Bパラメータを持つ最先端モデルであっても,LLMにとって大きな課題となる。
論文 参考訳(メタデータ) (2024-06-23T11:57:53Z) - Exploring the Capabilities of Large Multimodal Models on Dense Text [58.82262549456294]
我々は170万の質問応答対を持つDT-VQAデータセットを提案する。
本稿では,GPT4V,Gemini,および各種オープンソースLMMの総合評価を行う。
自動的にラベル付けされたトレーニングデータセットであっても、モデルパフォーマンスの大幅な改善が達成できる。
論文 参考訳(メタデータ) (2024-05-09T07:47:25Z) - Benchmarking LLMs on the Semantic Overlap Summarization Task [9.656095701778975]
本稿では,セマンティック・オーバーラップ・サマリゼーション(SOS)タスクにおいて,Large Language Models (LLM) を包括的に評価する。
本稿では, ROUGE, BERTscore, SEM-F1$などの定評ある指標を, 2種類の代替物語のデータセット上で報告する。
論文 参考訳(メタデータ) (2024-02-26T20:33:50Z) - MM-BigBench: Evaluating Multimodal Models on Multimodal Content
Comprehension Tasks [56.60050181186531]
MM-BigBenchを導入し、様々なモデルや命令のパフォーマンスを広範囲に評価する。
本稿では,6タスクにまたがる14のマルチモーダルデータセット上で,20の言語モデル (14 MLLM) を評価し,各タスクに10の指示を与え,新しい洞察を導き出す。
論文 参考訳(メタデータ) (2023-10-13T11:57:04Z) - UniSumm and SummZoo: Unified Model and Diverse Benchmark for Few-Shot
Summarization [54.59104881168188]
textscUniSummは、複数の要約タスクで事前訓練された、統合された数ショットの要約モデルである。
textscSummZooは、スクリーンショットの要約をよりよく評価するための新しいベンチマークである。
論文 参考訳(メタデータ) (2022-11-17T18:54:47Z) - How "Multi" is Multi-Document Summarization? [15.574673241564932]
MDSデータセットの参照要約とシステム要約の両方が、実際に分散情報に基づいていることが期待されている。
「要約が分散する度合いを評価するための自動測度を提案する。」
以上の結果から,MSSデータセットは複数の文書からの情報の組み合わせをほとんど必要とせず,単一の文書が要約内容全体をカバーしていることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T10:20:09Z) - HowSumm: A Multi-Document Summarization Dataset Derived from WikiHow
Articles [8.53502615629675]
クエリ中心のマルチドキュメント要約(qMDS)タスクのための,新たな大規模データセットであるHowSummを提案する。
このユースケースは、既存のマルチドキュメント要約(MDS)データセットでカバーされているユースケースと異なり、教育や産業のシナリオに適用できる。
データセットの作成について述べ、他の要約コーパスと区別するユニークな特徴について論じる。
論文 参考訳(メタデータ) (2021-10-07T04:44:32Z) - SupMMD: A Sentence Importance Model for Extractive Summarization using
Maximum Mean Discrepancy [92.5683788430012]
SupMMDは、カーネルの2サンプルテストと最大の相違点に基づく、ジェネリックおよび更新の要約のための新しいテクニックである。
DUC-2004 および TAC-2009 データセット上での現在の技術状況を満たしたり超えたりすることで,SupMMD の総合的および更新的要約タスクにおける有効性を示す。
論文 参考訳(メタデータ) (2020-10-06T09:26:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。