論文の概要: Principled Content Selection to Generate Diverse and Personalized Multi-Document Summaries
- arxiv url: http://arxiv.org/abs/2505.21859v1
- Date: Wed, 28 May 2025 01:12:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.348171
- Title: Principled Content Selection to Generate Diverse and Personalized Multi-Document Summaries
- Title(参考訳): 多様な文書をパーソナライズする基本コンテンツ選択法
- Authors: Vishakh Padmakumar, Zichao Wang, David Arbour, Jennifer Healey,
- Abstract要約: 大規模言語モデルは「中間の失われた」現象を示す。
これにより、多文書要約において様々な素材をカバーできなくなる。
我々は、このタスクのソースカバレッジを高めるために、原則付きコンテンツ選択が簡単な方法であることを示す。
- 参考スコア(独自算出の注目度): 23.46979218958048
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large language models (LLMs) are increasingly capable of handling longer contexts, recent work has demonstrated that they exhibit the "lost in the middle" phenomenon (Liu et al., 2024) of unevenly attending to different parts of the provided context. This hinders their ability to cover diverse source material in multi-document summarization, as noted in the DiverseSumm benchmark (Huang et al., 2024). In this work, we contend that principled content selection is a simple way to increase source coverage on this task. As opposed to prompting an LLM to perform the summarization in a single step, we explicitly divide the task into three steps -- (1) reducing document collections to atomic key points, (2) using determinantal point processes (DPP) to perform select key points that prioritize diverse content, and (3) rewriting to the final summary. By combining prompting steps, for extraction and rewriting, with principled techniques, for content selection, we consistently improve source coverage on the DiverseSumm benchmark across various LLMs. Finally, we also show that by incorporating relevance to a provided user intent into the DPP kernel, we can generate personalized summaries that cover relevant source information while retaining coverage.
- Abstract(参考訳): 大規模言語モデル(LLM)は、より長いコンテキストを扱う能力がますます高まっているが、最近の研究は、提供されたコンテキストの異なる部分に不均一に参加する「中間にあるロスト」現象(Liu et al , 2024)を示すことを示した。
これは、DiverseSummベンチマーク(Huang et al , 2024)に記載されているように、多文書要約において様々なソースをカバーできる能力を妨げる。
本研究では,この課題のソースカバレッジを高めるために,原則的コンテンツ選択が簡単な方法である,と論じる。
1)文書コレクションをアトミックキーポイントに減らし、(2)決定点プロセス(DPP)を使用して、多様なコンテンツを優先する選択キーポイントを実行し、(3)最終要約に書き換える。
抽出と書き直しのプロンプトステップと,原則的手法,コンテンツ選択のステップを組み合わせることで,多種多様なLCMを対象としたDiverseSummベンチマークのソースカバレッジを一貫して改善する。
最後に, DPPカーネルに提供されたユーザ意図に関連性を持たせることで, カバー範囲を維持しながら, 関連するソース情報をカバーするパーソナライズされた要約を生成することができることを示す。
関連論文リスト
- Reinforcing Compositional Retrieval: Retrieving Step-by-Step for Composing Informative Contexts [67.67746334493302]
大規模言語モデル(LLM)は、多くのタスクにまたがる顕著な機能を示してきたが、複雑なタスクを扱うために外部のコンテキストに依存していることが多い。
我々は、このプロセスをマルコフ決定プロセス(MDP)としてモデル化するトリエンコーダシーケンシャルレトリバーを提案する。
提案手法は,サンプル間の依存関係を明示的にモデル化することの重要性を強調し,ベースラインを一貫して大幅に上回ることを示す。
論文 参考訳(メタデータ) (2025-04-15T17:35:56Z) - The Power of Summary-Source Alignments [62.76959473193149]
多文書要約(MDS)は難しい課題であり、しばしばサリエンスと冗長性検出のサブタスクに分解される。
参照要約とそのソース文書間の対応する文のアライメントを利用して、トレーニングデータを生成する。
本稿では,よりきめ細かな提案スパンレベルで適用することで,要約ソースアライメントフレームワークを拡張することを提案する。
論文 参考訳(メタデータ) (2024-06-02T19:35:19Z) - A Modular Approach for Multimodal Summarization of TV Shows [55.20132267309382]
分離されたコンポーネントが特別なサブタスクを実行するモジュール方式を提案する。
我々のモジュールは、シーン境界の検出、異なるイベント間のカット回数の最小化、視覚情報をテキストに変換すること、各シーンの対話を要約すること、シーン要約をエピソード全体の最終要約に融合することを含む。
我々はまた、生成した要約の精度とリコールを計測し、原子事実に分解する新しい測度であるPRISMAを提示する。
論文 参考訳(メタデータ) (2024-03-06T16:10:01Z) - LLM Based Multi-Document Summarization Exploiting Main-Event Biased
Monotone Submodular Content Extraction [42.171703872560286]
マルチドキュメントの要約は、その固有の主観的バイアスのために難しい課題である。
我々は,関連ニュース資料群の主要イベントに着目し,ニュース要約の客観性を高めることを目的としている。
論文 参考訳(メタデータ) (2023-10-05T09:38:09Z) - Embrace Divergence for Richer Insights: A Multi-document Summarization Benchmark and a Case Study on Summarizing Diverse Information from News Articles [136.84278943588652]
同一イベントを含む複数のニュース記事において遭遇する多様な情報を要約する新しい課題を提案する。
この作業を容易にするために、多様な情報を特定するためのデータ収集スキーマの概要と、DiverseSummというデータセットをキュレートした。
データセットには245のニュース記事が含まれており、各ストーリーは10のニュース記事からなり、人間公認の参照と組み合わせられる。
論文 参考訳(メタデータ) (2023-09-17T20:28:17Z) - Absformer: Transformer-based Model for Unsupervised Multi-Document
Abstractive Summarization [1.066048003460524]
MDS(Multi-document summarization)とは、複数の文書のテキストを簡潔な要約に要約する作業である。
抽象MDSは、自然言語生成技術を用いて、複数の文書の一貫性と流動性を備えた要約を生成することを目的としている。
本稿では、教師なし抽象要約生成のためのトランスフォーマーに基づく新しい手法であるAbsformerを提案する。
論文 参考訳(メタデータ) (2023-06-07T21:18:23Z) - Leveraging Information Bottleneck for Scientific Document Summarization [26.214930773343887]
本稿では,科学的長期文書を要約するための教師なし抽出手法を提案する。
文圧縮にInformation Bottleneckの原理を用いた以前の研究に触発され、文書レベルの要約に拡張する。
論文 参考訳(メタデータ) (2021-10-04T09:43:47Z) - A New Approach to Overgenerating and Scoring Abstractive Summaries [9.060597430218378]
ステージ1ではソーステキストから多様な候補要約を生成し,ステージ2では許容候補をスコア付けして選択する2段階戦略を提案する。
私達の発電機はスペースが限られているとき特に適している要約の長さの精密な制御を与えます。
我々のセレクタは、最適な要約長を予測し、元のテキストに忠実さを特に強調するように設計されている。
論文 参考訳(メタデータ) (2021-04-05T00:29:45Z) - SupMMD: A Sentence Importance Model for Extractive Summarization using
Maximum Mean Discrepancy [92.5683788430012]
SupMMDは、カーネルの2サンプルテストと最大の相違点に基づく、ジェネリックおよび更新の要約のための新しいテクニックである。
DUC-2004 および TAC-2009 データセット上での現在の技術状況を満たしたり超えたりすることで,SupMMD の総合的および更新的要約タスクにおける有効性を示す。
論文 参考訳(メタデータ) (2020-10-06T09:26:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。