論文の概要: PDSum: Prototype-driven Continuous Summarization of Evolving
Multi-document Sets Stream
- arxiv url: http://arxiv.org/abs/2302.05550v1
- Date: Fri, 10 Feb 2023 23:43:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 19:58:14.115618
- Title: PDSum: Prototype-driven Continuous Summarization of Evolving
Multi-document Sets Stream
- Title(参考訳): PDSum: 進化するマルチドキュメントセットストリームのプロトタイプ駆動連続要約
- Authors: Susik Yoon, Hou Pong Chan, Jiawei Han
- Abstract要約: 我々は,新たな要約問題であるマルチドキュメントセットストリーム要約(EMDS)を提案する。
本稿では,プロトタイプ駆動連続要約のアイデアを取り入れた新しい教師なしアルゴリズムPDSumを紹介する。
PDSumは、各マルチドキュメントセットの軽量プロトタイプを構築し、それを利用して、新しいドキュメントに適応する。
- 参考スコア(独自算出の注目度): 33.68263291948121
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Summarizing text-rich documents has been long studied in the literature, but
most of the existing efforts have been made to summarize a static and
predefined multi-document set. With the rapid development of online platforms
for generating and distributing text-rich documents, there arises an urgent
need for continuously summarizing dynamically evolving multi-document sets
where the composition of documents and sets is changing over time. This is
especially challenging as the summarization should be not only effective in
incorporating relevant, novel, and distinctive information from each concurrent
multi-document set, but also efficient in serving online applications. In this
work, we propose a new summarization problem, Evolving Multi-Document sets
stream Summarization (EMDS), and introduce a novel unsupervised algorithm PDSum
with the idea of prototype-driven continuous summarization. PDSum builds a
lightweight prototype of each multi-document set and exploits it to adapt to
new documents while preserving accumulated knowledge from previous documents.
To update new summaries, the most representative sentences for each
multi-document set are extracted by measuring their similarities to the
prototypes. A thorough evaluation with real multi-document sets streams
demonstrates that PDSum outperforms state-of-the-art unsupervised
multi-document summarization algorithms in EMDS in terms of relevance, novelty,
and distinctiveness and is also robust to various evaluation settings.
- Abstract(参考訳): テキストリッチな文書の要約は長年にわたって文献で研究されてきたが,既存の作業の大部分は,静的かつ事前定義された多文書集合を要約するためのものである。
テキストリッチな文書を生成・配布するためのオンラインプラットフォームの急速な発展に伴い、文書と集合の構成が時間とともに変化しているマルチドキュメント集合を動的に進化させ続ける必要がある。
要約は、複数の同時文書セットから関連性、斬新、独特な情報を取り入れることだけでなく、オンラインアプリケーションの提供にも効果的であることから、特に難しい。
本研究では,複数文書集合のストリーム要約(emds)を進化させる新しい要約問題を提案し,プロトタイプ駆動連続要約という概念を持つ新しい教師なしアルゴリズムpdsumを提案する。
PDSumは、各マルチドキュメントセットの軽量プロトタイプを構築し、それを利用して、以前のドキュメントから蓄積した知識を保持しながら、新しいドキュメントに適応する。
新しい要約を更新するために、各多文書集合の最も代表的な文は、プロトタイプと類似度を測定して抽出する。
実マルチドキュメントセットストリームによる徹底的な評価は、PDSumがEMDSのステート・オブ・ザ・テクストの教師なしマルチドキュメント・サマリゼーションアルゴリズムを、関連性、新規性、特異性の観点から上回り、様々な評価設定にも堅牢であることを示す。
関連論文リスト
- Unified Multi-Modal Interleaved Document Representation for Information Retrieval [57.65409208879344]
我々は、異なるモダリティでインターリーブされた文書を均等に埋め込み、より包括的でニュアンスのある文書表現を生成する。
具体的には、テキスト、画像、テーブルの処理と統合を統一されたフォーマットと表現に統合する、近年のビジョン言語モデルの能力を活用して、これを実現する。
論文 参考訳(メタデータ) (2024-10-03T17:49:09Z) - Peek Across: Improving Multi-Document Modeling via Cross-Document
Question-Answering [49.85790367128085]
我々は,事前学習対象に答える新しいクロスドキュメント質問から,汎用的なマルチドキュメントモデルを事前学習する。
この新規なマルチドキュメントQA定式化は、クロステキスト情報関係をよりよく回復させるようモデルに指示する。
分類タスクや要約タスクに焦点を当てた従来のマルチドキュメントモデルとは異なり、事前学習対象の定式化により、短いテキスト生成と長いテキスト生成の両方を含むタスクを実行できる。
論文 参考訳(メタデータ) (2023-05-24T17:48:40Z) - A Hierarchical Encoding-Decoding Scheme for Abstractive Multi-document
Summarization [66.08074487429477]
事前学習言語モデル(PLM)は、抽象的な単一文書要約(SDS)において優れた成果を上げている。
本稿では,多文書要約(MDS)タスクにおける多文書間相互作用を容易にするために,PLMをよりよく活用する手法を提案する。
提案手法は, 最大3ルージュLのPLMバックボーンよりも優れており, 人間に好まれる。
論文 参考訳(メタデータ) (2023-05-15T10:03:31Z) - Mining both Commonality and Specificity from Multiple Documents for
Multi-Document Summarization [1.4629756274247374]
多文書要約タスクでは、設計した要約者が、原文書の重要な情報をカバーする短いテキストを生成する必要がある。
本稿では,文書の階層的クラスタリングに基づくマルチドキュメント要約手法を提案する。
論文 参考訳(メタデータ) (2023-03-05T14:25:05Z) - Large-Scale Multi-Document Summarization with Information Extraction and
Compression [31.601707033466766]
複数の異種文書のラベル付きデータとは無関係に抽象的な要約フレームワークを開発する。
我々のフレームワークは、同じトピックのドキュメントではなく、異なるストーリーを伝えるドキュメントを処理する。
我々の実験は、このより汎用的な設定において、我々のフレームワークが現在の最先端メソッドより優れていることを示した。
論文 参考訳(メタデータ) (2022-05-01T19:49:15Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - Modeling Endorsement for Multi-Document Abstractive Summarization [10.166639983949887]
単一文書の要約と多文書の要約の重大な違いは、文書の中で健全なコンテンツがどのように現れるかである。
本稿では,複数文書要約における文書間補完効果とその活用をモデル化する。
提案手法は各文書から合成を生成し,他の文書から有意な内容を識別する支援者として機能する。
論文 参考訳(メタデータ) (2021-10-15T03:55:42Z) - WSL-DS: Weakly Supervised Learning with Distant Supervision for Query
Focused Multi-Document Abstractive Summarization [16.048329028104643]
Query Focused Multi-Document Summarization (QF-MDS)タスクでは、ドキュメントのセットとクエリが与えられ、そこでこれらのドキュメントから要約を生成する。
このタスクの大きな課題のひとつは、ラベル付きトレーニングデータセットの可用性の欠如である。
本稿では,遠隔指導による弱教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2020-11-03T02:02:55Z) - SupMMD: A Sentence Importance Model for Extractive Summarization using
Maximum Mean Discrepancy [92.5683788430012]
SupMMDは、カーネルの2サンプルテストと最大の相違点に基づく、ジェネリックおよび更新の要約のための新しいテクニックである。
DUC-2004 および TAC-2009 データセット上での現在の技術状況を満たしたり超えたりすることで,SupMMD の総合的および更新的要約タスクにおける有効性を示す。
論文 参考訳(メタデータ) (2020-10-06T09:26:55Z) - Towards a Multi-modal, Multi-task Learning based Pre-training Framework
for Document Representation Learning [5.109216329453963]
本稿では,新しい事前学習タスクとして,文書トピックモデリングと文書シャッフル予測を導入する。
本稿では,Longformer ネットワークアーキテクチャをバックボーンとして,複数ページの文書からのマルチモーダル情報をエンド・ツー・エンドで符号化する。
論文 参考訳(メタデータ) (2020-09-30T05:39:04Z) - SummPip: Unsupervised Multi-Document Summarization with Sentence Graph
Compression [61.97200991151141]
SummPipはマルチドキュメント要約のための教師なしの手法である。
元の文書を文グラフに変換し、言語表現と深層表現の両方を考慮に入れます。
次に、スペクトルクラスタリングを適用して複数の文のクラスタを取得し、最後に各クラスタを圧縮して最終的な要約を生成する。
論文 参考訳(メタデータ) (2020-07-17T13:01:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。