論文の概要: PELMS: Pre-training for Effective Low-Shot Multi-Document Summarization
- arxiv url: http://arxiv.org/abs/2311.09836v1
- Date: Thu, 16 Nov 2023 12:05:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 14:17:08.101423
- Title: PELMS: Pre-training for Effective Low-Shot Multi-Document Summarization
- Title(参考訳): PELMS: 効果的な低ショットマルチドキュメント要約のための事前学習
- Authors: Joseph J. Peper, Wenzhao Qiu, Lu Wang
- Abstract要約: PELMSは,簡潔で流動的で忠実な要約を生成する事前学習モデルである。
我々は9300万以上のドキュメントを含むマルチドキュメント事前学習コーパスであるMultiPTをコンパイルし、300万以上の未ラベルのトピック中心のドキュメントクラスタを形成する。
我々のアプローチは、全体的な情報性、抽象性、一貫性、忠実性に関して、競争比較を一貫して上回る。
- 参考スコア(独自算出の注目度): 4.6493060043204535
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We investigate pre-training techniques for abstractive multi-document
summarization (MDS), which is much less studied than summarizing single
documents. Though recent work has demonstrated the effectiveness of
highlighting information salience for pre-training strategy design, it
struggles to generate abstractive and reflective summaries, which are critical
properties for MDS. To this end, we present PELMS, a pre-trained model that
uses objectives based on semantic coherence heuristics and faithfulness
constraints with un-labeled multi-document inputs, to promote the generation of
concise, fluent, and faithful summaries. To support the training of PELMS, we
compile MultiPT, a multi-document pre-training corpus containing over 93
million documents to form more than 3 million unlabeled topic-centric document
clusters, covering diverse genres such as product reviews, news, and general
knowledge. We perform extensive evaluation of PELMS in low-shot settings on a
wide range of MDS datasets. Our approach consistently outperforms competitive
comparisons with respect to overall informativeness, abstractiveness,
coherence, and faithfulness.
- Abstract(参考訳): 本稿では,抽象的多文書要約(MDS)のための事前学習手法について検討する。
近年の研究では,事前学習戦略設計における情報saienceの強調効果が実証されているが,mdsの重要な特性である抽象的・反射的要約の生成に苦慮している。
そこで本研究では,意味的コヒーレンス・ヒューリスティックスと,ラベルのない多文書入力による忠実度制約に基づく目標を用いた事前学習モデル PELMS を提案し,簡潔で流動的で忠実な要約の生成を促進する。
PELMSのトレーニングを支援するために,9300万以上の文書を含むマルチドキュメント事前学習コーパスであるMultiPTをコンパイルし,300万以上の未ラベルのトピック中心のドキュメントクラスタを構築し,製品レビューやニュース,一般知識などのさまざまなジャンルをカバーする。
我々は,多種多様なMDSデータセットにおける低ショット設定におけるPELMSの広範な評価を行う。
我々のアプローチは、全体的な情報性、抽象性、一貫性、忠実性に関する競争比較を一貫して上回る。
関連論文リスト
- Embrace Divergence for Richer Insights: A Multi-document Summarization Benchmark and a Case Study on Summarizing Diverse Information from News Articles [136.84278943588652]
同一イベントを含む複数のニュース記事において遭遇する多様な情報を要約する新しい課題を提案する。
この作業を容易にするために、多様な情報を特定するためのデータ収集スキーマの概要と、DiverseSummというデータセットをキュレートした。
データセットには245のニュース記事が含まれており、各ストーリーは10のニュース記事からなり、人間公認の参照と組み合わせられる。
論文 参考訳(メタデータ) (2023-09-17T20:28:17Z) - Unsupervised Multi-document Summarization with Holistic Inference [41.58777650517525]
本稿では,教師なし多文書抽出要約のための新しい総合的枠組みを提案する。
サブセット代表指数(SRI)は、原文からの文のサブセットの重要性と多様性のバランスをとる。
その結果,多文書要約性能の向上には多様性が不可欠であることが示唆された。
論文 参考訳(メタデータ) (2023-09-08T02:56:30Z) - Peek Across: Improving Multi-Document Modeling via Cross-Document
Question-Answering [49.85790367128085]
我々は,事前学習対象に答える新しいクロスドキュメント質問から,汎用的なマルチドキュメントモデルを事前学習する。
この新規なマルチドキュメントQA定式化は、クロステキスト情報関係をよりよく回復させるようモデルに指示する。
分類タスクや要約タスクに焦点を当てた従来のマルチドキュメントモデルとは異なり、事前学習対象の定式化により、短いテキスト生成と長いテキスト生成の両方を含むタスクを実行できる。
論文 参考訳(メタデータ) (2023-05-24T17:48:40Z) - Towards All-in-one Pre-training via Maximizing Multi-modal Mutual
Information [77.80071279597665]
マルチモーダル相互情報事前学習(M3I事前学習)を最大化するオールインワン単段階事前学習手法を提案する。
提案手法は,ImageNet分類,オブジェクト検出,LVIS長鎖オブジェクト検出,ADE20kセマンティックセマンティックセマンティックセマンティクスなど,様々なビジョンベンチマークにおける事前学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-11-17T18:59:49Z) - A Multi-Document Coverage Reward for RELAXed Multi-Document
Summarization [11.02198476454955]
本稿では,MDSの基準値と入力文書のカバレッジのバランスをとる報酬を付与したMDSベースラインの微調整を提案する。
Multi-NewsおよびWCEP MDSデータセットに対する実験結果から、ベースライン上での平均ROUGEスコアが+0.95pp、METEORスコアが+3.17ppと大幅に改善された。
論文 参考訳(メタデータ) (2022-03-06T07:33:01Z) - Topic-Guided Abstractive Multi-Document Summarization [21.856615677793243]
多文書要約(MDS)の重要なポイントは、様々な文書間の関係を学習することである。
異種グラフとして複数の文書を表現できる新しい抽象MDSモデルを提案する。
我々は、クロスドキュメントセマンティックユニットとして機能する潜在トピックを共同で発見するために、ニューラルトピックモデルを採用している。
論文 参考訳(メタデータ) (2021-10-21T15:32:30Z) - PoBRL: Optimizing Multi-Document Summarization by Blending Reinforcement
Learning Policies [68.8204255655161]
マルチドキュメントの要約を解くための強化学習ベースのフレームワーク PoBRL を提案する。
私たちの戦略は、この多対象最適化を、強化学習によって個別に解決できるさまざまなサブ問題に分離します。
実験結果から,複数のマルチドキュメントデータセットにおける最先端の性能を示す。
論文 参考訳(メタデータ) (2021-05-18T02:55:42Z) - WSL-DS: Weakly Supervised Learning with Distant Supervision for Query
Focused Multi-Document Abstractive Summarization [16.048329028104643]
Query Focused Multi-Document Summarization (QF-MDS)タスクでは、ドキュメントのセットとクエリが与えられ、そこでこれらのドキュメントから要約を生成する。
このタスクの大きな課題のひとつは、ラベル付きトレーニングデータセットの可用性の欠如である。
本稿では,遠隔指導による弱教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2020-11-03T02:02:55Z) - SummPip: Unsupervised Multi-Document Summarization with Sentence Graph
Compression [61.97200991151141]
SummPipはマルチドキュメント要約のための教師なしの手法である。
元の文書を文グラフに変換し、言語表現と深層表現の両方を考慮に入れます。
次に、スペクトルクラスタリングを適用して複数の文のクラスタを取得し、最後に各クラスタを圧縮して最終的な要約を生成する。
論文 参考訳(メタデータ) (2020-07-17T13:01:15Z) - Pre-training via Paraphrasing [96.79972492585112]
教師なし多言語パラフレージング目的を用いて学習した,事前学習されたシーケンス・ツー・シーケンスモデルであるMARGEを紹介する。
ランダムな初期化のみを前提として,検索と再構築を共同で行うことができることを示す。
例えば、追加のタスク固有のトレーニングがなければ、文書翻訳のBLEUスコアは最大35.8に達する。
論文 参考訳(メタデータ) (2020-06-26T14:43:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。