論文の概要: Multi-Document Summarization with Centroid-Based Pretraining
- arxiv url: http://arxiv.org/abs/2208.01006v2
- Date: Wed, 31 May 2023 14:37:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 04:18:14.962209
- Title: Multi-Document Summarization with Centroid-Based Pretraining
- Title(参考訳): centroid-based pretrainingを用いたマルチドキュメント要約
- Authors: Ratish Puduppully and Parag Jain and Nancy F. Chen and Mark Steedman
- Abstract要約: Multi-Document Summarization (MDS)では、入力は文書の集合としてモデル化することができ、出力はその要約である。
本稿では,各ドキュメントクラスタのROUGEベースのセントロイドを,その要約のプロキシとして選択する,新たな事前学習目標を提案する。
したがって、本研究の目的は、人による要約を必要とせず、文書集合のみからなるデータセットの事前学習に利用することができる。
- 参考スコア(独自算出の注目度): 35.8335939654861
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In Multi-Document Summarization (MDS), the input can be modeled as a set of
documents, and the output is its summary. In this paper, we focus on
pretraining objectives for MDS. Specifically, we introduce a novel pretraining
objective, which involves selecting the ROUGE-based centroid of each document
cluster as a proxy for its summary. Our objective thus does not require human
written summaries and can be utilized for pretraining on a dataset consisting
solely of document sets. Through zero-shot, few-shot, and fully supervised
experiments on multiple MDS datasets, we show that our model Centrum is better
or comparable to a state-of-the-art model. We make the pretrained and
fine-tuned models freely available to the research community
https://github.com/ratishsp/centrum.
- Abstract(参考訳): Multi-Document Summarization (MDS)では、入力は文書の集合としてモデル化することができ、出力はその要約である。
本稿では,mdsの事前学習目標について述べる。
具体的には,各文書クラスタのルージュベースのセンタロイドを要約のプロキシとして選択する,新しい事前学習目標を提案する。
この目的は人による要約を必要とせず、文書集合のみからなるデータセットの事前学習に利用できる。
ゼロショット、少数ショット、完全に教師された複数のMDSデータセットの実験を通して、私たちのモデルCentrumは最先端のモデルより優れているか、あるいは同等であることを示す。
我々は、事前訓練された、そして微調整されたモデルを、リサーチコミュニティ https://github.com/ratishsp/centrum.comに無料で提供します。
関連論文リスト
- Federated Document Visual Question Answering: A Pilot Study [11.157766332838877]
文書は著作権や私的な情報を含む傾向があり、公開を禁止している。
本研究では,分散化されたプライベートドキュメントデータに基づく共有モデルの学習方法として,フェデレーション付き学習スキームの利用について検討する。
我々は,さまざまなDocVQAデータセットを用いたフェデレーショントレーニングにおいて,事前学習戦略が効果的に学習し,スケールアップ可能であることを示す。
論文 参考訳(メタデータ) (2024-05-10T17:53:05Z) - PELMS: Pre-training for Effective Low-Shot Multi-Document Summarization [4.6493060043204535]
PELMSは,簡潔で流動的で忠実な要約を生成する事前学習モデルである。
我々は9300万以上のドキュメントを含むマルチドキュメント事前学習コーパスであるMultiPTをコンパイルし、300万以上の未ラベルのトピック中心のドキュメントクラスタを形成する。
我々のアプローチは、全体的な情報性、抽象性、一貫性、忠実性に関して、競争比較を一貫して上回る。
論文 参考訳(メタデータ) (2023-11-16T12:05:23Z) - Peek Across: Improving Multi-Document Modeling via Cross-Document
Question-Answering [49.85790367128085]
我々は,事前学習対象に答える新しいクロスドキュメント質問から,汎用的なマルチドキュメントモデルを事前学習する。
この新規なマルチドキュメントQA定式化は、クロステキスト情報関係をよりよく回復させるようモデルに指示する。
分類タスクや要約タスクに焦点を当てた従来のマルチドキュメントモデルとは異なり、事前学習対象の定式化により、短いテキスト生成と長いテキスト生成の両方を含むタスクを実行できる。
論文 参考訳(メタデータ) (2023-05-24T17:48:40Z) - How "Multi" is Multi-Document Summarization? [15.574673241564932]
MDSデータセットの参照要約とシステム要約の両方が、実際に分散情報に基づいていることが期待されている。
「要約が分散する度合いを評価するための自動測度を提案する。」
以上の結果から,MSSデータセットは複数の文書からの情報の組み合わせをほとんど必要とせず,単一の文書が要約内容全体をカバーしていることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T10:20:09Z) - Unsupervised Summarization with Customized Granularities [76.26899748972423]
本稿では,最初の教師なし多粒度要約フレームワークであるGranuSumを提案する。
異なる数のイベントを入力することで、GranuSumは教師なしの方法で複数の粒度のサマリーを生成することができる。
論文 参考訳(メタデータ) (2022-01-29T05:56:35Z) - PRIMER: Pyramid-based Masked Sentence Pre-training for Multi-document
Summarization [16.830963601598242]
要約に着目した多文書表現のための事前学習モデルであるPRIMERを提案する。
具体的には,マルチドキュメント入力に適した適切な入力変換とグローバルアテンションを備えたLongformerアーキテクチャを採用する。
私たちのモデルであるPRIMERは、これらのほとんどの設定において、現在の最先端モデルよりも大きなマージンでパフォーマンスします。
論文 参考訳(メタデータ) (2021-10-16T07:22:24Z) - WSL-DS: Weakly Supervised Learning with Distant Supervision for Query
Focused Multi-Document Abstractive Summarization [16.048329028104643]
Query Focused Multi-Document Summarization (QF-MDS)タスクでは、ドキュメントのセットとクエリが与えられ、そこでこれらのドキュメントから要約を生成する。
このタスクの大きな課題のひとつは、ラベル付きトレーニングデータセットの可用性の欠如である。
本稿では,遠隔指導による弱教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2020-11-03T02:02:55Z) - SupMMD: A Sentence Importance Model for Extractive Summarization using
Maximum Mean Discrepancy [92.5683788430012]
SupMMDは、カーネルの2サンプルテストと最大の相違点に基づく、ジェネリックおよび更新の要約のための新しいテクニックである。
DUC-2004 および TAC-2009 データセット上での現在の技術状況を満たしたり超えたりすることで,SupMMD の総合的および更新的要約タスクにおける有効性を示す。
論文 参考訳(メタデータ) (2020-10-06T09:26:55Z) - SummPip: Unsupervised Multi-Document Summarization with Sentence Graph
Compression [61.97200991151141]
SummPipはマルチドキュメント要約のための教師なしの手法である。
元の文書を文グラフに変換し、言語表現と深層表現の両方を考慮に入れます。
次に、スペクトルクラスタリングを適用して複数の文のクラスタを取得し、最後に各クラスタを圧縮して最終的な要約を生成する。
論文 参考訳(メタデータ) (2020-07-17T13:01:15Z) - Pre-training for Abstractive Document Summarization by Reinstating
Source Text [105.77348528847337]
本稿では,Seq2Seqに基づく非ラベルテキストによる抽象要約モデルの事前学習を可能にする3つの事前学習目標を提案する。
2つのベンチマーク要約データセットの実験では、3つの目的がすべてベースラインでパフォーマンスを向上させることが示されている。
論文 参考訳(メタデータ) (2020-04-04T05:06:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。