論文の概要: DiffuSum: Generation Enhanced Extractive Summarization with Diffusion
- arxiv url: http://arxiv.org/abs/2305.01735v2
- Date: Thu, 11 May 2023 06:57:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-12 17:22:40.136878
- Title: DiffuSum: Generation Enhanced Extractive Summarization with Diffusion
- Title(参考訳): DiffuSum: 拡散による抽出要約の高速化
- Authors: Haopeng Zhang, Xiao Liu, Jiawei Zhang
- Abstract要約: 抽出要約は、ソース文書から直接文章を抽出することで要約を形成することを目的としている。
本稿では,抽出要約のための新しいパラダイムであるDiffuSumを提案する。
実験結果から, ROUGEスコアが44.83/22.56/40.56$のCNN/DailyMailにおけるDiffuSumの抽出結果が得られた。
- 参考スコア(独自算出の注目度): 14.930704950433324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extractive summarization aims to form a summary by directly extracting
sentences from the source document. Existing works mostly formulate it as a
sequence labeling problem by making individual sentence label predictions. This
paper proposes DiffuSum, a novel paradigm for extractive summarization, by
directly generating the desired summary sentence representations with diffusion
models and extracting sentences based on sentence representation matching. In
addition, DiffuSum jointly optimizes a contrastive sentence encoder with a
matching loss for sentence representation alignment and a multi-class
contrastive loss for representation diversity. Experimental results show that
DiffuSum achieves the new state-of-the-art extractive results on CNN/DailyMail
with ROUGE scores of $44.83/22.56/40.56$. Experiments on the other two datasets
with different summary lengths also demonstrate the effectiveness of DiffuSum.
The strong performance of our framework shows the great potential of adapting
generative models for extractive summarization. To encourage more following
work in the future, we have released our codes at
\url{https://github.com/hpzhang94/DiffuSum}
- Abstract(参考訳): 抽出要約は、ソース文書から直接文章を抽出することで要約を形成することを目的としている。
既存の研究は主に、個々の文ラベルを予測することによって、シーケンスラベル問題として定式化している。
本稿では,拡散モデルを用いて所望の要約文表現を直接生成し,文表現マッチングに基づいて文を抽出することで,抽出要約のための新しいパラダイムであるdiffusumを提案する。
さらにdiffusumは、文表現アライメントのマッチング損失と表現多様性の多クラスコントラスト損失とを備えたコントラスト文エンコーダを共同で最適化する。
実験結果から, ROUGEスコアが44.83/22.56/40.56$のCNN/DailyMailにおけるDiffuSumの抽出結果が得られた。
他の2つのデータセットの要約長の異なる実験もDiffuSumの有効性を示している。
本フレームワークの強い性能は,抽出要約に生成モデルを適用する大きな可能性を示している。
今後のさらなる作業を促進するため、私たちは \url{https://github.com/hpzhang94/DiffuSum} でコードを公開しました。
関連論文リスト
- Context-Aware Hierarchical Merging for Long Document Summarization [56.96619074316232]
本論文では,階層的なマージをソース文書からコンテキストと統合する手法を提案する。
法的および物語的領域を表すデータセットの実験結果は、文脈的拡張がゼロショットと階層的な融合ベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-02-03T01:14:31Z) - Text Summarization with Oracle Expectation [88.39032981994535]
抽出要約は、文書の中で最も重要な文を識別し、連結することによって要約を生成する。
ほとんどの要約データセットは、文書文が要約に値するかどうかを示す金のラベルを持っていない。
本稿では,ソフトな予測に基づく文ラベルを生成する,シンプルで効果的なラベル付けアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-26T14:10:08Z) - Reinforcing Semantic-Symmetry for Document Summarization [15.113768658584979]
文書要約は、長い文書を詳細な情報と正確な意味記述を備えた短いバージョンに凝縮する。
本稿では,文書要約のための新しいtextbfreinforcing stextbfemantic-textbfsymmetric Learning textbfmodelを提案する。
CNN/Daily MailとBigPatentの2つの大胆なベンチマークデータセットに対して、一連の実験が行われた。
論文 参考訳(メタデータ) (2021-12-14T17:41:37Z) - HETFORMER: Heterogeneous Transformer with Sparse Attention for Long-Text
Extractive Summarization [57.798070356553936]
HETFORMERはトランスフォーマーをベースとした事前学習モデルであり、抽出要約のための多粒度スパースアテンションを持つ。
単一文書と複数文書の要約タスクの実験から,HETFORMERがルージュF1の最先端性能を達成することが示された。
論文 参考訳(メタデータ) (2021-10-12T22:42:31Z) - Unsupervised Extractive Summarization by Pre-training Hierarchical
Transformers [107.12125265675483]
教師なし抽出文書要約は、訓練中にラベル付き要約を用いることなく、文書から重要な文章を選択することを目的としている。
既存の手法は主にグラフベースで、文をノードとして、エッジの重みは文の類似性によって測定される。
教師なし抽出要約のための文のランク付けにはトランスフォーマーの注意が利用できることがわかった。
論文 参考訳(メタデータ) (2020-10-16T08:44:09Z) - Unsupervised Summarization by Jointly Extracting Sentences and Keywords [12.387378783627762]
RepRankは、抽出多文書要約のための教師なしグラフベースのランキングモデルである。
学習した表現を用いて,有意な文やキーワードを協調的・相互強化プロセスで抽出できることを示す。
複数のベンチマークデータセットによる実験結果は、RepRankがROUGEで最高の、または同等のパフォーマンスを達成したことを示している。
論文 参考訳(メタデータ) (2020-09-16T05:58:00Z) - Discrete Optimization for Unsupervised Sentence Summarization with
Word-Level Extraction [31.648764677078837]
自動要約は、その最も重要な情報を保存しながら、文章の短いバージョンを生成する。
我々はこれら2つの側面を言語モデリングと意味的類似度メトリクスからなる教師なし目的関数でモデル化する。
提案手法は,ROUGEスコアによる教師なし文要約のための新しい最先端技術を実現する。
論文 参考訳(メタデータ) (2020-05-04T19:01:55Z) - Combining Word Embeddings and N-grams for Unsupervised Document
Summarization [2.1591018627187286]
グラフに基づく抽出文書要約は、文類似性グラフの品質に依存する。
既製のディープ埋め込み機能とtf-idf機能を採用し、新しいテキスト類似度指標を導入する。
提案手法は, tf-idf に基づく手法より優れ, DUC04 データセット上での最先端性能を実現することができる。
論文 参考訳(メタデータ) (2020-04-25T00:22:46Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z) - At Which Level Should We Extract? An Empirical Analysis on Extractive
Document Summarization [110.54963847339775]
本研究は,全文を抽出する際,不必要な問題や冗長性が存在することを示す。
選挙区解析木に基づくサブセグメント単位の抽出を提案する。
論文 参考訳(メタデータ) (2020-04-06T13:35:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。