論文の概要: Extractive Summarization as Text Matching
- arxiv url: http://arxiv.org/abs/2004.08795v1
- Date: Sun, 19 Apr 2020 08:27:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 00:14:16.535215
- Title: Extractive Summarization as Text Matching
- Title(参考訳): テキストマッチングとしての抽出要約
- Authors: Ming Zhong, Pengfei Liu, Yiran Chen, Danqing Wang, Xipeng Qiu,
Xuanjing Huang
- Abstract要約: 本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
- 参考スコア(独自算出の注目度): 123.09816729675838
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper creates a paradigm shift with regard to the way we build neural
extractive summarization systems. Instead of following the commonly used
framework of extracting sentences individually and modeling the relationship
between sentences, we formulate the extractive summarization task as a semantic
text matching problem, in which a source document and candidate summaries will
be (extracted from the original text) matched in a semantic space. Notably,
this paradigm shift to semantic matching framework is well-grounded in our
comprehensive analysis of the inherent gap between sentence-level and
summary-level extractors based on the property of the dataset.
Besides, even instantiating the framework with a simple form of a matching
model, we have driven the state-of-the-art extractive result on CNN/DailyMail
to a new level (44.41 in ROUGE-1). Experiments on the other five datasets also
show the effectiveness of the matching framework. We believe the power of this
matching-based summarization framework has not been fully exploited. To
encourage more instantiations in the future, we have released our codes,
processed dataset, as well as generated summaries in
https://github.com/maszhongming/MatchSum.
- Abstract(参考訳): 本稿では,神経抽出要約システムの構築方法に関するパラダイムシフトについて述べる。
文を個別に抽出し,文間の関係をモデル化する一般的な枠組みに従う代わりに,抽出した要約タスクを意味的テキストマッチング問題として定式化し,ソース文書と候補要約をセマンティック空間内でマッチングする(原文から抽出)。
特に、セマンティクスマッチングフレームワークへのパラダイムシフトは、データセットの特性に基づいた文レベルと要約レベルの抽出子間の固有のギャップの包括的分析において十分に基礎を置いている。
さらに、単純な形式のマッチングモデルでフレームワークをインスタンス化しても、CNN/DailyMailの最先端の抽出結果を新しいレベル(ROUGE-1では44.41)に駆動しました。
他の5つのデータセットの実験も、マッチングフレームワークの有効性を示している。
このマッチングベースの要約フレームワークのパワーは、十分に活用されていないと考えています。
将来的にさらなるインスタンス化を促進するため、コード、処理されたデータセット、および生成された要約をhttps://github.com/maszhongming/MatchSumでリリースしました。
関連論文リスト
- Towards Enhancing Coherence in Extractive Summarization: Dataset and Experiments with LLMs [70.15262704746378]
我々は,5つの公開データセットと自然言語ユーザフィードバックのためのコヒーレントな要約からなる,体系的に作成された人間アノテーションデータセットを提案する。
Falcon-40BとLlama-2-13Bによる予備的な実験では、コヒーレントなサマリーを生成するという点で大幅な性能向上(10%ルージュ-L)が見られた。
論文 参考訳(メタデータ) (2024-07-05T20:25:04Z) - Source Identification in Abstractive Summarization [0.8883733362171033]
生成された要約文に必須情報を含む入力文を$textitsource文として定義し、ソース文を解析して抽象的な要約がどのように作られるかを研究する。
我々は,複数の手法を比較し,タスクの強いベースラインを確立するために,自動ソース文検出を定式化する。
実験結果から, パープレキシティに基づく手法は, 比較的抽象的条件下では良好に動作し, 類似性に基づく手法は比較的抽出的条件下では頑健であることがわかった。
論文 参考訳(メタデータ) (2024-02-07T09:09:09Z) - Relational Sentence Embedding for Flexible Semantic Matching [86.21393054423355]
文埋め込みの可能性を明らかにするための新しいパラダイムとして,文埋め込み(Sentence Embedding, RSE)を提案する。
RSEは文関係のモデル化に有効で柔軟性があり、一連の最先端の埋め込み手法より優れている。
論文 参考訳(メタデータ) (2022-12-17T05:25:17Z) - Text Summarization with Oracle Expectation [88.39032981994535]
抽出要約は、文書の中で最も重要な文を識別し、連結することによって要約を生成する。
ほとんどの要約データセットは、文書文が要約に値するかどうかを示す金のラベルを持っていない。
本稿では,ソフトな予測に基づく文ラベルを生成する,シンプルで効果的なラベル付けアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-26T14:10:08Z) - A General Contextualized Rewriting Framework for Text Summarization [15.311467109946571]
抽出文は比較的焦点が当てられているが、背景知識や談話の文脈が失われる可能性がある。
コンテントベースのアドレッシングによって抽出文を識別し、グループタグアライメントを施したSeq2seqとしてコンテクスト化された書き直しを形式化する。
その結果,本手法は強化学習を必要とせず,非コンテクスチュアライズされた書き換えシステムよりも優れていた。
論文 参考訳(メタデータ) (2022-07-13T03:55:57Z) - Reinforcing Semantic-Symmetry for Document Summarization [15.113768658584979]
文書要約は、長い文書を詳細な情報と正確な意味記述を備えた短いバージョンに凝縮する。
本稿では,文書要約のための新しいtextbfreinforcing stextbfemantic-textbfsymmetric Learning textbfmodelを提案する。
CNN/Daily MailとBigPatentの2つの大胆なベンチマークデータセットに対して、一連の実験が行われた。
論文 参考訳(メタデータ) (2021-12-14T17:41:37Z) - ARMAN: Pre-training with Semantically Selecting and Reordering of
Sentences for Persian Abstractive Summarization [7.16879432974126]
本稿では,トランスフォーマーをベースとしたエンコーダデコーダモデルARMANを提案する。
ARMANでは、修正されたセマンティックスコアに基づいて文書からの有能な文が選択され、擬似要約を形成する。
提案手法は,ROUGEとBERTScoreで計測された6つの要約タスクに対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-09-09T08:35:39Z) - Relation Clustering in Narrative Knowledge Graphs [71.98234178455398]
原文内の関係文は(SBERTと)埋め込み、意味論的に類似した関係をまとめるためにクラスタ化される。
予備的なテストでは、そのようなクラスタリングが類似した関係を検知し、半教師付きアプローチのための貴重な前処理を提供することが示されている。
論文 参考訳(メタデータ) (2020-11-27T10:43:04Z) - Selective Attention Encoders by Syntactic Graph Convolutional Networks
for Document Summarization [21.351111598564987]
本稿では,文書中の文から解析木を接続するグラフを提案し,文書の構文表現を学習するために重ねられたグラフ畳み込みネットワーク(GCN)を利用する。
提案したGCNによる選択的アテンションアプローチは,ベースラインよりも優れ,データセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-03-18T01:30:02Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。