論文の概要: Reinforcing Semantic-Symmetry for Document Summarization
- arxiv url: http://arxiv.org/abs/2112.07583v1
- Date: Tue, 14 Dec 2021 17:41:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-15 16:45:34.995962
- Title: Reinforcing Semantic-Symmetry for Document Summarization
- Title(参考訳): 文書要約のための意味対称性の強化
- Authors: Mingyang Song, Liping Jing
- Abstract要約: 文書要約は、長い文書を詳細な情報と正確な意味記述を備えた短いバージョンに凝縮する。
本稿では,文書要約のための新しいtextbfreinforcing stextbfemantic-textbfsymmetric Learning textbfmodelを提案する。
CNN/Daily MailとBigPatentの2つの大胆なベンチマークデータセットに対して、一連の実験が行われた。
- 参考スコア(独自算出の注目度): 15.113768658584979
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Document summarization condenses a long document into a short version with
salient information and accurate semantic descriptions. The main issue is how
to make the output summary semantically consistent with the input document. To
reach this goal, recently, researchers have focused on supervised end-to-end
hybrid approaches, which contain an extractor module and abstractor module.
Among them, the extractor identifies the salient sentences from the input
document, and the abstractor generates a summary from the salient sentences.
This model successfully keeps the consistency between the generated summary and
the reference summary via various strategies (e.g., reinforcement learning).
There are two semantic gaps when training the hybrid model (one is between
document and extracted sentences, and the other is between extracted sentences
and summary). However, they are not explicitly considered in the existing
methods, which usually results in a semantic bias of summary. To mitigate the
above issue, in this paper, a new \textbf{r}einforcing
s\textbf{e}mantic-\textbf{sy}mmetry learning \textbf{m}odel is proposed for
document summarization (\textbf{ReSyM}). ReSyM introduces a
semantic-consistency reward in the extractor to bridge the first gap. A
semantic dual-reward is designed to bridge the second gap in the abstractor.
The whole document summarization process is implemented via reinforcement
learning with a hybrid reward mechanism (combining the above two rewards).
Moreover, a comprehensive sentence representation learning method is presented
to sufficiently capture the information from the original document. A series of
experiments have been conducted on two wildly used benchmark datasets CNN/Daily
Mail and BigPatent. The results have shown the superiority of ReSyM by
comparing it with the state-of-the-art baselines in terms of various evaluation
metrics.
- Abstract(参考訳): 文書要約は、長い文書を詳細な情報と正確な意味記述を備えた短いバージョンに凝縮する。
主な問題は、出力要約を入力ドキュメントとセマンティックに一貫性を持たせる方法である。
この目標を達成するために、最近の研究者は、抽出モジュールと抽象モジュールを含む、教師付きエンドツーエンドハイブリッドアプローチに焦点を当てている。
このうち、抽出部は、入力文書から有能な文を識別し、抽象部は、有能な文から要約を生成する。
このモデルは、生成された要約と参照要約の一貫性を様々な戦略(強化学習など)を通して維持する。
ハイブリッドモデルのトレーニングには、2つの意味的ギャップがある(1つは文書と抽出文の間、もう1つは抽出文と要約の間)。
しかし、それらは既存の手法では明確に考慮されておらず、通常は要約の意味的バイアスをもたらす。
上記の問題を緩和するため,本稿では,文書要約のための新しい \textbf{r}einforcing s\textbf{e}mantic-\textbf{sy}mmetry learning \textbf{m}odel を提案する。
ReSyMは、最初のギャップを埋めるために、抽出器にセマンティック一貫性の報酬を導入する。
セマンティックデュアルリワードは、抽象子の2番目のギャップをブリッジするように設計されている。
文書要約プロセス全体は、強化学習とハイブリッド報酬機構(上記2つの報酬を組み合わせた)によって実施される。
また、原文書から十分な情報を取り込むための包括的文表現学習方法も提示する。
CNN/Daily MailとBigPatentの2つの大胆なベンチマークデータセットに対して、一連の実験が行われた。
その結果,様々な評価指標の点から,ReSyMを最先端のベースラインと比較することで,ReSyMの優位性を示した。
関連論文リスト
- Thesis: Document Summarization with applications to Keyword extraction and Image Retrieval [0.0]
意見要約のための部分モジュラ関数の集合を提案する。
意見要約は、その中に要約と感情検出のタスクが組み込まれている。
我々の関数は、文書の感情と要約の感情と良いROUGEスコアとの相関関係が良いような要約を生成する。
論文 参考訳(メタデータ) (2024-05-20T21:27:18Z) - Source Identification in Abstractive Summarization [0.8883733362171033]
生成された要約文に必須情報を含む入力文を$textitsource文として定義し、ソース文を解析して抽象的な要約がどのように作られるかを研究する。
我々は,複数の手法を比較し,タスクの強いベースラインを確立するために,自動ソース文検出を定式化する。
実験結果から, パープレキシティに基づく手法は, 比較的抽象的条件下では良好に動作し, 類似性に基づく手法は比較的抽出的条件下では頑健であることがわかった。
論文 参考訳(メタデータ) (2024-02-07T09:09:09Z) - On Context Utilization in Summarization with Large Language Models [83.84459732796302]
大きな言語モデル(LLM)は抽象的な要約タスクに優れ、流動的で関連する要約を提供する。
最近の進歩は、100kトークンを超える長期入力コンテキストを扱う能力を拡張している。
要約における文脈利用と位置バイアスに関する最初の総合的研究を行う。
論文 参考訳(メタデータ) (2023-10-16T16:45:12Z) - Text Summarization with Oracle Expectation [88.39032981994535]
抽出要約は、文書の中で最も重要な文を識別し、連結することによって要約を生成する。
ほとんどの要約データセットは、文書文が要約に値するかどうかを示す金のラベルを持っていない。
本稿では,ソフトな予測に基づく文ラベルを生成する,シンプルで効果的なラベル付けアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-26T14:10:08Z) - An Efficient Coarse-to-Fine Facet-Aware Unsupervised Summarization
Framework based on Semantic Blocks [27.895044398724664]
教師なし長文要約のためのC2F-FAR(Coarse-to-Fine Facet-Aware Ranking)フレームワークを提案する。
粗いレベルでは、文書をファセット対応のセマンティックブロックに分割し、無意味なブロックをフィルタリングする新しいセグメントアルゴリズムを提案する。
詳細な段階において,各ブロックで有能な文を選択し,選択した文から最終要約を抽出する。
論文 参考訳(メタデータ) (2022-08-17T12:18:36Z) - SgSum: Transforming Multi-document Summarization into Sub-graph
Selection [27.40759123902261]
既存の抽出多文書要約(MDS)手法は、各文を個別にスコアし、一つずつ有能な文を抽出して要約を構成する。
サブグラフ選択問題としてMDSタスクを定式化する新しいMDSフレームワーク(SgSum)を提案する。
我々のモデルは従来のMDS法と比較して、より一貫性があり、情報的な要約を生成できる。
論文 参考訳(メタデータ) (2021-10-25T05:12:10Z) - Unsupervised Extractive Summarization by Pre-training Hierarchical
Transformers [107.12125265675483]
教師なし抽出文書要約は、訓練中にラベル付き要約を用いることなく、文書から重要な文章を選択することを目的としている。
既存の手法は主にグラフベースで、文をノードとして、エッジの重みは文の類似性によって測定される。
教師なし抽出要約のための文のランク付けにはトランスフォーマーの注意が利用できることがわかった。
論文 参考訳(メタデータ) (2020-10-16T08:44:09Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z) - At Which Level Should We Extract? An Empirical Analysis on Extractive
Document Summarization [110.54963847339775]
本研究は,全文を抽出する際,不必要な問題や冗長性が存在することを示す。
選挙区解析木に基づくサブセグメント単位の抽出を提案する。
論文 参考訳(メタデータ) (2020-04-06T13:35:10Z) - Pre-training for Abstractive Document Summarization by Reinstating
Source Text [105.77348528847337]
本稿では,Seq2Seqに基づく非ラベルテキストによる抽象要約モデルの事前学習を可能にする3つの事前学習目標を提案する。
2つのベンチマーク要約データセットの実験では、3つの目的がすべてベースラインでパフォーマンスを向上させることが示されている。
論文 参考訳(メタデータ) (2020-04-04T05:06:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。