論文の概要: Combining Word Embeddings and N-grams for Unsupervised Document
Summarization
- arxiv url: http://arxiv.org/abs/2004.14119v1
- Date: Sat, 25 Apr 2020 00:22:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 21:08:53.151343
- Title: Combining Word Embeddings and N-grams for Unsupervised Document
Summarization
- Title(参考訳): 教師なし文書要約のための単語埋め込みとN-gramの組み合わせ
- Authors: Zhuolin Jiang, Manaj Srivastava, Sanjay Krishna, David Akodes, Richard
Schwartz
- Abstract要約: グラフに基づく抽出文書要約は、文類似性グラフの品質に依存する。
既製のディープ埋め込み機能とtf-idf機能を採用し、新しいテキスト類似度指標を導入する。
提案手法は, tf-idf に基づく手法より優れ, DUC04 データセット上での最先端性能を実現することができる。
- 参考スコア(独自算出の注目度): 2.1591018627187286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graph-based extractive document summarization relies on the quality of the
sentence similarity graph. Bag-of-words or tf-idf based sentence similarity
uses exact word matching, but fails to measure the semantic similarity between
individual words or to consider the semantic structure of sentences. In order
to improve the similarity measure between sentences, we employ off-the-shelf
deep embedding features and tf-idf features, and introduce a new text
similarity metric. An improved sentence similarity graph is built and used in a
submodular objective function for extractive summarization, which consists of a
weighted coverage term and a diversity term. A Transformer based compression
model is developed for sentence compression to aid in document summarization.
Our summarization approach is extractive and unsupervised. Experiments
demonstrate that our approach can outperform the tf-idf based approach and
achieve state-of-the-art performance on the DUC04 dataset, and comparable
performance to the fully supervised learning methods on the CNN/DM and NYT
datasets.
- Abstract(参考訳): グラフに基づく抽出文書要約は文類似度グラフの品質に依存する。
Bag-of-words または tf-idf ベースの文類似性は正確な単語マッチングを使用するが、個々の単語間の意味的類似性の測定や文の意味的構造の検討には失敗する。
文間の類似度を向上するために,既製の深層埋め込み機能とtf-idf機能を採用し,新しいテキスト類似度指標を導入する。
改良文類似度グラフを、重み付き被覆項と多様性項とからなる抽出要約のためのサブモジュラー目的関数として構築して使用する。
文書要約を支援する文圧縮のためのトランスベース圧縮モデルを開発した。
私たちの要約アプローチは抽出的で教師なしです。
実験により,本手法は,DUC04データセットにおけるtf-idfベースのアプローチよりも優れ,また,CNN/DMおよびNYTデータセット上での教師付き学習手法に匹敵する性能を示す。
関連論文リスト
- DiffuSum: Generation Enhanced Extractive Summarization with Diffusion [14.930704950433324]
抽出要約は、ソース文書から直接文章を抽出することで要約を形成することを目的としている。
本稿では,抽出要約のための新しいパラダイムであるDiffuSumを提案する。
実験結果から, ROUGEスコアが44.83/22.56/40.56$のCNN/DailyMailにおけるDiffuSumの抽出結果が得られた。
論文 参考訳(メタデータ) (2023-05-02T19:09:16Z) - Improving Sentence Similarity Estimation for Unsupervised Extractive
Summarization [21.602394765472386]
教師なし抽出要約における文類似度推定を改善するための2つの新しい手法を提案する。
我々は、比較学習を用いて、同じ文書の文が異なる文書の文とよりよく似ているという文書レベルの目的を最適化する。
また、相互学習を用いて文類似度推定と文サリエンスランキングの関係を高める。
論文 参考訳(メタデータ) (2023-02-24T07:10:33Z) - Relational Sentence Embedding for Flexible Semantic Matching [86.21393054423355]
文埋め込みの可能性を明らかにするための新しいパラダイムとして,文埋め込み(Sentence Embedding, RSE)を提案する。
RSEは文関係のモデル化に有効で柔軟性があり、一連の最先端の埋め込み手法より優れている。
論文 参考訳(メタデータ) (2022-12-17T05:25:17Z) - Document-Level Relation Extraction with Sentences Importance Estimation
and Focusing [52.069206266557266]
文書レベルの関係抽出(DocRE)は、複数の文の文書から2つのエンティティ間の関係を決定することを目的としている。
我々はDocREのための文重要度スコアと文集中損失を設計するSIEF(Sentence Estimation and Focusing)フレームワークを提案する。
2つのドメインの実験結果から、SIEFは全体的なパフォーマンスを改善するだけでなく、DocREモデルをより堅牢にします。
論文 参考訳(メタデータ) (2022-04-27T03:20:07Z) - HETFORMER: Heterogeneous Transformer with Sparse Attention for Long-Text
Extractive Summarization [57.798070356553936]
HETFORMERはトランスフォーマーをベースとした事前学習モデルであり、抽出要約のための多粒度スパースアテンションを持つ。
単一文書と複数文書の要約タスクの実験から,HETFORMERがルージュF1の最先端性能を達成することが示された。
論文 参考訳(メタデータ) (2021-10-12T22:42:31Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z) - Unsupervised Summarization by Jointly Extracting Sentences and Keywords [12.387378783627762]
RepRankは、抽出多文書要約のための教師なしグラフベースのランキングモデルである。
学習した表現を用いて,有意な文やキーワードを協調的・相互強化プロセスで抽出できることを示す。
複数のベンチマークデータセットによる実験結果は、RepRankがROUGEで最高の、または同等のパフォーマンスを達成したことを示している。
論文 参考訳(メタデータ) (2020-09-16T05:58:00Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。