論文の概要: Topic Modeling Based Extractive Text Summarization
- arxiv url: http://arxiv.org/abs/2106.15313v1
- Date: Tue, 29 Jun 2021 12:28:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-01 00:15:07.972885
- Title: Topic Modeling Based Extractive Text Summarization
- Title(参考訳): 抽出テキスト要約に基づくトピックモデリング
- Authors: Kalliath Abdul Rasheed Issam, Shivam Patel, Subalalitha C. N
- Abstract要約: 本稿では,潜在トピックに基づいて内容をクラスタリングすることで,テキストを要約する新しい手法を提案する。
我々は、テキスト要約へのアプローチにおいて、より使用量が少なく挑戦的なWikiHowデータセットを活用している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Text summarization is an approach for identifying important information
present within text documents. This computational technique aims to generate
shorter versions of the source text, by including only the relevant and salient
information present within the source text. In this paper, we propose a novel
method to summarize a text document by clustering its contents based on latent
topics produced using topic modeling techniques and by generating extractive
summaries for each of the identified text clusters. All extractive
sub-summaries are later combined to generate a summary for any given source
document. We utilize the lesser used and challenging WikiHow dataset in our
approach to text summarization. This dataset is unlike the commonly used news
datasets which are available for text summarization. The well-known news
datasets present their most important information in the first few lines of
their source texts, which make their summarization a lesser challenging task
when compared to summarizing the WikiHow dataset. Contrary to these news
datasets, the documents in the WikiHow dataset are written using a generalized
approach and have lesser abstractedness and higher compression ratio, thus
proposing a greater challenge to generate summaries. A lot of the current
state-of-the-art text summarization techniques tend to eliminate important
information present in source documents in the favor of brevity. Our proposed
technique aims to capture all the varied information present in source
documents. Although the dataset proved challenging, after performing extensive
tests within our experimental setup, we have discovered that our model produces
encouraging ROUGE results and summaries when compared to the other published
extractive and abstractive text summarization models.
- Abstract(参考訳): テキスト要約は、テキスト文書に存在する重要な情報を識別するためのアプローチである。
本手法は,ソースコードに含まれる関連情報と健全な情報のみを含むことで,より短いバージョンのソーステキストを生成することを目的とする。
本稿では,トピックモデリング手法を用いて生成した潜在トピックに基づいてテキスト文書をクラスタリングし,識別された各テキストクラスタの抽出要約を生成することにより,テキスト文書を要約する新しい手法を提案する。
すべての抽出サブサマリーは後に結合され、任意のソース文書の要約を生成する。
我々は、テキスト要約へのアプローチにおいて、より使用量が少なく挑戦的なWikiHowデータセットを利用する。
このデータセットは、テキスト要約に使用される一般的なニュースデータセットとは異なる。
有名なニュースデータセットは、ソーステキストの最初の数行で最も重要な情報を表示するため、WikiHowデータセットを要約するよりも、要約がより難しい作業になる。
これらのニュースデータセットとは対照的に、wikihowデータセットのドキュメントは一般的なアプローチで書かれており、より抽象性や圧縮率が低いため、要約を生成することがより困難になる。
現在の最先端のテキスト要約技術の多くは、簡潔さを優先してソースドキュメントに存在する重要な情報を排除する傾向がある。
提案手法は,ソース文書に存在する様々な情報をすべてキャプチャすることを目的としている。
このデータセットは、実験装置内で広範囲なテストを行った結果、他の抽出および抽象的テキスト要約モデルと比較すると、ROUGEの結果と要約が促進されることが判明した。
関連論文リスト
- Source Identification in Abstractive Summarization [0.8883733362171033]
生成された要約文に必須情報を含む入力文を$textitsource文として定義し、ソース文を解析して抽象的な要約がどのように作られるかを研究する。
我々は,複数の手法を比較し,タスクの強いベースラインを確立するために,自動ソース文検出を定式化する。
実験結果から, パープレキシティに基づく手法は, 比較的抽象的条件下では良好に動作し, 類似性に基づく手法は比較的抽出的条件下では頑健であることがわかった。
論文 参考訳(メタデータ) (2024-02-07T09:09:09Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - A Survey on Neural Abstractive Summarization Methods and Factual
Consistency of Summarization [18.763290930749235]
要約は、サブセット(要約)を作成するために、テキストデータの集合を計算的に短縮する過程である
既存の要約法は、抽出法と抽象法という2つのタイプに大別できる。
抽出要約器は、ソース文書からテキストスニペットを明示的に選択し、抽象要約器は、ソースで広く普及している最も健全な概念を伝えるために、新しいテキストスニペットを生成する。
論文 参考訳(メタデータ) (2022-04-20T14:56:36Z) - Unsupervised Summarization with Customized Granularities [76.26899748972423]
本稿では,最初の教師なし多粒度要約フレームワークであるGranuSumを提案する。
異なる数のイベントを入力することで、GranuSumは教師なしの方法で複数の粒度のサマリーを生成することができる。
論文 参考訳(メタデータ) (2022-01-29T05:56:35Z) - Topic-Aware Encoding for Extractive Summarization [15.113768658584979]
この問題に対処するために,文書要約のためのトピック認識符号化を提案する。
ニューラルネットワークに基づく文レベルの表現学習にニューラルトピックモデルを追加し、中心トピック情報を適切に検討する。
3つの公開データセットの実験結果は、我々のモデルが最先端のモデルより優れていることを示している。
論文 参考訳(メタデータ) (2021-12-17T15:26:37Z) - Automated News Summarization Using Transformers [4.932130498861987]
我々は,テキスト要約のためのトランスフォーマーアーキテクチャに基づく事前学習モデルについて,包括的に比較する。
分析と比較のために,要約や人為的な要約に使用できるテキストデータを含むBBCニュースデータセットを用いた。
論文 参考訳(メタデータ) (2021-04-23T04:22:33Z) - Enhancing Extractive Text Summarization with Topic-Aware Graph Neural
Networks [21.379555672973975]
本稿では,グラフニューラルネットワーク(GNN)に基づく抽出要約モデルを提案する。
本モデルでは,文章選択のための文書レベルの特徴を提供する潜在トピックを発見するために,共同ニューラルトピックモデル(NTM)を統合している。
実験結果から,CNN/DMおよびNYTデータセットにおいて,本モデルがほぼ最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T09:30:04Z) - TRIE: End-to-End Text Reading and Information Extraction for Document
Understanding [56.1416883796342]
本稿では,統合されたエンドツーエンドのテキスト読解と情報抽出ネットワークを提案する。
テキスト読解のマルチモーダル視覚的特徴とテキスト的特徴は、情報抽出のために融合される。
提案手法は, 精度と効率の両面において, 最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-05-27T01:47:26Z) - From Standard Summarization to New Tasks and Beyond: Summarization with
Manifold Information [77.89755281215079]
テキスト要約は、原文書の短く凝縮した版を作成することを目的とした研究分野である。
現実世界のアプリケーションでは、ほとんどのデータは平易なテキスト形式ではない。
本稿では,現実のアプリケーションにおけるこれらの新しい要約タスクとアプローチについて調査する。
論文 参考訳(メタデータ) (2020-05-10T14:59:36Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。