論文の概要: RankSum An unsupervised extractive text summarization based on rank
fusion
- arxiv url: http://arxiv.org/abs/2402.05976v1
- Date: Wed, 7 Feb 2024 22:24:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 19:04:35.380814
- Title: RankSum An unsupervised extractive text summarization based on rank
fusion
- Title(参考訳): ranksum : rank fusionに基づく教師なし抽出テキスト要約
- Authors: A. Joshi, E. Fidalgo, E. Alegre, and R. Alaiz-Rodriguez
- Abstract要約: 本稿では,単一文書の抽出テキスト要約手法であるRansumを提案する。
ランクサムは、各特徴に対応する文の給与ランクを教師なしの方法で取得する。
CNN/DailyMail と DUC 2002 で利用可能な要約データセットについて検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose Ranksum, an approach for extractive text
summarization of single documents based on the rank fusion of four
multi-dimensional sentence features extracted for each sentence: topic
information, semantic content, significant keywords, and position. The Ranksum
obtains the sentence saliency rankings corresponding to each feature in an
unsupervised way followed by the weighted fusion of the four scores to rank the
sentences according to their significance. The scores are generated in
completely unsupervised way, and a labeled document set is required to learn
the fusion weights. Since we found that the fusion weights can generalize to
other datasets, we consider the Ranksum as an unsupervised approach. To
determine topic rank, we employ probabilistic topic models whereas semantic
information is captured using sentence embeddings. To derive rankings using
sentence embeddings, we utilize Siamese networks to produce abstractive
sentence representation and then we formulate a novel strategy to arrange them
in their order of importance. A graph-based strategy is applied to find the
significant keywords and related sentence rankings in the document. We also
formulate a sentence novelty measure based on bigrams, trigrams, and sentence
embeddings to eliminate redundant sentences from the summary. The ranks of all
the sentences computed for each feature are finally fused to get the final
score for each sentence in the document. We evaluate our approach on publicly
available summarization datasets CNN/DailyMail and DUC 2002. Experimental
results show that our approach outperforms other existing state-of-the-art
summarization methods.
- Abstract(参考訳): 本稿では,各文に対して抽出された4つの多次元文特徴(トピック情報,意味コンテンツ,重要キーワード,位置)のランク融合に基づく,単一文書のテキスト要約抽出手法であるranksumを提案する。
ランクサムは、各特徴に対応する文の給与ランクを教師なしの方法で取得し、4つのスコアを重み付けしてその意味に応じてランク付けする。
スコアは完全に教師なしの方法で生成され、融合重みの学習にはラベル付きドキュメントセットが必要である。
融合重みは他のデータセットに一般化できることが分かったので、ranksumを教師なしのアプローチと考える。
トピックのランクを決定するには確率論的トピックモデルを用いるが、セマンティック情報は文の埋め込みを用いてキャプチャされる。
文埋め込みを用いたランキングを導出するために, シャム語ネットワークを用いて抽象文表現を作成し, それらの重要順に並べる新しい戦略を定式化する。
文書中の重要なキーワードと関連する文ランキングを見つけるためにグラフベースの戦略を適用する。
また,bigrams,trigrams,および文埋め込みに基づく文の新規性尺度を定式化し,要約文から冗長な文を取り除く。
各特徴のために計算された全ての文のランクは最終的に融合され、文書の各文の最終的なスコアを得る。
我々は、cnn/dailymail と duc 2002 の公開要約データセットに対する我々のアプローチを評価した。
実験の結果,本手法は既存手法よりも優れていることがわかった。
関連論文リスト
- Hierarchical Indexing for Retrieval-Augmented Opinion Summarization [60.5923941324953]
本稿では,抽出アプローチの帰属性と拡張性と,大規模言語モデル(LLM)の一貫性と拡散性を組み合わせた,教師なし抽象的意見要約手法を提案する。
我々の方法であるHIROは、意味的に整理された離散的な階層を通して文を経路にマッピングするインデックス構造を学習する。
推測時にインデックスを投入し、入力レビューから人気意見を含む文群を識別し、検索する。
論文 参考訳(メタデータ) (2024-03-01T10:38:07Z) - Incremental Extractive Opinion Summarization Using Cover Trees [81.59625423421355]
オンラインマーケットプレースでは、ユーザレビューは時間とともに蓄積され、意見要約を定期的に更新する必要がある。
本研究では,漸進的な環境下での抽出的意見要約の課題について検討する。
本稿では,CentroidRankの要約をインクリメンタルな設定で正確に計算するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-16T02:00:17Z) - On Context Utilization in Summarization with Large Language Models [83.84459732796302]
大きな言語モデル(LLM)は抽象的な要約タスクに優れ、流動的で関連する要約を提供する。
最近の進歩は、100kトークンを超える長期入力コンテキストを扱う能力を拡張している。
要約における文脈利用と位置バイアスに関する最初の総合的研究を行う。
論文 参考訳(メタデータ) (2023-10-16T16:45:12Z) - Text Summarization with Oracle Expectation [88.39032981994535]
抽出要約は、文書の中で最も重要な文を識別し、連結することによって要約を生成する。
ほとんどの要約データセットは、文書文が要約に値するかどうかを示す金のラベルを持っていない。
本稿では,ソフトな予測に基づく文ラベルを生成する,シンプルで効果的なラベル付けアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-26T14:10:08Z) - Unsupervised Extractive Summarization by Pre-training Hierarchical
Transformers [107.12125265675483]
教師なし抽出文書要約は、訓練中にラベル付き要約を用いることなく、文書から重要な文章を選択することを目的としている。
既存の手法は主にグラフベースで、文をノードとして、エッジの重みは文の類似性によって測定される。
教師なし抽出要約のための文のランク付けにはトランスフォーマーの注意が利用できることがわかった。
論文 参考訳(メタデータ) (2020-10-16T08:44:09Z) - Unsupervised Summarization by Jointly Extracting Sentences and Keywords [12.387378783627762]
RepRankは、抽出多文書要約のための教師なしグラフベースのランキングモデルである。
学習した表現を用いて,有意な文やキーワードを協調的・相互強化プロセスで抽出できることを示す。
複数のベンチマークデータセットによる実験結果は、RepRankがROUGEで最高の、または同等のパフォーマンスを達成したことを示している。
論文 参考訳(メタデータ) (2020-09-16T05:58:00Z) - Understanding Points of Correspondence between Sentences for Abstractive
Summarization [39.7404761923196]
本稿では,文書から引き出された文の融合について,対応点の概念を導入して検討する。
我々は、文書、ソースおよび融合文、および文間の対応点の人間のアノテーションを含むデータセットを作成する。
論文 参考訳(メタデータ) (2020-06-10T02:42:38Z) - Discrete Optimization for Unsupervised Sentence Summarization with
Word-Level Extraction [31.648764677078837]
自動要約は、その最も重要な情報を保存しながら、文章の短いバージョンを生成する。
我々はこれら2つの側面を言語モデリングと意味的類似度メトリクスからなる教師なし目的関数でモデル化する。
提案手法は,ROUGEスコアによる教師なし文要約のための新しい最先端技術を実現する。
論文 参考訳(メタデータ) (2020-05-04T19:01:55Z) - An Unsupervised Semantic Sentence Ranking Scheme for Text Documents [9.272728720669846]
Semantic SentenceRank (SSR) は、文の相対的重要性に応じて単一の文書にランク付けするための教師なしのスキームである。
テキスト文書から必須の単語やフレーズを抽出し、それぞれ意味尺度を用いて、フレーズや単語に対する意味句グラフと、文章に対する意味文グラフを構築する。
論文 参考訳(メタデータ) (2020-04-28T20:17:51Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。