論文の概要: Unsupervised Summarization by Jointly Extracting Sentences and Keywords
- arxiv url: http://arxiv.org/abs/2009.07481v1
- Date: Wed, 16 Sep 2020 05:58:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 23:55:33.015424
- Title: Unsupervised Summarization by Jointly Extracting Sentences and Keywords
- Title(参考訳): 共同抽出文とキーワードによる教師なし要約
- Authors: Zongyi Li and Xiaoqing Zheng
- Abstract要約: RepRankは、抽出多文書要約のための教師なしグラフベースのランキングモデルである。
学習した表現を用いて,有意な文やキーワードを協調的・相互強化プロセスで抽出できることを示す。
複数のベンチマークデータセットによる実験結果は、RepRankがROUGEで最高の、または同等のパフォーマンスを達成したことを示している。
- 参考スコア(独自算出の注目度): 13.49819829143587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present RepRank, an unsupervised graph-based ranking model for extractive
multi-document summarization in which the similarity between words, sentences,
and word-to-sentence can be estimated by the distances between their vector
representations in a unified vector space. In order to obtain desirable
representations, we propose a self-attention based learning method that
represent a sentence by the weighted sum of its word embeddings, and the
weights are concentrated to those words hopefully better reflecting the content
of a document. We show that salient sentences and keywords can be extracted in
a joint and mutual reinforcement process using our learned representations, and
prove that this process always converges to a unique solution leading to
improvement in performance. A variant of absorbing random walk and the
corresponding sampling-based algorithm are also described to avoid redundancy
and increase diversity in the summaries. Experiment results with multiple
benchmark datasets show that RepRank achieved the best or comparable
performance in ROUGE.
- Abstract(参考訳): 本稿では, 単語, 文, 単語と文間の類似性を, ベクトル空間内のベクトル表現間の距離によって推定できる, 抽出多文書要約のための教師なしグラフベースランキングモデルRepRankを提案する。
適切な表現を得るために,単語埋め込みの重み付け和で文を表現する自己注意に基づく学習手法を提案し,文書の内容をよりよく反映して重みを集中させることが望まれる。
学習した表現を用いて,有能な文やキーワードを相互強化プロセスで抽出できることを示し,この処理が常に,性能の向上につながるユニークな解に収束することを証明する。
吸収ランダムウォークの変種とそれに対応するサンプリングベースアルゴリズムについても記述し、冗長性を避け、要約の多様性を高める。
複数のベンチマークデータセットを用いた実験の結果、reprankはrougeで最高の性能または同等のパフォーマンスを達成した。
関連論文リスト
- Span-Aggregatable, Contextualized Word Embeddings for Effective Phrase Mining [0.22499166814992438]
目的語句が雑音の多い文脈内に存在する場合, 単語の完全文を1つの高次ベクトルで表すだけでは, 効果的な句検索には不十分であることを示す。
本稿では,この手法がフレーズマイニングに有用であるが,有用なスパン表現を得るためには,かなりの計算が必要であることを示す。
論文 参考訳(メタデータ) (2024-05-12T12:08:05Z) - Hierarchical Indexing for Retrieval-Augmented Opinion Summarization [60.5923941324953]
本稿では,抽出アプローチの帰属性と拡張性と,大規模言語モデル(LLM)の一貫性と拡散性を組み合わせた,教師なし抽象的意見要約手法を提案する。
我々の方法であるHIROは、意味的に整理された離散的な階層を通して文を経路にマッピングするインデックス構造を学習する。
推測時にインデックスを投入し、入力レビューから人気意見を含む文群を識別し、検索する。
論文 参考訳(メタデータ) (2024-03-01T10:38:07Z) - Enhancing Coherence of Extractive Summarization with Multitask Learning [40.349019691412465]
本研究では,コヒーレンス向上を伴う抽出要約のためのマルチタスク学習アーキテクチャを提案する。
アーキテクチャは、抽出要約器とコヒーレント判別器モジュールとを含む。
実験の結果,提案手法は抽出した要約文の連続文の割合を大幅に改善することがわかった。
論文 参考訳(メタデータ) (2023-05-22T09:20:58Z) - Learning to Rank Utterances for Query-Focused Meeting Summarization [0.7868449549351486]
発話のランク付けのためのランダージェネレータフレームワークを提案する。
発話のランク付け学習は,クエリに関連する発話を効果的に選択する上で有効であることを示す。
QMSumの実験結果から,提案モデルはパラメータが少ない既存の多段階モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-05-22T06:25:09Z) - BERM: Training the Balanced and Extractable Representation for Matching
to Improve Generalization Ability of Dense Retrieval [54.66399120084227]
本稿では,BERMと呼ばれるマッチング信号の取得により,高密度検索の一般化を改善する手法を提案する。
センス検索は、ドメイン内のラベル付きデータセットでトレーニングされた場合、第1段階の検索プロセスにおいて有望であることが示されている。
論文 参考訳(メタデータ) (2023-05-18T15:43:09Z) - Relational Sentence Embedding for Flexible Semantic Matching [86.21393054423355]
文埋め込みの可能性を明らかにするための新しいパラダイムとして,文埋め込み(Sentence Embedding, RSE)を提案する。
RSEは文関係のモデル化に有効で柔軟性があり、一連の最先端の埋め込み手法より優れている。
論文 参考訳(メタデータ) (2022-12-17T05:25:17Z) - Retrofitting Multilingual Sentence Embeddings with Abstract Meaning
Representation [70.58243648754507]
抽象的意味表現(AMR)を用いた既存の多言語文の埋め込みを改善する新しい手法を提案する。
原文入力と比較すると、AMRは文の中核概念と関係を明確かつ曖昧に表す構造的意味表現である。
実験結果から,多言語文をAMRで埋め込むと,意味的類似性と伝達タスクの両方において,最先端の性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-10-18T11:37:36Z) - Text Summarization with Oracle Expectation [88.39032981994535]
抽出要約は、文書の中で最も重要な文を識別し、連結することによって要約を生成する。
ほとんどの要約データセットは、文書文が要約に値するかどうかを示す金のラベルを持っていない。
本稿では,ソフトな予測に基づく文ラベルを生成する,シンプルで効果的なラベル付けアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-26T14:10:08Z) - A General Contextualized Rewriting Framework for Text Summarization [15.311467109946571]
抽出文は比較的焦点が当てられているが、背景知識や談話の文脈が失われる可能性がある。
コンテントベースのアドレッシングによって抽出文を識別し、グループタグアライメントを施したSeq2seqとしてコンテクスト化された書き直しを形式化する。
その結果,本手法は強化学習を必要とせず,非コンテクスチュアライズされた書き換えシステムよりも優れていた。
論文 参考訳(メタデータ) (2022-07-13T03:55:57Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。