論文の概要: An Efficient Coarse-to-Fine Facet-Aware Unsupervised Summarization
Framework based on Semantic Blocks
- arxiv url: http://arxiv.org/abs/2208.08253v1
- Date: Wed, 17 Aug 2022 12:18:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-18 12:46:59.218736
- Title: An Efficient Coarse-to-Fine Facet-Aware Unsupervised Summarization
Framework based on Semantic Blocks
- Title(参考訳): セマンティクスブロックに基づくファセット認識型非教師なし要約フレームワーク
- Authors: Xinnian Liang, Jing Li, Shuangzhi Wu, Jiali Zeng, Yufan Jiang, Mu Li,
Zhoujun Li
- Abstract要約: 教師なし長文要約のためのC2F-FAR(Coarse-to-Fine Facet-Aware Ranking)フレームワークを提案する。
粗いレベルでは、文書をファセット対応のセマンティックブロックに分割し、無意味なブロックをフィルタリングする新しいセグメントアルゴリズムを提案する。
詳細な段階において,各ブロックで有能な文を選択し,選択した文から最終要約を抽出する。
- 参考スコア(独自算出の注目度): 27.895044398724664
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unsupervised summarization methods have achieved remarkable results by
incorporating representations from pre-trained language models. However,
existing methods fail to consider efficiency and effectiveness at the same time
when the input document is extremely long. To tackle this problem, in this
paper, we proposed an efficient Coarse-to-Fine Facet-Aware Ranking (C2F-FAR)
framework for unsupervised long document summarization, which is based on the
semantic block. The semantic block refers to continuous sentences in the
document that describe the same facet. Specifically, we address this problem by
converting the one-step ranking method into the hierarchical multi-granularity
two-stage ranking. In the coarse-level stage, we propose a new segment
algorithm to split the document into facet-aware semantic blocks and then
filter insignificant blocks. In the fine-level stage, we select salient
sentences in each block and then extract the final summary from selected
sentences. We evaluate our framework on four long document summarization
datasets: Gov-Report, BillSum, arXiv, and PubMed. Our C2F-FAR can achieve new
state-of-the-art unsupervised summarization results on Gov-Report and BillSum.
In addition, our method speeds up 4-28 times more than previous
methods.\footnote{\url{https://github.com/xnliang98/c2f-far}}
- Abstract(参考訳): 教師なし要約法は、事前学習された言語モデルからの表現を組み込むことで驚くべき結果を得た。
しかし,既存の手法では,入力文書が極めて長い場合に,効率性や有効性を考慮できない。
この問題に対処するため,本論文では,意味ブロックに基づく教師なし長文要約のための効果的なC2F-FARフレームワークを提案する。
意味ブロックは、同じファセットを記述する文書の連続した文を指す。
具体的には,一段階ランキング法を階層的多粒度二段階ランキングに変換することでこの問題に対処した。
粗いレベルでは、文書をファセット対応のセマンティックブロックに分割し、無意味なブロックをフィルタリングする新しいセグメントアルゴリズムを提案する。
詳細な段階において,各ブロックで有能な文を選択し,選択した文から最終要約を抽出する。
我々は、gov-report、billsum、arxiv、pubmedという4つの長い文書要約データセットでフレームワークを評価した。
我々のC2F-FARは、Gov-ReportとBillSumの非教師なしの要約結果が得られる。
さらに,従来の手法の4~28倍の高速化を実現した。
\footnote{\url{https://github.com/xnliang98/c2f-far}}
関連論文リスト
- Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - RankSum An unsupervised extractive text summarization based on rank
fusion [0.0]
本稿では,単一文書の抽出テキスト要約手法であるRansumを提案する。
ランクサムは、各特徴に対応する文の給与ランクを教師なしの方法で取得する。
CNN/DailyMail と DUC 2002 で利用可能な要約データセットについて検討した。
論文 参考訳(メタデータ) (2024-02-07T22:24:09Z) - Text Summarization with Oracle Expectation [88.39032981994535]
抽出要約は、文書の中で最も重要な文を識別し、連結することによって要約を生成する。
ほとんどの要約データセットは、文書文が要約に値するかどうかを示す金のラベルを持っていない。
本稿では,ソフトな予測に基づく文ラベルを生成する,シンプルで効果的なラベル付けアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-26T14:10:08Z) - Sparse Optimization for Unsupervised Extractive Summarization of Long
Documents with the Frank-Wolfe Algorithm [4.786337974720721]
本稿では,特に長い文書について,教師なし抽出文書要約の問題に対処する。
我々は、教師なし問題をスパース自己回帰問題としてモデル化し、凸ノルム制約問題を用いて結果の問題を近似する。
k$文で要約を生成するには、$approx k$を実行すればよいため、非常に効率的である。
論文 参考訳(メタデータ) (2022-08-19T17:17:43Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - Reinforcing Semantic-Symmetry for Document Summarization [15.113768658584979]
文書要約は、長い文書を詳細な情報と正確な意味記述を備えた短いバージョンに凝縮する。
本稿では,文書要約のための新しいtextbfreinforcing stextbfemantic-textbfsymmetric Learning textbfmodelを提案する。
CNN/Daily MailとBigPatentの2つの大胆なベンチマークデータセットに対して、一連の実験が行われた。
論文 参考訳(メタデータ) (2021-12-14T17:41:37Z) - Unsupervised Extractive Summarization by Pre-training Hierarchical
Transformers [107.12125265675483]
教師なし抽出文書要約は、訓練中にラベル付き要約を用いることなく、文書から重要な文章を選択することを目的としている。
既存の手法は主にグラフベースで、文をノードとして、エッジの重みは文の類似性によって測定される。
教師なし抽出要約のための文のランク付けにはトランスフォーマーの注意が利用できることがわかった。
論文 参考訳(メタデータ) (2020-10-16T08:44:09Z) - SummPip: Unsupervised Multi-Document Summarization with Sentence Graph
Compression [61.97200991151141]
SummPipはマルチドキュメント要約のための教師なしの手法である。
元の文書を文グラフに変換し、言語表現と深層表現の両方を考慮に入れます。
次に、スペクトルクラスタリングを適用して複数の文のクラスタを取得し、最後に各クラスタを圧縮して最終的な要約を生成する。
論文 参考訳(メタデータ) (2020-07-17T13:01:15Z) - Discrete Optimization for Unsupervised Sentence Summarization with
Word-Level Extraction [31.648764677078837]
自動要約は、その最も重要な情報を保存しながら、文章の短いバージョンを生成する。
我々はこれら2つの側面を言語モデリングと意味的類似度メトリクスからなる教師なし目的関数でモデル化する。
提案手法は,ROUGEスコアによる教師なし文要約のための新しい最先端技術を実現する。
論文 参考訳(メタデータ) (2020-05-04T19:01:55Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。