論文の概要: Summ^N: A Multi-Stage Summarization Framework for Long Input Dialogues
and Documents
- arxiv url: http://arxiv.org/abs/2110.10150v1
- Date: Sat, 16 Oct 2021 06:19:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-24 11:49:15.881083
- Title: Summ^N: A Multi-Stage Summarization Framework for Long Input Dialogues
and Documents
- Title(参考訳): Summ^N:長文対話と文書の多段階要約フレームワーク
- Authors: Yusen Zhang, Ansong Ni, Ziming Mao, Chen Henry Wu, Chenguang Zhu,
Budhaditya Deb, Ahmed H. Awadallah, Dragomir Radev, Rui Zhang
- Abstract要約: SummNは、典型的な事前訓練されたLMの最大文脈長よりも長いテキストを入力するための、シンプルで柔軟で効果的な多段階フレームワークである。
LMコンテキストサイズを固定したままステージ数を調整することで任意の長さの入力テキストを処理できる。
実験の結果,SummNは従来の最先端手法よりも有意に優れていた。
- 参考スコア(独自算出の注目度): 13.755637074366813
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text summarization is an essential task to help readers capture salient
information from documents, news, interviews, and meetings. However, most
state-of-the-art pretrained language models are unable to efficiently process
long text commonly seen in the summarization problem domain. In this paper, we
propose Summ^N, a simple, flexible, and effective multi-stage framework for
input texts that are longer than the maximum context lengths of typical
pretrained LMs. Summ^N first generates the coarse summary in multiple stages
and then produces the final fine-grained summary based on them. The framework
can process input text of arbitrary length by adjusting the number of stages
while keeping the LM context size fixed. Moreover, it can deal with both
documents and dialogues and can be used on top of any underlying backbone
abstractive summarization model. Our experiments demonstrate that Summ^N
significantly outperforms previous state-of-the-art methods by improving ROUGE
scores on three long meeting summarization datasets AMI, ICSI, and QMSum, two
long TV series datasets from SummScreen, and a newly proposed long document
summarization dataset GovReport. Our data and code are available at
https://github.com/chatc/Summ-N.
- Abstract(参考訳): テキスト要約は、読者が文書、ニュース、インタビュー、ミーティングから重要な情報を収集するのに役立つ。
しかし、ほとんどの最先端の事前学習された言語モデルは、要約問題領域でよく見られる長いテキストを効率的に処理できない。
本稿では,従来のlmsの最大コンテキスト長よりも長い入力テキストに対して,シンプルでフレキシブルで効果的な多段階フレームワークであるsumm^nを提案する。
Summ^N はまず複数の段階で粗い要約を生成し、それからそれらに基づいて最終きめ細かい要約を生成する。
このフレームワークは、LMコンテキストサイズを固定しつつステージ数を調整することにより、任意の長さの入力テキストを処理することができる。
さらに、文書と対話の両方を扱うことができ、基盤となるバックボーンの抽象的な要約モデルの上に使用することができる。
実験の結果, Summ^Nは, SummScreenの3つの長集合要約データセット AMI, ICSI, QMSum, および, 新たに提案した長集合要約データセット GovReport において, ROUGEスコアを改良することにより, 従来の最先端手法よりも大幅に優れていた。
私たちのデータとコードはhttps://github.com/chatc/summ-nで利用可能です。
関連論文リスト
- A Novel LLM-based Two-stage Summarization Approach for Long Dialogues [9.835499880812646]
本研究では,長い文書から情報を分割・凝縮する階層的枠組みを提案する。
凝縮段階は、教師なし生成モデルを用いて凝縮データを生成する。
要約段階は、縮合されたデータ上の抽象的な要約モデルを微調整して最終結果を生成する。
論文 参考訳(メタデータ) (2024-10-09T03:42:40Z) - Write Summary Step-by-Step: A Pilot Study of Stepwise Summarization [48.57273563299046]
本稿では,新たな文書が提案されるたびに追加の要約を生成するステップワイド要約の課題を提案する。
追加された要約は、新たに追加されたコンテンツを要約するだけでなく、以前の要約と一貫性を持たなければならない。
SSGは,自動計測と人的評価の両面から,最先端のパフォーマンスを実現していることを示す。
論文 参考訳(メタデータ) (2024-06-08T05:37:26Z) - On Context Utilization in Summarization with Large Language Models [83.84459732796302]
大きな言語モデル(LLM)は抽象的な要約タスクに優れ、流動的で関連する要約を提供する。
最近の進歩は、100kトークンを超える長期入力コンテキストを扱う能力を拡張している。
要約における文脈利用と位置バイアスに関する最初の総合的研究を行う。
論文 参考訳(メタデータ) (2023-10-16T16:45:12Z) - Hierarchical3D Adapters for Long Video-to-text Summarization [79.01926022762093]
マルチモーダル情報は、メモリ重大で完全に微調整されたテキスト要約方法よりも優れたパフォーマンスを提供する。
実験により, マルチモーダル情報は, よりメモリ量が多く, 完全に微調整されたテキスト要約法よりも優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2022-10-10T16:44:36Z) - Text Summarization with Latent Queries [60.468323530248945]
本稿では,LaQSumについて紹介する。LaQSumは,既存の問合せ形式と抽象的な要約のための文書から遅延クエリを学習する,最初の統一テキスト要約システムである。
本システムでは, 潜伏クエリモデルと条件付き言語モデルとを協調的に最適化し, ユーザがテスト時に任意のタイプのクエリをプラグイン・アンド・プレイできるようにする。
本システムでは,クエリタイプ,文書設定,ターゲットドメインの異なる要約ベンチマークにおいて,強力な比較システムの性能を強く向上させる。
論文 参考訳(メタデータ) (2021-05-31T21:14:58Z) - On Generating Extended Summaries of Long Documents [16.149617108647707]
本稿では,長論文の拡張要約を生成する新しい手法を提案する。
本手法は,文書の階層構造を利用して抽出要約モデルに組み込む。
分析の結果,提案手法は,要約文に好適な抽出確率分布を調整できることが示唆された。
論文 参考訳(メタデータ) (2020-12-28T08:10:28Z) - An Enhanced MeanSum Method For Generating Hotel Multi-Review
Summarizations [0.06091702876917279]
マルチアスペクトマーカ(MAM)をコンテンツセレクタとして使用し、マルチアスペクトでこの問題に対処する。
また,生成した要約の長さを制御する正規化器を提案する。
改良されたモデルでは,元のMeansum法よりも高いROUGE,知覚精度が得られる。
論文 参考訳(メタデータ) (2020-12-07T13:16:01Z) - SummPip: Unsupervised Multi-Document Summarization with Sentence Graph
Compression [61.97200991151141]
SummPipはマルチドキュメント要約のための教師なしの手法である。
元の文書を文グラフに変換し、言語表現と深層表現の両方を考慮に入れます。
次に、スペクトルクラスタリングを適用して複数の文のクラスタを取得し、最後に各クラスタを圧縮して最終的な要約を生成する。
論文 参考訳(メタデータ) (2020-07-17T13:01:15Z) - A Divide-and-Conquer Approach to the Summarization of Long Documents [4.863209463405628]
本稿では,長い文書のニューラル・サマライゼーションのための分割・畳み込み手法を提案する。
本手法は文書の談話構造を利用して,文の類似性を利用して問題をより小さな要約問題に分割する。
本稿では,シーケンス・ツー・シーケンスのRNNやトランスフォーマーなど,様々な要約モデルと組み合わせることで,要約性能の向上が期待できることを示す。
論文 参考訳(メタデータ) (2020-04-13T20:38:49Z) - Pre-training for Abstractive Document Summarization by Reinstating
Source Text [105.77348528847337]
本稿では,Seq2Seqに基づく非ラベルテキストによる抽象要約モデルの事前学習を可能にする3つの事前学習目標を提案する。
2つのベンチマーク要約データセットの実験では、3つの目的がすべてベースラインでパフォーマンスを向上させることが示されている。
論文 参考訳(メタデータ) (2020-04-04T05:06:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。