論文の概要: On Generating Extended Summaries of Long Documents
- arxiv url: http://arxiv.org/abs/2012.14136v1
- Date: Mon, 28 Dec 2020 08:10:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-19 11:06:42.281836
- Title: On Generating Extended Summaries of Long Documents
- Title(参考訳): 長文の拡張要約の作成について
- Authors: Sajad Sotudeh, Arman Cohan, Nazli Goharian
- Abstract要約: 本稿では,長論文の拡張要約を生成する新しい手法を提案する。
本手法は,文書の階層構造を利用して抽出要約モデルに組み込む。
分析の結果,提案手法は,要約文に好適な抽出確率分布を調整できることが示唆された。
- 参考スコア(独自算出の注目度): 16.149617108647707
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prior work in document summarization has mainly focused on generating short
summaries of a document. While this type of summary helps get a high-level view
of a given document, it is desirable in some cases to know more detailed
information about its salient points that can't fit in a short summary. This is
typically the case for longer documents such as a research paper, legal
document, or a book. In this paper, we present a new method for generating
extended summaries of long papers. Our method exploits hierarchical structure
of the documents and incorporates it into an extractive summarization model
through a multi-task learning approach. We then present our results on three
long summarization datasets, arXiv-Long, PubMed-Long, and Longsumm. Our method
outperforms or matches the performance of strong baselines. Furthermore, we
perform a comprehensive analysis over the generated results, shedding insights
on future research for long-form summary generation task. Our analysis shows
that our multi-tasking approach can adjust extraction probability distribution
to the favor of summary-worthy sentences across diverse sections. Our datasets,
and codes are publicly available at
https://github.com/Georgetown-IR-Lab/ExtendedSumm
- Abstract(参考訳): 文書要約における先行研究は、主に文書の短い要約を生成することに焦点を当てている。
このタイプの要約は、あるドキュメントの高レベルなビューを得るのに役立ちますが、短い要約には当てはまらない、その優れたポイントに関するより詳細な情報を知ることが望ましい場合もあります。
これは通常、研究用紙、法的文書、書籍のようなより長い文書の場合である。
本稿では,長文の拡張要約を生成するための新しい手法を提案する。
提案手法は文書の階層構造を利用して,マルチタスク学習手法を用いて抽出的要約モデルに組み込む。
次に,3つの長い要約データセット,arXiv-Long,PubMed-Long,Longsummについて報告する。
提案手法は, 強いベースラインの性能に優れ, 適合する。
さらに, 得られた結果について総合的な分析を行い, 長文要約生成課題の今後の研究について考察する。
提案手法は,複数節にまたがる要約文に対して,抽出確率分布を調整可能であることを示す。
私たちのデータセットとコードはhttps://github.com/Georgetown-IR-Lab/ExtendedSummで公開されています。
関連論文リスト
- Write Summary Step-by-Step: A Pilot Study of Stepwise Summarization [48.57273563299046]
本稿では,新たな文書が提案されるたびに追加の要約を生成するステップワイド要約の課題を提案する。
追加された要約は、新たに追加されたコンテンツを要約するだけでなく、以前の要約と一貫性を持たなければならない。
SSGは,自動計測と人的評価の両面から,最先端のパフォーマンスを実現していることを示す。
論文 参考訳(メタデータ) (2024-06-08T05:37:26Z) - On Context Utilization in Summarization with Large Language Models [83.84459732796302]
大きな言語モデル(LLM)は抽象的な要約タスクに優れ、流動的で関連する要約を提供する。
最近の進歩は、100kトークンを超える長期入力コンテキストを扱う能力を拡張している。
要約における文脈利用と位置バイアスに関する最初の総合的研究を行う。
論文 参考訳(メタデータ) (2023-10-16T16:45:12Z) - Generating a Structured Summary of Numerous Academic Papers: Dataset and
Method [20.90939310713561]
本稿では,各トピックに関する多数の学術論文の包括的な要約を生成するための,最初の大規模データセットであるBigSurveyを提案する。
我々は,7万件以上の調査論文から対象要約を収集し,その430万件の参考論文の要約を入力文書として活用する。
数十の入力文書から多種多様な内容を整理するために,カテゴリベースアライメント・スパース・トランスフォーマー (CAST) と呼ばれる要約手法を提案する。
論文 参考訳(メタデータ) (2023-02-09T11:42:07Z) - Fine-Grained Distillation for Long Document Retrieval [86.39802110609062]
ロングドキュメント検索は、大規模コレクションからクエリ関連ドキュメントを取得することを目的としている。
知識蒸留は、異質だが強力なクロスエンコーダを模倣することによって、レトリバーを改善するために事実上のものである。
本稿では, 長期文書検索のための新たな学習フレームワークFGDを提案する。
論文 参考訳(メタデータ) (2022-12-20T17:00:36Z) - GoSum: Extractive Summarization of Long Documents by Reinforcement
Learning and Graph Organized discourse state [6.4805900740861]
長文要約のための強化学習に基づく抽出モデルであるGoSumを提案する。
GoSumは入力文書ごとに異なる談話レベルから異質なグラフを構築することで状態をエンコードする。
論文要約の2つのデータセット,PubMed と arXiv のモデルを評価する。
論文 参考訳(メタデータ) (2022-11-18T14:07:29Z) - Unsupervised Summarization with Customized Granularities [76.26899748972423]
本稿では,最初の教師なし多粒度要約フレームワークであるGranuSumを提案する。
異なる数のイベントを入力することで、GranuSumは教師なしの方法で複数の粒度のサマリーを生成することができる。
論文 参考訳(メタデータ) (2022-01-29T05:56:35Z) - Summ^N: A Multi-Stage Summarization Framework for Long Input Dialogues
and Documents [13.755637074366813]
SummNは、典型的な事前訓練されたLMの最大文脈長よりも長いテキストを入力するための、シンプルで柔軟で効果的な多段階フレームワークである。
LMコンテキストサイズを固定したままステージ数を調整することで任意の長さの入力テキストを処理できる。
実験の結果,SummNは従来の最先端手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-10-16T06:19:54Z) - Bringing Structure into Summaries: a Faceted Summarization Dataset for
Long Scientific Documents [30.09742243490895]
FacetSumは、Emeraldのジャーナル記事上に構築された顔の要約ベンチマークである。
データセットの分析と実験結果から,構造を要約に組み込むことの重要性が明らかになった。
我々は、FacetSumが要約研究のさらなる進歩を促し、NLPシステムの開発を促進すると信じている。
論文 参考訳(メタデータ) (2021-05-31T22:58:38Z) - Leveraging Graph to Improve Abstractive Multi-Document Summarization [50.62418656177642]
我々は、文書のよく知られたグラフ表現を活用することができる、抽象的多文書要約(MDS)モデルを開発する。
本モデルでは,長い文書の要約に欠かせない文書間関係を捉えるために,文書の符号化にグラフを利用する。
また,このモデルでは,要約生成プロセスの導出にグラフを利用することが可能であり,一貫性と簡潔な要約を生成するのに有用である。
論文 参考訳(メタデータ) (2020-05-20T13:39:47Z) - From Standard Summarization to New Tasks and Beyond: Summarization with
Manifold Information [77.89755281215079]
テキスト要約は、原文書の短く凝縮した版を作成することを目的とした研究分野である。
現実世界のアプリケーションでは、ほとんどのデータは平易なテキスト形式ではない。
本稿では,現実のアプリケーションにおけるこれらの新しい要約タスクとアプローチについて調査する。
論文 参考訳(メタデータ) (2020-05-10T14:59:36Z) - A Divide-and-Conquer Approach to the Summarization of Long Documents [4.863209463405628]
本稿では,長い文書のニューラル・サマライゼーションのための分割・畳み込み手法を提案する。
本手法は文書の談話構造を利用して,文の類似性を利用して問題をより小さな要約問題に分割する。
本稿では,シーケンス・ツー・シーケンスのRNNやトランスフォーマーなど,様々な要約モデルと組み合わせることで,要約性能の向上が期待できることを示す。
論文 参考訳(メタデータ) (2020-04-13T20:38:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。