論文の概要: BookSum: A Collection of Datasets for Long-form Narrative Summarization
- arxiv url: http://arxiv.org/abs/2105.08209v1
- Date: Tue, 18 May 2021 00:22:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-19 14:03:23.580815
- Title: BookSum: A Collection of Datasets for Long-form Narrative Summarization
- Title(参考訳): BookSum: 長文ナラティブ要約のためのデータセットのコレクション
- Authors: Wojciech Kry\'sci\'nski, Nazneen Rajani, Divyansh Agarwal, Caiming
Xiong, Dragomir Radev
- Abstract要約: booksumは長文要約のためのデータセットのコレクションである。
我々のデータセットは、小説、戯曲、物語などの文学分野の資料をカバーしています。
- 参考スコア(独自算出の注目度): 42.26628743419607
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The majority of available text summarization datasets include short-form
source documents that lack long-range causal and temporal dependencies, and
often contain strong layout and stylistic biases. While relevant, such datasets
will offer limited challenges for future generations of text summarization
systems. We address these issues by introducing BookSum, a collection of
datasets for long-form narrative summarization. Our dataset covers source
documents from the literature domain, such as novels, plays and stories, and
includes highly abstractive, human written summaries on three levels of
granularity of increasing difficulty: paragraph-, chapter-, and book-level. The
domain and structure of our dataset poses a unique set of challenges for
summarization systems, which include: processing very long documents,
non-trivial causal and temporal dependencies, and rich discourse structures. To
facilitate future work, we trained and evaluated multiple extractive and
abstractive summarization models as baselines for our dataset.
- Abstract(参考訳): 利用可能なテキスト要約データセットの大部分は、長期因果関係や時間依存がなく、強いレイアウトやスタイルバイアスを含む短い形式のソースドキュメントを含んでいる。
関連性はあるものの、このようなデータセットは将来のテキスト要約システムに限定的な課題をもたらすだろう。
長文要約のためのデータセットの集合であるBookSumを導入することで,これらの問題に対処する。
私たちのデータセットは、小説、戯曲、物語などの文学領域のソースドキュメントをカバーしており、難易度の増加の3つのレベル(段落、章、書籍レベル)において、高度に抽象的な人間による要約を含んでいます。
データセットのドメインと構造は、非常に長いドキュメントの処理、非自明な因果関係と時間的依存関係、リッチな談話構造など、要約システムに固有の課題をもたらします。
今後の作業を容易にするため、データセットのベースラインとして、複数の抽出および抽象的な要約モデルを訓練し、評価した。
関連論文リスト
- A Novel LLM-based Two-stage Summarization Approach for Long Dialogues [9.835499880812646]
本研究では,長い文書から情報を分割・凝縮する階層的枠組みを提案する。
凝縮段階は、教師なし生成モデルを用いて凝縮データを生成する。
要約段階は、縮合されたデータ上の抽象的な要約モデルを微調整して最終結果を生成する。
論文 参考訳(メタデータ) (2024-10-09T03:42:40Z) - LoRaLay: A Multilingual and Multimodal Dataset for Long Range and
Layout-Aware Summarization [19.301567079372436]
テキスト要約は、自然言語処理コミュニティにとって人気のある課題であり、研究の活発な領域である。
すべての公開可能な要約データセットは、プレーンテキストコンテンツのみを提供する。
視覚/レイ情報を伴う長距離要約のためのデータセットのコレクションであるLoRaLayを提示する。
論文 参考訳(メタデータ) (2023-01-26T18:50:54Z) - SQuALITY: Building a Long-Document Summarization Dataset the Hard Way [31.832673451018543]
高い資格を持つ請負業者を雇い、ストーリーを読み、オリジナルの要約をスクラッチから書きます。
読解時間を記憶するために,文書毎に5つの要約を収集し,まず概要とその後の4つの質問に対処する。
最先端の要約システムによる実験は、我々のデータセットが困難であり、既存の自動評価指標が品質の弱い指標であることを示している。
論文 参考訳(メタデータ) (2022-05-23T17:02:07Z) - SCROLLS: Standardized CompaRison Over Long Language Sequences [62.574959194373264]
SCROLLSは長いテキストに対する推論を必要とするタスクのスイートである。
SCROLLSには要約、質問応答、自然言語推論タスクが含まれる。
すべてのデータセットを統一されたテキスト・ツー・テキスト形式で利用可能にし、モデルアーキテクチャと事前学習方法の研究を容易にするために、ライブのリーダーボードをホストします。
論文 参考訳(メタデータ) (2022-01-10T18:47:15Z) - Extending Multi-Text Sentence Fusion Resources via Pyramid Annotations [12.394777121890925]
本稿では、過去のデータセット作成の取り組みを再考し、大幅に拡張する。
拡張版では、複数のドキュメントタスクにもっと代表的なテキストを使用し、より大きく、より多様なトレーニングセットを提供しています。
論文 参考訳(メタデータ) (2021-10-09T09:15:05Z) - Text Summarization with Latent Queries [60.468323530248945]
本稿では,LaQSumについて紹介する。LaQSumは,既存の問合せ形式と抽象的な要約のための文書から遅延クエリを学習する,最初の統一テキスト要約システムである。
本システムでは, 潜伏クエリモデルと条件付き言語モデルとを協調的に最適化し, ユーザがテスト時に任意のタイプのクエリをプラグイン・アンド・プレイできるようにする。
本システムでは,クエリタイプ,文書設定,ターゲットドメインの異なる要約ベンチマークにおいて,強力な比較システムの性能を強く向上させる。
論文 参考訳(メタデータ) (2021-05-31T21:14:58Z) - Abstractive Query Focused Summarization with Query-Free Resources [60.468323530248945]
本稿では,汎用的な要約リソースのみを利用して抽象的なqfsシステムを構築する問題を考える。
本稿では,要約とクエリのための新しい統一表現からなるMasked ROUGE回帰フレームワークであるMargeを提案する。
最小限の監視から学習したにもかかわらず,遠隔管理環境において最先端の結果が得られた。
論文 参考訳(メタデータ) (2020-12-29T14:39:35Z) - Summarize, Outline, and Elaborate: Long-Text Generation via Hierarchical
Supervision from Extractive Summaries [46.183289748907804]
長文生成のためのアウトライン化,アウトライン化,エラボレートを行うパイプラインシステムSOEを提案する。
SOEは、より高速な収束速度とともに、非常に優れた品質の長いテキストを生成する。
論文 参考訳(メタデータ) (2020-10-14T13:22:20Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - The Shmoop Corpus: A Dataset of Stories with Loosely Aligned Summaries [72.48439126769627]
個々の章ごとに詳細なマルチパラグラフの要約と組み合わせた231ストーリーのデータセットであるShmoop Corpusを紹介します。
コーパスから、クローズ形式の質問応答や抽象的要約の簡易な形式を含む共通のNLPタスクのセットを構築する。
このコーパスのユニークな構造は、マシンストーリーの理解をより親しみやすいものにするための重要な基盤となると信じている。
論文 参考訳(メタデータ) (2019-12-30T21:03:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。