論文の概要: The Shmoop Corpus: A Dataset of Stories with Loosely Aligned Summaries
- arxiv url: http://arxiv.org/abs/1912.13082v2
- Date: Wed, 1 Jan 2020 16:06:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-17 01:56:13.973982
- Title: The Shmoop Corpus: A Dataset of Stories with Loosely Aligned Summaries
- Title(参考訳): shmoopコーパス:疎結合な要約を持つストーリーのデータセット
- Authors: Atef Chaudhury, Makarand Tapaswi, Seung Wook Kim, Sanja Fidler
- Abstract要約: 個々の章ごとに詳細なマルチパラグラフの要約と組み合わせた231ストーリーのデータセットであるShmoop Corpusを紹介します。
コーパスから、クローズ形式の質問応答や抽象的要約の簡易な形式を含む共通のNLPタスクのセットを構築する。
このコーパスのユニークな構造は、マシンストーリーの理解をより親しみやすいものにするための重要な基盤となると信じている。
- 参考スコア(独自算出の注目度): 72.48439126769627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding stories is a challenging reading comprehension problem for
machines as it requires reading a large volume of text and following long-range
dependencies. In this paper, we introduce the Shmoop Corpus: a dataset of 231
stories that are paired with detailed multi-paragraph summaries for each
individual chapter (7,234 chapters), where the summary is chronologically
aligned with respect to the story chapter. From the corpus, we construct a set
of common NLP tasks, including Cloze-form question answering and a simplified
form of abstractive summarization, as benchmarks for reading comprehension on
stories. We then show that the chronological alignment provides a strong
supervisory signal that learning-based methods can exploit leading to
significant improvements on these tasks. We believe that the unique structure
of this corpus provides an important foothold towards making machine story
comprehension more approachable.
- Abstract(参考訳): 大量のテキストを読み、長い範囲の依存関係に従う必要があるため、ストーリーを理解することは機械にとって難しい問題である。
本稿では,個々の章(7,234章)の詳細な複数パラグラフ要約と組み合わせた231話のデータセットであるshmoopコーパスについて紹介する。
コーパスから、ストーリー理解のためのベンチマークとして、クローズ形式の質問応答や抽象要約の簡易形式を含む、一般的なnlpタスクのセットを構築する。
次に、時間的アライメントは、学習に基づく手法がこれらのタスクに大きな改善をもたらすことができるという強力な監視信号を提供することを示す。
このコーパスのユニークな構造は、マシンストーリーの理解をより親しみやすくするための重要な足場となると信じています。
関連論文リスト
- Summ^N: A Multi-Stage Summarization Framework for Long Input Dialogues
and Documents [13.755637074366813]
SummNは、典型的な事前訓練されたLMの最大文脈長よりも長いテキストを入力するための、シンプルで柔軟で効果的な多段階フレームワークである。
LMコンテキストサイズを固定したままステージ数を調整することで任意の長さの入力テキストを処理できる。
実験の結果,SummNは従来の最先端手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-10-16T06:19:54Z) - Narrative Incoherence Detection [76.43894977558811]
本稿では,文間セマンティック理解のための新たなアリーナとして,物語不整合検出の課題を提案する。
複数文の物語を考えると、物語の流れに意味的な矛盾があるかどうかを決定します。
論文 参考訳(メタデータ) (2020-12-21T07:18:08Z) - Summarize, Outline, and Elaborate: Long-Text Generation via Hierarchical
Supervision from Extractive Summaries [46.183289748907804]
長文生成のためのアウトライン化,アウトライン化,エラボレートを行うパイプラインシステムSOEを提案する。
SOEは、より高速な収束速度とともに、非常に優れた品質の長いテキストを生成する。
論文 参考訳(メタデータ) (2020-10-14T13:22:20Z) - Multi-View Sequence-to-Sequence Models with Conversational Structure for
Abstractive Dialogue Summarization [72.54873655114844]
テキスト要約は、NLPにおいて最も困難で興味深い問題の1つである。
本研究では、まず、異なる視点から構造化されていない日々のチャットの会話構造を抽出し、会話を表現するマルチビューシーケンス・ツー・シーケンスモデルを提案する。
大規模対話要約コーパスの実験により,本手法は,自動評価と人的判断の両面から,従来の最先端モデルよりも有意に優れた性能を示した。
論文 参考訳(メタデータ) (2020-10-04T20:12:44Z) - Document Modeling with Graph Attention Networks for Multi-grained
Machine Reading Comprehension [127.3341842928421]
Natural Questionsは、新しい挑戦的な機械読解ベンチマークである。
解答は2つあり、長解(典型的には1段落)と短解(長解の内にある1つ以上の実体)である。
既存の方法は、これらの2つのサブタスクをトレーニング中に個別に扱い、依存関係を無視します。
本稿では,文書を階層的にモデル化する多層機械読解フレームワークを提案する。
論文 参考訳(メタデータ) (2020-05-12T14:20:09Z) - Exploring Content Selection in Summarization of Novel Chapters [19.11830806780343]
オンライン学習ガイドから要約/チャプタペアを用いて新しい章の要約を生成する新しい要約タスクを提案する。
これはニュース要約作業よりも難しい作業であり、章の長さだけでなく、要約に見られる極端なパラフレーズや一般化も考慮されている。
我々は抽出要約に焦点をあて、抽出要約のゴールド標準セットを作成する必要がある。
論文 参考訳(メタデータ) (2020-05-04T20:45:39Z) - Screenplay Summarization Using Latent Narrative Structure [78.45316339164133]
本稿では,物語の基盤となる構造を一般教師なし・教師付き抽出要約モデルに明示的に組み込むことを提案する。
重要な物語イベント(転回点)の観点で物語構造を定式化し、脚本を要約するために潜伏状態として扱う。
シーンレベルの要約ラベルを付加したテレビ画面のCSIコーパスの実験結果から,潜角点がCSIエピソードの重要な側面と相関していることが判明した。
論文 参考訳(メタデータ) (2020-04-27T11:54:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。