論文の概要: Novel Chapter Abstractive Summarization using Spinal Tree Aware
Sub-Sentential Content Selection
- arxiv url: http://arxiv.org/abs/2211.04903v1
- Date: Wed, 9 Nov 2022 14:12:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 16:47:21.627346
- Title: Novel Chapter Abstractive Summarization using Spinal Tree Aware
Sub-Sentential Content Selection
- Title(参考訳): 脊髄木を意識したサブセンテンシャルコンテンツ選択を用いた新章要約
- Authors: Hardy Hardy, Miguel Ballesteros, Faisal Ladhak, Muhammad Khalifa,
Vittorio Castelli, Kathleen McKeown
- Abstract要約: 本稿では,新しい章を要約するパイプライン抽出・抽象的手法を提案する。
既存の新章データセットの先行研究で報告された最良の結果よりも3.71 Rouge-1ポイントの改善が見られた。
- 参考スコア(独自算出の注目度): 29.30939223344407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Summarizing novel chapters is a difficult task due to the input length and
the fact that sentences that appear in the desired summaries draw content from
multiple places throughout the chapter. We present a pipelined
extractive-abstractive approach where the extractive step filters the content
that is passed to the abstractive component. Extremely lengthy input also
results in a highly skewed dataset towards negative instances for extractive
summarization; we thus adopt a margin ranking loss for extraction to encourage
separation between positive and negative examples. Our extraction component
operates at the constituent level; our approach to this problem enriches the
text with spinal tree information which provides syntactic context (in the form
of constituents) to the extraction model. We show an improvement of 3.71
Rouge-1 points over best results reported in prior work on an existing novel
chapter dataset.
- Abstract(参考訳): 新たな章の要約は、入力の長さと所望の要約に現れる文章が章全体の複数の場所から内容を引き出すという事実から、難しい作業である。
本稿では,抽出ステップが抽象コンポーネントに渡されるコンテンツをフィルタリングするパイプライン抽出・抽象アプローチを提案する。
極端に長い入力は、抽出要約のための負のインスタンスに対して非常に歪んだデータセットをもたらすので、正の例と負の例の分離を促進するためにマージンランキングの損失を採用する。
この問題に対する我々のアプローチは、抽出モデルに構文的文脈(成分の形で)を提供する脊柱木情報を含むテキストを豊かにする。
本稿では,既存の新章データセットの先行研究で報告された最良結果よりも3.71 Rouge-1点の改善を示す。
関連論文リスト
- Towards Enhancing Coherence in Extractive Summarization: Dataset and Experiments with LLMs [70.15262704746378]
我々は,5つの公開データセットと自然言語ユーザフィードバックのためのコヒーレントな要約からなる,体系的に作成された人間アノテーションデータセットを提案する。
Falcon-40BとLlama-2-13Bによる予備的な実験では、コヒーレントなサマリーを生成するという点で大幅な性能向上(10%ルージュ-L)が見られた。
論文 参考訳(メタデータ) (2024-07-05T20:25:04Z) - Document Summarization with Text Segmentation [7.954814600961461]
我々は、抽出要約タスクを改善するために、固有文書セグメント構造を利用する。
2つのテキストセグメンテーションモデルを構築し、その出力予測を導入するための最も最適な戦略を見出す。
論文 参考訳(メタデータ) (2023-01-20T22:24:22Z) - Salience Allocation as Guidance for Abstractive Summarization [61.31826412150143]
本稿では, サリエンセ・サリエンス・ガイダンス(SEASON, SaliencE Allocation as Guidance for Abstractive SummarizatiON)を用いた新しい要約手法を提案する。
SEASONは、サリエンス予測の割り当てを利用して抽象的な要約を導き、異なる抽象性のある記事に順応する。
論文 参考訳(メタデータ) (2022-10-22T02:13:44Z) - A Survey on Neural Abstractive Summarization Methods and Factual
Consistency of Summarization [18.763290930749235]
要約は、サブセット(要約)を作成するために、テキストデータの集合を計算的に短縮する過程である
既存の要約法は、抽出法と抽象法という2つのタイプに大別できる。
抽出要約器は、ソース文書からテキストスニペットを明示的に選択し、抽象要約器は、ソースで広く普及している最も健全な概念を伝えるために、新しいテキストスニペットを生成する。
論文 参考訳(メタデータ) (2022-04-20T14:56:36Z) - StreamHover: Livestream Transcript Summarization and Annotation [54.41877742041611]
ライブストリームの書き起こしを注釈付けして要約するフレームワークであるStreamHoverを紹介します。
合計500時間以上のビデオに抽出的要約と抽象的要約を併用したベンチマークデータセットは,既存の注釈付きコーパスよりもはるかに大きい。
我々のモデルはより一般化され、強力なベースラインよりも性能が向上することを示す。
論文 参考訳(メタデータ) (2021-09-11T02:19:37Z) - Exploring Content Selection in Summarization of Novel Chapters [19.11830806780343]
オンライン学習ガイドから要約/チャプタペアを用いて新しい章の要約を生成する新しい要約タスクを提案する。
これはニュース要約作業よりも難しい作業であり、章の長さだけでなく、要約に見られる極端なパラフレーズや一般化も考慮されている。
我々は抽出要約に焦点をあて、抽出要約のゴールド標準セットを作成する必要がある。
論文 参考訳(メタデータ) (2020-05-04T20:45:39Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z) - At Which Level Should We Extract? An Empirical Analysis on Extractive
Document Summarization [110.54963847339775]
本研究は,全文を抽出する際,不必要な問題や冗長性が存在することを示す。
選挙区解析木に基づくサブセグメント単位の抽出を提案する。
論文 参考訳(メタデータ) (2020-04-06T13:35:10Z) - The Shmoop Corpus: A Dataset of Stories with Loosely Aligned Summaries [72.48439126769627]
個々の章ごとに詳細なマルチパラグラフの要約と組み合わせた231ストーリーのデータセットであるShmoop Corpusを紹介します。
コーパスから、クローズ形式の質問応答や抽象的要約の簡易な形式を含む共通のNLPタスクのセットを構築する。
このコーパスのユニークな構造は、マシンストーリーの理解をより親しみやすいものにするための重要な基盤となると信じている。
論文 参考訳(メタデータ) (2019-12-30T21:03:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。