論文の概要: TSTR: Too Short to Represent, Summarize with Details! Intro-Guided
Extended Summary Generation
- arxiv url: http://arxiv.org/abs/2206.00847v1
- Date: Thu, 2 Jun 2022 02:45:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-04 00:51:53.882381
- Title: TSTR: Too Short to Represent, Summarize with Details! Intro-Guided
Extended Summary Generation
- Title(参考訳): TSTR: 表現するには短すぎます。詳細を要約してください!
導入ガイド付き拡張要約生成
- Authors: Sajad Sotudeh, Nazli Goharian
- Abstract要約: 学術文献など、原文が比較的長い領域では、そのような要約は一般的で粗い概観を超越することはできない。
本稿では,文書の紹介情報を利用した抽出要約器TSTRを提案する。
- 参考スコア(独自算出の注目度): 22.738731393540633
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many scientific papers such as those in arXiv and PubMed data collections
have abstracts with varying lengths of 50-1000 words and average length of
approximately 200 words, where longer abstracts typically convey more
information about the source paper. Up to recently, scientific summarization
research has typically focused on generating short, abstract-like summaries
following the existing datasets used for scientific summarization. In domains
where the source text is relatively long-form, such as in scientific documents,
such summary is not able to go beyond the general and coarse overview and
provide salient information from the source document. The recent interest to
tackle this problem motivated curation of scientific datasets, arXiv-Long and
PubMed-Long, containing human-written summaries of 400-600 words, hence,
providing a venue for research in generating long/extended summaries. Extended
summaries facilitate a faster read while providing details beyond coarse
information. In this paper, we propose TSTR, an extractive summarizer that
utilizes the introductory information of documents as pointers to their salient
information. The evaluations on two existing large-scale extended summarization
datasets indicate statistically significant improvement in terms of Rouge and
average Rouge (F1) scores (except in one case) as compared to strong baselines
and state-of-the-art. Comprehensive human evaluations favor our generated
extended summaries in terms of cohesion and completeness.
- Abstract(参考訳): arxivやpubmed data collectionのような多くの科学論文は、50-1000語の長さと約200語の長さの異なる抽象概念を持ち、より長い抽象概念は、典拠の論文についてより多くの情報を伝える。
近年まで、科学要約研究は、科学要約に使われる既存のデータセットに従って、短く抽象的な要約を生成することに重点を置いてきた。
科学的文書のように、ソーステキストが比較的長い形式である領域では、そのような要約は、一般的で粗い概要を越えて、ソース文書から突出した情報を提供することはできない。
この問題に取り組む最近の関心は、400-600ワードの人間が書いた要約を含む科学データセットarxiv-longとpubmed-longのキュレーションの動機となった。
拡張された要約は、粗い情報以上の詳細を提供しながら、読み出しを高速化する。
本稿では,文書の紹介情報を利用した抽出要約器TSTRを提案する。
既存の2つの大規模拡張要約データセットの評価は、強いベースラインや最先端と比較して、ルージュと平均ルージュ(F1)スコアの統計的に有意な改善を示している。
包括的な人間評価は、結合性と完全性の観点から、私たちの生成した拡張要約を好む。
関連論文リスト
- On Context Utilization in Summarization with Large Language Models [83.84459732796302]
大きな言語モデル(LLM)は抽象的な要約タスクに優れ、流動的で関連する要約を提供する。
最近の進歩は、100kトークンを超える長期入力コンテキストを扱う能力を拡張している。
要約における文脈利用と位置バイアスに関する最初の総合的研究を行う。
論文 参考訳(メタデータ) (2023-10-16T16:45:12Z) - CiteBench: A benchmark for Scientific Citation Text Generation [69.37571393032026]
CiteBenchは引用テキスト生成のベンチマークである。
CiteBenchのコードはhttps://github.com/UKPLab/citebench.comで公開しています。
論文 参考訳(メタデータ) (2022-12-19T16:10:56Z) - GoSum: Extractive Summarization of Long Documents by Reinforcement
Learning and Graph Organized discourse state [6.4805900740861]
長文要約のための強化学習に基づく抽出モデルであるGoSumを提案する。
GoSumは入力文書ごとに異なる談話レベルから異質なグラフを構築することで状態をエンコードする。
論文要約の2つのデータセット,PubMed と arXiv のモデルを評価する。
論文 参考訳(メタデータ) (2022-11-18T14:07:29Z) - Automatic Text Summarization Methods: A Comprehensive Review [1.6114012813668934]
本研究は,要約手法,使用する手法,標準データセット,評価指標,今後の研究範囲などのテキスト要約概念を詳細に分析する。
論文 参考訳(メタデータ) (2022-03-03T10:45:00Z) - CitationIE: Leveraging the Citation Graph for Scientific Information
Extraction [89.33938657493765]
引用論文と引用論文の参照リンクの引用グラフを使用する。
最先端技術に対するエンド・ツー・エンドの情報抽出の大幅な改善を観察する。
論文 参考訳(メタデータ) (2021-06-03T03:00:12Z) - Bringing Structure into Summaries: a Faceted Summarization Dataset for
Long Scientific Documents [30.09742243490895]
FacetSumは、Emeraldのジャーナル記事上に構築された顔の要約ベンチマークである。
データセットの分析と実験結果から,構造を要約に組み込むことの重要性が明らかになった。
我々は、FacetSumが要約研究のさらなる進歩を促し、NLPシステムの開発を促進すると信じている。
論文 参考訳(メタデータ) (2021-05-31T22:58:38Z) - Enhancing Scientific Papers Summarization with Citation Graph [78.65955304229863]
引用グラフを用いて科学論文の要約作業を再定義します。
我々は,141kの研究論文を異なる領域に格納した,新しい科学論文要約データセットセマンティックスタディネットワーク(ssn)を構築した。
我々のモデルは、事前訓練されたモデルと比較して競争性能を達成することができる。
論文 参考訳(メタデータ) (2021-04-07T11:13:35Z) - On Generating Extended Summaries of Long Documents [16.149617108647707]
本稿では,長論文の拡張要約を生成する新しい手法を提案する。
本手法は,文書の階層構造を利用して抽出要約モデルに組み込む。
分析の結果,提案手法は,要約文に好適な抽出確率分布を調整できることが示唆された。
論文 参考訳(メタデータ) (2020-12-28T08:10:28Z) - From Standard Summarization to New Tasks and Beyond: Summarization with
Manifold Information [77.89755281215079]
テキスト要約は、原文書の短く凝縮した版を作成することを目的とした研究分野である。
現実世界のアプリケーションでは、ほとんどのデータは平易なテキスト形式ではない。
本稿では,現実のアプリケーションにおけるこれらの新しい要約タスクとアプローチについて調査する。
論文 参考訳(メタデータ) (2020-05-10T14:59:36Z) - Screenplay Summarization Using Latent Narrative Structure [78.45316339164133]
本稿では,物語の基盤となる構造を一般教師なし・教師付き抽出要約モデルに明示的に組み込むことを提案する。
重要な物語イベント(転回点)の観点で物語構造を定式化し、脚本を要約するために潜伏状態として扱う。
シーンレベルの要約ラベルを付加したテレビ画面のCSIコーパスの実験結果から,潜角点がCSIエピソードの重要な側面と相関していることが判明した。
論文 参考訳(メタデータ) (2020-04-27T11:54:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。