論文の概要: CiteSum: Citation Text-guided Scientific Extreme Summarization and
Low-resource Domain Adaptation
- arxiv url: http://arxiv.org/abs/2205.06207v1
- Date: Thu, 12 May 2022 16:44:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 15:55:07.677988
- Title: CiteSum: Citation Text-guided Scientific Extreme Summarization and
Low-resource Domain Adaptation
- Title(参考訳): CiteSum: Citation Text-Guided Scientific Extreme Summarization and Low-Resource Domain Adaptation
- Authors: Yuning Mao, Ming Zhong, Jiawei Han
- Abstract要約: 我々は、人間のアノテーションを使わずに新しいベンチマークCiteSumを作成し、これは前回の人間計算データセットSciTLDRの約30倍の大きさである。
科学的極端の要約では、CITESは微調整なしでSciTLDR上で完全に制御された手法よりも優れている。
ニュースの極端な要約では、CITESはベースモデルよりもXSumに大きな利益を得ている。
- 参考スコア(独自算出の注目度): 41.494287785760534
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scientific extreme summarization (TLDR) aims to form ultra-short summaries of
scientific papers. Previous efforts on curating scientific TLDR datasets failed
to scale up due to the heavy human annotation and domain expertise required. In
this paper, we propose a simple yet effective approach to automatically
extracting TLDR summaries for scientific papers from their citation texts.
Based on the proposed approach, we create a new benchmark CiteSum without human
annotation, which is around 30 times larger than the previous human-curated
dataset SciTLDR. We conduct a comprehensive analysis of CiteSum, examining its
data characteristics and establishing strong baselines. We further demonstrate
the usefulness of CiteSum by adapting models pre-trained on CiteSum (named
CITES) to new tasks and domains with limited supervision. For scientific
extreme summarization, CITES outperforms most fully-supervised methods on
SciTLDR without any fine-tuning and obtains state-of-the-art results with only
128 examples. For news extreme summarization, CITES achieves significant gains
on XSum over its base model (not pre-trained on CiteSum), e.g., +7.2 ROUGE-1
zero-shot performance and state-of-the-art few-shot performance. For news
headline generation, CITES performs the best among unsupervised and zero-shot
methods on Gigaword.
- Abstract(参考訳): scientific extreme summarization (tldr) は、科学論文の超短い要約を形成することを目的としている。
科学的なtldrデータセットをキュレートする以前の取り組みは、大量の人間のアノテーションとドメインの専門知識のためにスケールアップに失敗した。
本稿では,その引用文から科学論文のtldr要約を自動的に抽出する手法を提案する。
提案手法に基づき,従来のscitldrの約30倍の規模である,人間のアノテーションを伴わない新たなベンチマークであるcitesumを作成した。
citesumの包括的分析を行い,そのデータ特性を調べ,強いベースラインを確立する。
さらに、CiteSum(CITES)で事前訓練されたモデルを、監督が限定された新しいタスクやドメインに適用することで、CiteSumの有用性を実証する。
科学的極端要約では、CITESは細調整なしでSciTLDRのほとんど完全に教師された手法を上回り、128の例で最先端の結果を得る。
ニュースの極端な要約では、CITESはベースモデル(CiteSumでは事前訓練されていない)、+7.2 ROUGE-1ゼロショット性能、最先端の数ショット性能など、XSumで大幅に向上した。
ニュース見出し生成において、CITESはGigawordの教師なしおよびゼロショットメソッドの中で最高の性能を発揮する。
関連論文リスト
- AugSumm: towards generalizable speech summarization using synthetic
labels from large language model [61.73741195292997]
抽象音声要約(SSUM)は、音声から人間に似た要約を生成することを目的としている。
従来のSSUMモデルは、主に、人間による注釈付き決定論的要約(英語版)を用いて訓練され、評価されている。
AugSummは,人間のアノテータが拡張要約を生成するためのプロキシとして,大規模言語モデル(LLM)を利用する手法である。
論文 参考訳(メタデータ) (2024-01-10T18:39:46Z) - Scientific Paper Extractive Summarization Enhanced by Citation Graphs [50.19266650000948]
我々は、引用グラフを活用して、異なる設定下での科学的論文の抽出要約を改善することに重点を置いている。
予備的な結果は、単純な教師なしフレームワークであっても、引用グラフが有用であることを示している。
そこで我々は,大規模ラベル付きデータが利用可能である場合のタスクにおいて,より正確な結果を得るために,グラフベースのスーパービジョン・サムライゼーション・モデル(GSS)を提案する。
論文 参考訳(メタデータ) (2022-12-08T11:53:12Z) - TSTR: Too Short to Represent, Summarize with Details! Intro-Guided
Extended Summary Generation [22.738731393540633]
学術文献など、原文が比較的長い領域では、そのような要約は一般的で粗い概観を超越することはできない。
本稿では,文書の紹介情報を利用した抽出要約器TSTRを提案する。
論文 参考訳(メタデータ) (2022-06-02T02:45:31Z) - CiteWorth: Cite-Worthiness Detection for Improved Scientific Document
Understanding [23.930041685595775]
本研究は,文が外部ソースを引用するか否かをラベル付けした英語における引用親和性検出の詳細な研究である。
CiteWorthは高品質で、挑戦的で、ドメイン適応のような問題の研究に適している。
論文 参考訳(メタデータ) (2021-05-23T11:08:45Z) - Transductive Learning for Abstractive News Summarization [24.03781438153328]
トランスダクティブラーニングの要約への最初の適用を提案する。
このアプローチはCNN/DMおよびNYTデータセットに最先端の結果をもたらすことを示しています。
論文 参考訳(メタデータ) (2021-04-17T17:33:12Z) - Enhancing Scientific Papers Summarization with Citation Graph [78.65955304229863]
引用グラフを用いて科学論文の要約作業を再定義します。
我々は,141kの研究論文を異なる領域に格納した,新しい科学論文要約データセットセマンティックスタディネットワーク(ssn)を構築した。
我々のモデルは、事前訓練されたモデルと比較して競争性能を達成することができる。
論文 参考訳(メタデータ) (2021-04-07T11:13:35Z) - What's New? Summarizing Contributions in Scientific Literature [85.95906677964815]
本稿では,論文のコントリビューションと作業状況について,個別の要約を生成するために,論文要約のアンタングル化という新たなタスクを導入する。
本稿では,学術論文のS2ORCコーパスを拡張し,コントリビューション・コントリビューション・コントリビューション・レファレンス・ラベルを付加する。
本稿では, 生成した出力の関連性, 新規性, 絡み合いを報告する総合的自動評価プロトコルを提案する。
論文 参考訳(メタデータ) (2020-11-06T02:23:01Z) - Improving Zero and Few-Shot Abstractive Summarization with Intermediate
Fine-tuning and Data Augmentation [101.26235068460551]
大規模テキストコーパス上での自己教師対象による事前学習モデルは、英語テキスト要約タスクにおける最先端のパフォーマンスを達成する。
モデルは通常、数十万のデータポイントで微調整されるが、これは新しいニッチなドメインに要約を適用する際に、実現不可能な要件である。
我々は、教師なし、データセット固有の方法で要約のための訓練済みモデルを微調整するための、WikiTransferと呼ばれる新しい一般化可能な手法を紹介した。
論文 参考訳(メタデータ) (2020-10-24T08:36:49Z) - TLDR: Extreme Summarization of Scientific Documents [38.11051158313414]
SciTLDRは5.4K以上のTLDRのデータセットである。
本稿では,TLDRを生成するための簡易かつ効果的な学習戦略であるCATTSを提案する。
データとコードはhttps://www.allenai.com/scitldr.comで公開されている。
論文 参考訳(メタデータ) (2020-04-30T17:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。