論文の概要: CiteSum: Citation Text-guided Scientific Extreme Summarization and
Low-resource Domain Adaptation
- arxiv url: http://arxiv.org/abs/2205.06207v1
- Date: Thu, 12 May 2022 16:44:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 15:55:07.677988
- Title: CiteSum: Citation Text-guided Scientific Extreme Summarization and
Low-resource Domain Adaptation
- Title(参考訳): CiteSum: Citation Text-Guided Scientific Extreme Summarization and Low-Resource Domain Adaptation
- Authors: Yuning Mao, Ming Zhong, Jiawei Han
- Abstract要約: 我々は、人間のアノテーションを使わずに新しいベンチマークCiteSumを作成し、これは前回の人間計算データセットSciTLDRの約30倍の大きさである。
科学的極端の要約では、CITESは微調整なしでSciTLDR上で完全に制御された手法よりも優れている。
ニュースの極端な要約では、CITESはベースモデルよりもXSumに大きな利益を得ている。
- 参考スコア(独自算出の注目度): 41.494287785760534
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scientific extreme summarization (TLDR) aims to form ultra-short summaries of
scientific papers. Previous efforts on curating scientific TLDR datasets failed
to scale up due to the heavy human annotation and domain expertise required. In
this paper, we propose a simple yet effective approach to automatically
extracting TLDR summaries for scientific papers from their citation texts.
Based on the proposed approach, we create a new benchmark CiteSum without human
annotation, which is around 30 times larger than the previous human-curated
dataset SciTLDR. We conduct a comprehensive analysis of CiteSum, examining its
data characteristics and establishing strong baselines. We further demonstrate
the usefulness of CiteSum by adapting models pre-trained on CiteSum (named
CITES) to new tasks and domains with limited supervision. For scientific
extreme summarization, CITES outperforms most fully-supervised methods on
SciTLDR without any fine-tuning and obtains state-of-the-art results with only
128 examples. For news extreme summarization, CITES achieves significant gains
on XSum over its base model (not pre-trained on CiteSum), e.g., +7.2 ROUGE-1
zero-shot performance and state-of-the-art few-shot performance. For news
headline generation, CITES performs the best among unsupervised and zero-shot
methods on Gigaword.
- Abstract(参考訳): scientific extreme summarization (tldr) は、科学論文の超短い要約を形成することを目的としている。
科学的なtldrデータセットをキュレートする以前の取り組みは、大量の人間のアノテーションとドメインの専門知識のためにスケールアップに失敗した。
本稿では,その引用文から科学論文のtldr要約を自動的に抽出する手法を提案する。
提案手法に基づき,従来のscitldrの約30倍の規模である,人間のアノテーションを伴わない新たなベンチマークであるcitesumを作成した。
citesumの包括的分析を行い,そのデータ特性を調べ,強いベースラインを確立する。
さらに、CiteSum(CITES)で事前訓練されたモデルを、監督が限定された新しいタスクやドメインに適用することで、CiteSumの有用性を実証する。
科学的極端要約では、CITESは細調整なしでSciTLDRのほとんど完全に教師された手法を上回り、128の例で最先端の結果を得る。
ニュースの極端な要約では、CITESはベースモデル(CiteSumでは事前訓練されていない)、+7.2 ROUGE-1ゼロショット性能、最先端の数ショット性能など、XSumで大幅に向上した。
ニュース見出し生成において、CITESはGigawordの教師なしおよびゼロショットメソッドの中で最高の性能を発揮する。
- 全文 参考訳へのリンク
関連論文リスト
- FactPEGASUS: Factuality-Aware Pre-training and Fine-tuning for
Abstractive Summarization [91.46015013816083]
本稿では,FactPEGについて述べる。FactPEGは,事前学習と微調整における現実性の問題に対処する抽象的な要約モデルである。
分析の結果,FactPEGはゼロショットやスプリショットの設定において,本来の事前学習目標よりも現実的であることが示唆された。
論文 参考訳(メタデータ) (2022-05-16T17:39:14Z) - Efficient Few-Shot Fine-Tuning for Opinion Summarization [83.76460801568092]
抽象的な要約モデルは、典型的には大量のジェネリックテキストで事前訓練され、数万から数十万の注釈付きサンプルで微調整される。
アダプタをベースとした数ショット法では,ドメイン内の知識を容易に保存できることを示す。
この自己教師型アダプタの事前トレーニングにより,AmazonとYelpのデータセット上の2.0および1.3ROUGE-Lポイントの要約品質が向上することを示す。
論文 参考訳(メタデータ) (2022-05-04T16:38:37Z) - LDKP: A Dataset for Identifying Keyphrases from Long Scientific
Documents [48.84086818702328]
テキスト文書からキーフレーズ(KP)を識別することは、自然言語処理と情報検索の基本的な課題である。
このタスクのベンチマークデータセットの大部分は、ドキュメントのタイトルと抽象情報のみを含む科学領域からのものだ。
人間が書いた要約はほとんどの文書では利用できないし、文書はほとんど常に長く、KPの比率はタイトルと抽象の限られた文脈を超えて直接見つかる。
論文 参考訳(メタデータ) (2022-03-29T08:44:57Z) - CitationIE: Leveraging the Citation Graph for Scientific Information
Extraction [89.33938657493765]
引用論文と引用論文の参照リンクの引用グラフを使用する。
最先端技術に対するエンド・ツー・エンドの情報抽出の大幅な改善を観察する。
論文 参考訳(メタデータ) (2021-06-03T03:00:12Z) - CiteWorth: Cite-Worthiness Detection for Improved Scientific Document
Understanding [23.930041685595775]
本研究は,文が外部ソースを引用するか否かをラベル付けした英語における引用親和性検出の詳細な研究である。
CiteWorthは高品質で、挑戦的で、ドメイン適応のような問題の研究に適している。
論文 参考訳(メタデータ) (2021-05-23T11:08:45Z) - Transductive Learning for Abstractive News Summarization [24.03781438153328]
トランスダクティブラーニングの要約への最初の適用を提案する。
このアプローチはCNN/DMおよびNYTデータセットに最先端の結果をもたらすことを示しています。
論文 参考訳(メタデータ) (2021-04-17T17:33:12Z) - Enhancing Scientific Papers Summarization with Citation Graph [78.65955304229863]
引用グラフを用いて科学論文の要約作業を再定義します。
我々は,141kの研究論文を異なる領域に格納した,新しい科学論文要約データセットセマンティックスタディネットワーク(ssn)を構築した。
我々のモデルは、事前訓練されたモデルと比較して競争性能を達成することができる。
論文 参考訳(メタデータ) (2021-04-07T11:13:35Z) - TDMSci: A Specialized Corpus for Scientific Literature Entity Tagging of
Tasks Datasets and Metrics [32.4845534482475]
NLP論文から抽出した2000の文に対して、タスク(T)、データセット(D)、メトリック(M)エンティティのドメインエキスパートアノテーションを含む新しいコーパスを提案する。
簡便なデータ拡張戦略を用いたtdm抽出実験の結果を報告し,aclから約30,000のnlp論文に適用した。
論文 参考訳(メタデータ) (2021-01-25T17:54:06Z) - Bengali Abstractive News Summarization(BANS): A Neural Attention
Approach [0.8793721044482612]
本稿では,エンコーダ・デコーダに着目したSeq2seqベースのLong Short-Term Memory(LSTM)ネットワークモデルを提案する。
提案システムでは,単語の長い列を人文や人文で生成する,局所的な注意に基づくモデルを構築している。
また,Bangla.bdnews24.com1から収集した19k以上の記事とそれに対応する人文要約のデータセットも作成した。
論文 参考訳(メタデータ) (2020-12-03T08:17:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。