論文の概要: CNewSum: A Large-scale Chinese News Summarization Dataset with
Human-annotated Adequacy and Deducibility Level
- arxiv url: http://arxiv.org/abs/2110.10874v1
- Date: Thu, 21 Oct 2021 03:37:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-22 16:11:04.405471
- Title: CNewSum: A Large-scale Chinese News Summarization Dataset with
Human-annotated Adequacy and Deducibility Level
- Title(参考訳): CNewSum: 人間の注意力と教育能力を備えた大規模中国語ニュース要約データセット
- Authors: Danqing Wang, Jiaze Chen, Xianze Wu, Hao Zhou and Lei Li
- Abstract要約: 大規模中国語ニュース要約データセットCNewSumについて述べる。
304,307件の文書と人によるニュースフィードの要約で構成されている。
そのテストセットには、要約のための妥当性と再現性アノテーションが含まれている。
- 参考スコア(独自算出の注目度): 15.969302324314516
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic text summarization aims to produce a brief but crucial summary for
the input documents. Both extractive and abstractive methods have witnessed
great success in English datasets in recent years. However, there has been a
minimal exploration of text summarization in Chinese, limited by the lack of
large-scale datasets. In this paper, we present a large-scale Chinese news
summarization dataset CNewSum, which consists of 304,307 documents and
human-written summaries for the news feed. It has long documents with
high-abstractive summaries, which can encourage document-level understanding
and generation for current summarization models. An additional distinguishing
feature of CNewSum is that its test set contains adequacy and deducibility
annotations for the summaries. The adequacy level measures the degree of
summary information covered by the document, and the deducibility indicates the
reasoning ability the model needs to generate the summary. These annotations
can help researchers analyze and target their model performance bottleneck. We
examine recent methods on CNewSum and release our dataset to provide a solid
testbed for automatic Chinese summarization research.
- Abstract(参考訳): テキストの自動要約は、入力文書の簡潔だが重要な要約を作成することを目的としている。
抽出法と抽象法の両方が、近年の英語データセットで大きな成功を収めている。
しかし、大規模なデータセットが不足しているため、中国語でテキスト要約の最小限の探索が行われた。
本稿では,304,307件の文書と人文要約からなる大規模中国語ニュース要約データセットCNewSumを提案する。
長い文書と高い抽象的な要約を持ち、現在の要約モデルに対する文書レベルの理解と生成を促進することができる。
CNewSumのもう1つの特徴は、そのテストセットが要約のための妥当性と再現性アノテーションを含んでいることである。
妥当性レベルは、文書がカバーする要約情報の度合いを測定し、再現性は、モデルが要約を生成するために必要な推論能力を示す。
これらのアノテーションは、研究者がモデルパフォーマンスボトルネックを分析し、ターゲットにすることができる。
我々は,cnewsumに関する最近の手法を調査し,中国語自動要約研究のための堅実なテストベッドを提供するためにデータセットをリリースする。
関連論文リスト
- Write Summary Step-by-Step: A Pilot Study of Stepwise Summarization [48.57273563299046]
本稿では,新たな文書が提案されるたびに追加の要約を生成するステップワイド要約の課題を提案する。
追加された要約は、新たに追加されたコンテンツを要約するだけでなく、以前の要約と一貫性を持たなければならない。
SSGは,自動計測と人的評価の両面から,最先端のパフォーマンスを実現していることを示す。
論文 参考訳(メタデータ) (2024-06-08T05:37:26Z) - On Context Utilization in Summarization with Large Language Models [83.84459732796302]
大きな言語モデル(LLM)は抽象的な要約タスクに優れ、流動的で関連する要約を提供する。
最近の進歩は、100kトークンを超える長期入力コンテキストを扱う能力を拡張している。
要約における文脈利用と位置バイアスに関する最初の総合的研究を行う。
論文 参考訳(メタデータ) (2023-10-16T16:45:12Z) - LMGQS: A Large-scale Dataset for Query-focused Summarization [77.6179359525065]
我々は4つの一般的な要約ベンチマークを新しいQFSベンチマークデータセットであるLMGQSに変換する。
我々は最先端の要約モデルを用いてベースラインを確立する。
複数の既存のQFSベンチマークにおいて、最先端のゼロショットと教師付きパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-05-22T14:53:45Z) - Salience Allocation as Guidance for Abstractive Summarization [61.31826412150143]
本稿では, サリエンセ・サリエンス・ガイダンス(SEASON, SaliencE Allocation as Guidance for Abstractive SummarizatiON)を用いた新しい要約手法を提案する。
SEASONは、サリエンス予測の割り当てを利用して抽象的な要約を導き、異なる抽象性のある記事に順応する。
論文 参考訳(メタデータ) (2022-10-22T02:13:44Z) - Topic-Aware Encoding for Extractive Summarization [15.113768658584979]
この問題に対処するために,文書要約のためのトピック認識符号化を提案する。
ニューラルネットワークに基づく文レベルの表現学習にニューラルトピックモデルを追加し、中心トピック情報を適切に検討する。
3つの公開データセットの実験結果は、我々のモデルが最先端のモデルより優れていることを示している。
論文 参考訳(メタデータ) (2021-12-17T15:26:37Z) - Topic Modeling Based Extractive Text Summarization [0.0]
本稿では,潜在トピックに基づいて内容をクラスタリングすることで,テキストを要約する新しい手法を提案する。
我々は、テキスト要約へのアプローチにおいて、より使用量が少なく挑戦的なWikiHowデータセットを活用している。
論文 参考訳(メタデータ) (2021-06-29T12:28:19Z) - Bengali Abstractive News Summarization(BANS): A Neural Attention
Approach [0.8793721044482612]
本稿では,エンコーダ・デコーダに着目したSeq2seqベースのLong Short-Term Memory(LSTM)ネットワークモデルを提案する。
提案システムでは,単語の長い列を人文や人文で生成する,局所的な注意に基づくモデルを構築している。
また,Bangla.bdnews24.com1から収集した19k以上の記事とそれに対応する人文要約のデータセットも作成した。
論文 参考訳(メタデータ) (2020-12-03T08:17:31Z) - Enhancing Extractive Text Summarization with Topic-Aware Graph Neural
Networks [21.379555672973975]
本稿では,グラフニューラルネットワーク(GNN)に基づく抽出要約モデルを提案する。
本モデルでは,文章選択のための文書レベルの特徴を提供する潜在トピックを発見するために,共同ニューラルトピックモデル(NTM)を統合している。
実験結果から,CNN/DMおよびNYTデータセットにおいて,本モデルがほぼ最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T09:30:04Z) - Leveraging Graph to Improve Abstractive Multi-Document Summarization [50.62418656177642]
我々は、文書のよく知られたグラフ表現を活用することができる、抽象的多文書要約(MDS)モデルを開発する。
本モデルでは,長い文書の要約に欠かせない文書間関係を捉えるために,文書の符号化にグラフを利用する。
また,このモデルでは,要約生成プロセスの導出にグラフを利用することが可能であり,一貫性と簡潔な要約を生成するのに有用である。
論文 参考訳(メタデータ) (2020-05-20T13:39:47Z) - Few-Shot Learning for Opinion Summarization [117.70510762845338]
オピニオン要約は、複数の文書で表現された主観的な情報を反映したテキストの自動生成である。
本研究では,要約テキストの生成をブートストラップするのには,少数の要約でも十分であることを示す。
提案手法は, 従来の抽出法および抽象法を, 自動的, 人的評価において大きく上回っている。
論文 参考訳(メタデータ) (2020-04-30T15:37:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。