論文の概要: CNTLS: A Benchmark Dataset for Abstractive or Extractive Chinese
Timeline Summarization
- arxiv url: http://arxiv.org/abs/2105.14201v2
- Date: Wed, 15 Nov 2023 09:52:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 21:42:24.978868
- Title: CNTLS: A Benchmark Dataset for Abstractive or Extractive Chinese
Timeline Summarization
- Title(参考訳): CNTLS: 抽象的あるいは抽出的な中国語タイムライン要約のためのベンチマークデータセット
- Authors: Qianren Mao, Jiazheng Wang, Zheng Wang, Xi Li, Bo Li, Jianxin Li
- Abstract要約: 中国における時系列要約のための汎用リソースであるCNTLSデータセットについて紹介する。
CNTLSは77のリアルタイムトピックを含み、それぞれ2524のドキュメントを持ち、60%近くの圧縮を要約している。
CNTLSコーパスを用いた各種抽出・生成要約システムの性能評価を行った。
- 参考スコア(独自算出の注目度): 22.813746290856916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Timeline summarization (TLS) involves creating summaries of long-running
events using dated summaries from numerous news articles. However, limited data
availability has significantly slowed down the development of timeline
summarization. In this paper, we introduce the CNTLS dataset, a versatile
resource for Chinese timeline summarization. CNTLS encompasses 77 real-life
topics, each with 2524 documents and summarizes nearly 60\% days duration
compression on average all topics.
We meticulously analyze the corpus using well-known metrics, focusing on the
style of the summaries and the complexity of the summarization task.
Specifically, we evaluate the performance of various extractive and generative
summarization systems on the CNTLS corpus to provide benchmarks and support
further research. To the best of our knowledge, CNTLS is the first Chinese
timeline summarization dataset. The dataset and source code are
released\footnote{Code and data available at:
\emph{\url{https://github.com/OpenSUM/CNTLS}}.}.
- Abstract(参考訳): タイムライン要約(TLS)は、多くのニュース記事の日付付き要約を用いて、長く続く出来事の要約を作成する。
しかし、データ可用性の制限は、タイムラインの要約の開発を著しく遅らせた。
本稿では,中国語の時系列要約のための汎用リソースであるCNTLSデータセットを紹介する。
CNTLSは77のリアルタイムトピックを含み、それぞれが2524のドキュメントを持ち、平均的な全トピックに対して60倍近い圧縮を要約している。
我々は,よく知られたメトリクスを用いてコーパスを分析し,要約のスタイルと要約タスクの複雑さに着目した。
具体的には,CNTLSコーパスにおける様々な抽出および生成的要約システムの性能を評価し,ベンチマークとさらなる研究を支援する。
我々の知る限りでは、CNTLSは中国の最初の時系列要約データセットである。
データセットとソースコードがリリースされた。 \emph{\url{https://github.com/OpenSUM/CNTLS}}。
}.
関連論文リスト
- Write Summary Step-by-Step: A Pilot Study of Stepwise Summarization [48.57273563299046]
本稿では,新たな文書が提案されるたびに追加の要約を生成するステップワイド要約の課題を提案する。
追加された要約は、新たに追加されたコンテンツを要約するだけでなく、以前の要約と一貫性を持たなければならない。
SSGは,自動計測と人的評価の両面から,最先端のパフォーマンスを実現していることを示す。
論文 参考訳(メタデータ) (2024-06-08T05:37:26Z) - Analyzing Temporal Complex Events with Large Language Models? A Benchmark towards Temporal, Long Context Understanding [57.62275091656578]
時間的複合イベント(TCE)として、長い期間にわたって多くのニュース記事から構成される複合イベントについて述べる。
本稿では,Large Language Models (LLMs) を用いて,TCE内のイベントチェーンを系統的に抽出し,解析する手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T16:42:17Z) - On Context Utilization in Summarization with Large Language Models [83.84459732796302]
大きな言語モデル(LLM)は抽象的な要約タスクに優れ、流動的で関連する要約を提供する。
最近の進歩は、100kトークンを超える長期入力コンテキストを扱う能力を拡張している。
要約における文脈利用と位置バイアスに関する最初の総合的研究を行う。
論文 参考訳(メタデータ) (2023-10-16T16:45:12Z) - VCSUM: A Versatile Chinese Meeting Summarization Dataset [25.695308276427166]
我々は,239のリアルタイムミーティングからなる,VCSumと呼ばれる汎用的な中国の会議要約データセットを紹介する。
トピックセグメンテーション、見出し、セグメンテーションサマリー、全体会議サマリー、および各ミーティングスクリプティングに対する敬意的な文のアノテーションを提供する。
分析の結果,VCSumの有効性とロバスト性が確認された。
論文 参考訳(メタデータ) (2023-05-09T09:07:15Z) - Follow the Timeline! Generating Abstractive and Extractive Timeline
Summary in Chronological Order [78.46986998674181]
時間順で抽象的かつ抽出的な時系列を生成できる統一タイムライン要約器(UTS)を提案する。
我々は、以前の中国の大規模タイムライン要約データセットを拡張し、新しい英語タイムラインデータセットを収集する。
UTSは、自動評価と人的評価の両方の観点から最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-01-02T20:29:40Z) - CLTS+: A New Chinese Long Text Summarization Dataset with Abstractive
Summaries [10.113673549224256]
抽象的な方法に創造性が欠けていることは、特に自動テキスト要約における問題である。
抽象度の高い中国初の長文要約データセットであるCLTS+を提案する。
我々は、CLTS+サマリーで使われる抽出戦略を他のデータセットに対して分析し、新しいデータの抽象性と難易度を定量化する。
論文 参考訳(メタデータ) (2022-06-09T03:53:52Z) - SQuALITY: Building a Long-Document Summarization Dataset the Hard Way [31.832673451018543]
高い資格を持つ請負業者を雇い、ストーリーを読み、オリジナルの要約をスクラッチから書きます。
読解時間を記憶するために,文書毎に5つの要約を収集し,まず概要とその後の4つの質問に対処する。
最先端の要約システムによる実験は、我々のデータセットが困難であり、既存の自動評価指標が品質の弱い指標であることを示している。
論文 参考訳(メタデータ) (2022-05-23T17:02:07Z) - CNewSum: A Large-scale Chinese News Summarization Dataset with
Human-annotated Adequacy and Deducibility Level [15.969302324314516]
大規模中国語ニュース要約データセットCNewSumについて述べる。
304,307件の文書と人によるニュースフィードの要約で構成されている。
そのテストセットには、要約のための妥当性と再現性アノテーションが含まれている。
論文 参考訳(メタデータ) (2021-10-21T03:37:46Z) - Text Summarization with Latent Queries [60.468323530248945]
本稿では,LaQSumについて紹介する。LaQSumは,既存の問合せ形式と抽象的な要約のための文書から遅延クエリを学習する,最初の統一テキスト要約システムである。
本システムでは, 潜伏クエリモデルと条件付き言語モデルとを協調的に最適化し, ユーザがテスト時に任意のタイプのクエリをプラグイン・アンド・プレイできるようにする。
本システムでは,クエリタイプ,文書設定,ターゲットドメインの異なる要約ベンチマークにおいて,強力な比較システムの性能を強く向上させる。
論文 参考訳(メタデータ) (2021-05-31T21:14:58Z) - The Shmoop Corpus: A Dataset of Stories with Loosely Aligned Summaries [72.48439126769627]
個々の章ごとに詳細なマルチパラグラフの要約と組み合わせた231ストーリーのデータセットであるShmoop Corpusを紹介します。
コーパスから、クローズ形式の質問応答や抽象的要約の簡易な形式を含む共通のNLPタスクのセットを構築する。
このコーパスのユニークな構造は、マシンストーリーの理解をより親しみやすいものにするための重要な基盤となると信じている。
論文 参考訳(メタデータ) (2019-12-30T21:03:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。