論文の概要: CLTS+: A New Chinese Long Text Summarization Dataset with Abstractive
Summaries
- arxiv url: http://arxiv.org/abs/2206.04253v1
- Date: Thu, 9 Jun 2022 03:53:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-10 12:40:34.954325
- Title: CLTS+: A New Chinese Long Text Summarization Dataset with Abstractive
Summaries
- Title(参考訳): CLTS+: 抽象要約を用いた中国語の長文要約データセット
- Authors: Xiaojun Liu, Shunan Zang, Chuang Zhang, Xiaojun Chen, Yangyang Ding
- Abstract要約: 抽象的な方法に創造性が欠けていることは、特に自動テキスト要約における問題である。
抽象度の高い中国初の長文要約データセットであるCLTS+を提案する。
我々は、CLTS+サマリーで使われる抽出戦略を他のデータセットに対して分析し、新しいデータの抽象性と難易度を定量化する。
- 参考スコア(独自算出の注目度): 10.113673549224256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The abstractive methods lack of creative ability is particularly a problem in
automatic text summarization. The summaries generated by models are mostly
extracted from the source articles. One of the main causes for this problem is
the lack of dataset with abstractiveness, especially for Chinese. In order to
solve this problem, we paraphrase the reference summaries in CLTS, the Chinese
Long Text Summarization dataset, correct errors of factual inconsistencies, and
propose the first Chinese Long Text Summarization dataset with a high level of
abstractiveness, CLTS+, which contains more than 180K article-summary pairs and
is available online. Additionally, we introduce an intrinsic metric based on
co-occurrence words to evaluate the dataset we constructed. We analyze the
extraction strategies used in CLTS+ summaries against other datasets to
quantify the abstractiveness and difficulty of our new data and train several
baselines on CLTS+ to verify the utility of it for improving the creative
ability of models.
- Abstract(参考訳): 創造性に欠ける抽象的手法は、特に自動テキスト要約における問題である。
モデルによって生成された要約は、主にソース記事から抽出される。
この問題の主な原因の1つは、特に中国語における抽象性のあるデータセットの欠如である。
この問題を解決するために,中国語長文要約データセットCLTS,中国語長文要約データセット,事実不整合の誤りの正しさを解説し,180K以上の記事と要約のペアを網羅し,オンラインで利用可能な中国語長文要約データセットCLTS+を提案する。
さらに、構築したデータセットを評価するために、共起語に基づく固有メトリックを導入する。
clts+のサマリーで使用される抽出戦略を分析し、新しいデータの抽象性と難易度を定量化し、clts+のいくつかのベースラインをトレーニングし、モデルの創造性を向上させるための有用性を検証する。
関連論文リスト
- Towards Enhancing Coherence in Extractive Summarization: Dataset and Experiments with LLMs [70.15262704746378]
我々は,5つの公開データセットと自然言語ユーザフィードバックのためのコヒーレントな要約からなる,体系的に作成された人間アノテーションデータセットを提案する。
Falcon-40BとLlama-2-13Bによる予備的な実験では、コヒーレントなサマリーを生成するという点で大幅な性能向上(10%ルージュ-L)が見られた。
論文 参考訳(メタデータ) (2024-07-05T20:25:04Z) - On Context Utilization in Summarization with Large Language Models [83.84459732796302]
大きな言語モデル(LLM)は抽象的な要約タスクに優れ、流動的で関連する要約を提供する。
最近の進歩は、100kトークンを超える長期入力コンテキストを扱う能力を拡張している。
要約における文脈利用と位置バイアスに関する最初の総合的研究を行う。
論文 参考訳(メタデータ) (2023-10-16T16:45:12Z) - Element-aware Summarization with Large Language Models: Expert-aligned
Evaluation and Chain-of-Thought Method [35.181659789684545]
自動要約は、ソースドキュメントのキーアイデアを含む簡潔な要約を生成する。
CNN/DailyMailやBBC XSumからの引用は、主に幻覚と情報冗長性の点で騒々しい。
本稿では,LCMを段階的に生成するためにSumCoT(Slide Chain-of-Thought)手法を提案する。
実験結果から, ROUGE-L では, 最先端の微調整 PLM とゼロショット LLM を+4.33/+4.77 で上回った。
論文 参考訳(メタデータ) (2023-05-22T18:54:35Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Generating Multiple-Length Summaries via Reinforcement Learning for
Unsupervised Sentence Summarization [44.835811239393244]
文要約は、テキストの中核的な内容を維持しながら与えられたテキストを短縮する。
人書きの要約のないテキストを要約するために、教師なしのアプローチが研究されている。
本研究では, 基礎構造を含まない強化学習に基づく抽象モデルを提案する。
論文 参考訳(メタデータ) (2022-12-21T08:34:28Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - MACSum: Controllable Summarization with Mixed Attributes [56.685735509260276]
MACSumは、混合属性を制御するための最初の人間アノテーションによる要約データセットである。
混合制御可能な要約の新しいタスクに対する2つの単純かつ効果的なパラメータ効率のアプローチを提案する。
論文 参考訳(メタデータ) (2022-11-09T17:17:37Z) - CNewSum: A Large-scale Chinese News Summarization Dataset with
Human-annotated Adequacy and Deducibility Level [15.969302324314516]
大規模中国語ニュース要約データセットCNewSumについて述べる。
304,307件の文書と人によるニュースフィードの要約で構成されている。
そのテストセットには、要約のための妥当性と再現性アノテーションが含まれている。
論文 参考訳(メタデータ) (2021-10-21T03:37:46Z) - Topic Modeling Based Extractive Text Summarization [0.0]
本稿では,潜在トピックに基づいて内容をクラスタリングすることで,テキストを要約する新しい手法を提案する。
我々は、テキスト要約へのアプローチにおいて、より使用量が少なく挑戦的なWikiHowデータセットを活用している。
論文 参考訳(メタデータ) (2021-06-29T12:28:19Z) - Liputan6: A Large-scale Indonesian Dataset for Text Summarization [43.375797352517765]
オンラインニュースポータルであるLiputan6.comから記事を抽出し、215,827のドキュメント-要約ペアを取得する。
事前学習した言語モデルを用いて,データセット上のベンチマーク抽出および抽象的要約手法を開発する。
論文 参考訳(メタデータ) (2020-11-02T02:01:12Z) - Multi-Fact Correction in Abstractive Text Summarization [98.27031108197944]
Span-Factは、質問応答モデルから学んだ知識を活用して、スパン選択によるシステム生成サマリーの補正を行う2つの事実補正モデルのスイートである。
我々のモデルは、ソースコードのセマンティック一貫性を確保するために、反復的または自動回帰的にエンティティを置き換えるために、シングルまたはマルチマスキング戦略を採用している。
実験の結果,自動測定と人的評価の両面において,要約品質を犠牲にすることなく,システム生成要約の事実整合性を大幅に向上させることができた。
論文 参考訳(メタデータ) (2020-10-06T02:51:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。