論文の概要: Bengali Abstractive News Summarization(BANS): A Neural Attention
Approach
- arxiv url: http://arxiv.org/abs/2012.01747v1
- Date: Thu, 3 Dec 2020 08:17:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-23 15:13:04.946598
- Title: Bengali Abstractive News Summarization(BANS): A Neural Attention
Approach
- Title(参考訳): bengali abstractive news summarization(bans: a neural attention approach)
- Authors: Prithwiraj Bhattacharjee, Avi Mallick, Md Saiful Islam,
Marium-E-Jannat
- Abstract要約: 本稿では,エンコーダ・デコーダに着目したSeq2seqベースのLong Short-Term Memory(LSTM)ネットワークモデルを提案する。
提案システムでは,単語の長い列を人文や人文で生成する,局所的な注意に基づくモデルを構築している。
また,Bangla.bdnews24.com1から収集した19k以上の記事とそれに対応する人文要約のデータセットも作成した。
- 参考スコア(独自算出の注目度): 0.8793721044482612
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Abstractive summarization is the process of generating novel sentences based
on the information extracted from the original text document while retaining
the context. Due to abstractive summarization's underlying complexities, most
of the past research work has been done on the extractive summarization
approach. Nevertheless, with the triumph of the sequence-to-sequence (seq2seq)
model, abstractive summarization becomes more viable. Although a significant
number of notable research has been done in the English language based on
abstractive summarization, only a couple of works have been done on Bengali
abstractive news summarization (BANS). In this article, we presented a seq2seq
based Long Short-Term Memory (LSTM) network model with attention at
encoder-decoder. Our proposed system deploys a local attention-based model that
produces a long sequence of words with lucid and human-like generated sentences
with noteworthy information of the original document. We also prepared a
dataset of more than 19k articles and corresponding human-written summaries
collected from bangla.bdnews24.com1 which is till now the most extensive
dataset for Bengali news document summarization and publicly published in
Kaggle2. We evaluated our model qualitatively and quantitatively and compared
it with other published results. It showed significant improvement in terms of
human evaluation scores with state-of-the-art approaches for BANS.
- Abstract(参考訳): 抽象要約は、文脈を維持しつつ、原文文書から抽出された情報に基づいて、新規な文を生成する過程である。
抽象的要約の根底にある複雑さのため、過去の研究のほとんどは抽出的要約アプローチで行われている。
それでも、Sequence-to-Sequence(seq2seq)モデルの勝利により、抽象的な要約がより可能になる。
英語では抽象的な要約に基づく顕著な研究が数多く行われているが、ベンガルの抽象的なニュース要約(BANS)についての研究はいくつかしか行われていない。
本稿では,エンコーダデコーダに着目したSeq2seqベースのLong Short-Term Memory(LSTM)ネットワークモデルを提案する。
提案システムでは,原文の有意な情報と,明快で人文的な文を含む長い単語列を生成する,局所的注意に基づくモデルを構築した。
我々はまた、現在ベンガルのニュース文書要約の最も広範なデータセットであるbangla.bdnews24.com1から収集された19k以上の記事とそれに対応する人文要約のデータセットを作成し、Kaggle2で公開しました。
モデルを質的・定量的に評価し,他の論文と比較した。
BANSに対する最先端アプローチによる人的評価スコアの大幅な改善が見られた。
関連論文リスト
- Towards Enhancing Coherence in Extractive Summarization: Dataset and Experiments with LLMs [70.15262704746378]
我々は,5つの公開データセットと自然言語ユーザフィードバックのためのコヒーレントな要約からなる,体系的に作成された人間アノテーションデータセットを提案する。
Falcon-40BとLlama-2-13Bによる予備的な実験では、コヒーレントなサマリーを生成するという点で大幅な性能向上(10%ルージュ-L)が見られた。
論文 参考訳(メタデータ) (2024-07-05T20:25:04Z) - Write Summary Step-by-Step: A Pilot Study of Stepwise Summarization [48.57273563299046]
本稿では,新たな文書が提案されるたびに追加の要約を生成するステップワイド要約の課題を提案する。
追加された要約は、新たに追加されたコンテンツを要約するだけでなく、以前の要約と一貫性を持たなければならない。
SSGは,自動計測と人的評価の両面から,最先端のパフォーマンスを実現していることを示す。
論文 参考訳(メタデータ) (2024-06-08T05:37:26Z) - From News to Summaries: Building a Hungarian Corpus for Extractive and Abstractive Summarization [0.19107347888374507]
HunSum-2は、抽象的および抽出的要約モデルのトレーニングに適したオープンソースのハンガリー語コーパスである。
データセットは、徹底的なクリーニングを行うCommon Crawlコーパスのセグメントから組み立てられる。
論文 参考訳(メタデータ) (2024-04-04T16:07:06Z) - AugSumm: towards generalizable speech summarization using synthetic
labels from large language model [61.73741195292997]
抽象音声要約(SSUM)は、音声から人間に似た要約を生成することを目的としている。
従来のSSUMモデルは、主に、人間による注釈付き決定論的要約(英語版)を用いて訓練され、評価されている。
AugSummは,人間のアノテータが拡張要約を生成するためのプロキシとして,大規模言語モデル(LLM)を利用する手法である。
論文 参考訳(メタデータ) (2024-01-10T18:39:46Z) - Generating Multiple-Length Summaries via Reinforcement Learning for
Unsupervised Sentence Summarization [44.835811239393244]
文要約は、テキストの中核的な内容を維持しながら与えられたテキストを短縮する。
人書きの要約のないテキストを要約するために、教師なしのアプローチが研究されている。
本研究では, 基礎構造を含まない強化学習に基づく抽象モデルを提案する。
論文 参考訳(メタデータ) (2022-12-21T08:34:28Z) - Salience Allocation as Guidance for Abstractive Summarization [61.31826412150143]
本稿では, サリエンセ・サリエンス・ガイダンス(SEASON, SaliencE Allocation as Guidance for Abstractive SummarizatiON)を用いた新しい要約手法を提案する。
SEASONは、サリエンス予測の割り当てを利用して抽象的な要約を導き、異なる抽象性のある記事に順応する。
論文 参考訳(メタデータ) (2022-10-22T02:13:44Z) - RetrievalSum: A Retrieval Enhanced Framework for Abstractive
Summarization [25.434558112121778]
本稿では,高密度Retriever と Summarizer を組み合わせた新しい検索強化抽象要約フレームワークを提案する。
提案手法は,複数のドメインにまたがる広範囲な要約データセットと,BERTとBARTの2つのバックボーンモデルで検証する。
その結果, ROUGE-1 スコアの1.384.66 倍の精度向上が得られた。
論文 参考訳(メタデータ) (2021-09-16T12:52:48Z) - StreamHover: Livestream Transcript Summarization and Annotation [54.41877742041611]
ライブストリームの書き起こしを注釈付けして要約するフレームワークであるStreamHoverを紹介します。
合計500時間以上のビデオに抽出的要約と抽象的要約を併用したベンチマークデータセットは,既存の注釈付きコーパスよりもはるかに大きい。
我々のモデルはより一般化され、強力なベースラインよりも性能が向上することを示す。
論文 参考訳(メタデータ) (2021-09-11T02:19:37Z) - Text Summarization of Czech News Articles Using Named Entities [0.0]
我々はチェコのニュース記事の要約に名前付きエンティティが与える影響に注目した。
本論文では, 実体と生成されたサマリ間の名前付きエンティティの重なりを計測する新しいメトリック ROUGE_NE を提案する。
要約システムが高いスコアに達することは依然として困難であることを示す。
論文 参考訳(メタデータ) (2021-04-21T10:48:14Z) - Unsupervised Abstractive Summarization of Bengali Text Documents [0.5249805590164901]
ベンガル文字文書の単一文書設定におけるグラフに基づく教師なし抽象要約システムを提案する。
また、文書と要約のペアによる人間注釈付きデータセットを提供し、我々の抽象モデルを評価し、ベンガル語における将来の抽象的な要約システムの比較を支援する。
論文 参考訳(メタデータ) (2021-01-26T11:41:28Z) - Pre-training for Abstractive Document Summarization by Reinstating
Source Text [105.77348528847337]
本稿では,Seq2Seqに基づく非ラベルテキストによる抽象要約モデルの事前学習を可能にする3つの事前学習目標を提案する。
2つのベンチマーク要約データセットの実験では、3つの目的がすべてベースラインでパフォーマンスを向上させることが示されている。
論文 参考訳(メタデータ) (2020-04-04T05:06:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。