論文の概要: Unsupervised Abstractive Summarization of Bengali Text Documents
- arxiv url: http://arxiv.org/abs/2102.04490v2
- Date: Fri, 19 Feb 2021 16:37:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-14 09:50:56.257535
- Title: Unsupervised Abstractive Summarization of Bengali Text Documents
- Title(参考訳): ベンガル文字文書の教師なし抽象要約
- Authors: Radia Rayan Chowdhury, Mir Tafseer Nayeem, Tahsin Tasnim Mim, Md.
Saifur Rahman Chowdhury, Taufiqul Jannat
- Abstract要約: ベンガル文字文書の単一文書設定におけるグラフに基づく教師なし抽象要約システムを提案する。
また、文書と要約のペアによる人間注釈付きデータセットを提供し、我々の抽象モデルを評価し、ベンガル語における将来の抽象的な要約システムの比較を支援する。
- 参考スコア(独自算出の注目度): 0.5249805590164901
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Abstractive summarization systems generally rely on large collections of
document-summary pairs. However, the performance of abstractive systems remains
a challenge due to the unavailability of parallel data for low-resource
languages like Bengali. To overcome this problem, we propose a graph-based
unsupervised abstractive summarization system in the single-document setting
for Bengali text documents, which requires only a Part-Of-Speech (POS) tagger
and a pre-trained language model trained on Bengali texts. We also provide a
human-annotated dataset with document-summary pairs to evaluate our abstractive
model and to support the comparison of future abstractive summarization systems
of the Bengali Language. We conduct experiments on this dataset and compare our
system with several well-established unsupervised extractive summarization
systems. Our unsupervised abstractive summarization model outperforms the
baselines without being exposed to any human-annotated reference summaries.
- Abstract(参考訳): 抽象要約システムは一般に文書と要約のペアの大規模なコレクションに依存している。
しかし、Bengaliのような低リソース言語では並列データが利用できないため、抽象システムのパフォーマンスは依然として困難である。
そこで本研究では,ベンガル語文書の単一文書設定において,パートオフ音声(POS)タグガーとベンガル語テキストを学習した学習済み言語モデルのみを必要とするグラフに基づく教師なし抽象要約システムを提案する。
また、文書と要約のペアによる人間注釈付きデータセットを提供し、我々の抽象モデルを評価し、ベンガル語における将来の抽象的な要約システムの比較を支援する。
我々は,このデータセットの実験を行い,そのシステムと教師なし抽出要約システムを比較した。
私たちの教師なし抽象要約モデルは、人間の注釈付き参照要約にさらされずにベースラインを上回ります。
関連論文リスト
- From News to Summaries: Building a Hungarian Corpus for Extractive and Abstractive Summarization [0.19107347888374507]
HunSum-2は、抽象的および抽出的要約モデルのトレーニングに適したオープンソースのハンガリー語コーパスである。
データセットは、徹底的なクリーニングを行うCommon Crawlコーパスのセグメントから組み立てられる。
論文 参考訳(メタデータ) (2024-04-04T16:07:06Z) - Generating Multiple-Length Summaries via Reinforcement Learning for
Unsupervised Sentence Summarization [44.835811239393244]
文要約は、テキストの中核的な内容を維持しながら与えられたテキストを短縮する。
人書きの要約のないテキストを要約するために、教師なしのアプローチが研究されている。
本研究では, 基礎構造を含まない強化学習に基づく抽象モデルを提案する。
論文 参考訳(メタデータ) (2022-12-21T08:34:28Z) - Unsupervised Summarization with Customized Granularities [76.26899748972423]
本稿では,最初の教師なし多粒度要約フレームワークであるGranuSumを提案する。
異なる数のイベントを入力することで、GranuSumは教師なしの方法で複数の粒度のサマリーを生成することができる。
論文 参考訳(メタデータ) (2022-01-29T05:56:35Z) - EASE: Extractive-Abstractive Summarization with Explanations [18.046254486733186]
情報ボトルネック原理に基づく説明可能な要約システムを提案する。
人間が長い文書をまとめるために2段階の枠組みを使用するという以前の研究に触発されて、私たちのフレームワークは最初に説明として事前に定義された証拠の量を抽出します。
生成した要約の質を著しく犠牲にすることなく、我々のフレームワークからの説明は単純なベースラインよりも適切であることを示す。
論文 参考訳(メタデータ) (2021-05-14T17:45:06Z) - Unsupervised Opinion Summarization with Content Planning [58.5308638148329]
要約モデルにコンテンツプランニングを明示的に組み込むことで、より高い品質のアウトプットが得られることを示す。
また、より自然な合成データセットを作成し、実世界の文書と要約のペアに似ている。
当社のアプローチは,情報的,一貫性,流動的な要約を生成する上で,競争モデルよりも優れています。
論文 参考訳(メタデータ) (2020-12-14T18:41:58Z) - Bengali Abstractive News Summarization(BANS): A Neural Attention
Approach [0.8793721044482612]
本稿では,エンコーダ・デコーダに着目したSeq2seqベースのLong Short-Term Memory(LSTM)ネットワークモデルを提案する。
提案システムでは,単語の長い列を人文や人文で生成する,局所的な注意に基づくモデルを構築している。
また,Bangla.bdnews24.com1から収集した19k以上の記事とそれに対応する人文要約のデータセットも作成した。
論文 参考訳(メタデータ) (2020-12-03T08:17:31Z) - Liputan6: A Large-scale Indonesian Dataset for Text Summarization [43.375797352517765]
オンラインニュースポータルであるLiputan6.comから記事を抽出し、215,827のドキュメント-要約ペアを取得する。
事前学習した言語モデルを用いて,データセット上のベンチマーク抽出および抽象的要約手法を開発する。
論文 参考訳(メタデータ) (2020-11-02T02:01:12Z) - Multi-Fact Correction in Abstractive Text Summarization [98.27031108197944]
Span-Factは、質問応答モデルから学んだ知識を活用して、スパン選択によるシステム生成サマリーの補正を行う2つの事実補正モデルのスイートである。
我々のモデルは、ソースコードのセマンティック一貫性を確保するために、反復的または自動回帰的にエンティティを置き換えるために、シングルまたはマルチマスキング戦略を採用している。
実験の結果,自動測定と人的評価の両面において,要約品質を犠牲にすることなく,システム生成要約の事実整合性を大幅に向上させることができた。
論文 参考訳(メタデータ) (2020-10-06T02:51:02Z) - SummPip: Unsupervised Multi-Document Summarization with Sentence Graph
Compression [61.97200991151141]
SummPipはマルチドキュメント要約のための教師なしの手法である。
元の文書を文グラフに変換し、言語表現と深層表現の両方を考慮に入れます。
次に、スペクトルクラスタリングを適用して複数の文のクラスタを取得し、最後に各クラスタを圧縮して最終的な要約を生成する。
論文 参考訳(メタデータ) (2020-07-17T13:01:15Z) - Unsupervised Opinion Summarization with Noising and Denoising [85.49169453434554]
ユーザレビューのコーパスから合成データセットを作成し、レビューをサンプリングし、要約のふりをして、ノイズのあるバージョンを生成します。
テスト時に、モデルは本物のレビューを受け入れ、健全な意見を含む要約を生成し、合意に達しないものをノイズとして扱います。
論文 参考訳(メタデータ) (2020-04-21T16:54:57Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。