論文の概要: Pointer over Attention: An Improved Bangla Text Summarization Approach
Using Hybrid Pointer Generator Network
- arxiv url: http://arxiv.org/abs/2111.10269v1
- Date: Fri, 19 Nov 2021 15:18:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-22 18:16:10.756055
- Title: Pointer over Attention: An Improved Bangla Text Summarization Approach
Using Hybrid Pointer Generator Network
- Title(参考訳): pointer over attention: hybrid pointer generator networkを用いたバングラテキスト要約手法の改良
- Authors: Nobel Dhar, Gaurob Saha, Prithwiraj Bhattacharjee, Avi Mallick, Md
Saiful Islam
- Abstract要約: 本稿では,事実を不適切に再現し,句の繰り返しを再現する欠点を解決するために,ハイブリッドポインタージェネレータネットワークを提案する。
我々は,単語のアウトオブボキャブラリを生成するハイブリッドポインタージェネレータネットワークを用いて,アテンションに基づくシーケンス・ツー・シーケンスを拡大する。
提案手法は従来のベンガルの抽象的な要約手法よりも優れていることを示した。
- 参考スコア(独自算出の注目度): 0.8049701904919516
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the success of the neural sequence-to-sequence model for abstractive
text summarization, it has a few shortcomings, such as repeating inaccurate
factual details and tending to repeat themselves. We propose a hybrid pointer
generator network to solve the shortcomings of reproducing factual details
inadequately and phrase repetition. We augment the attention-based
sequence-to-sequence using a hybrid pointer generator network that can generate
Out-of-Vocabulary words and enhance accuracy in reproducing authentic details
and a coverage mechanism that discourages repetition. It produces a
reasonable-sized output text that preserves the conceptual integrity and
factual information of the input article. For evaluation, we primarily employed
"BANSData" - a highly adopted publicly available Bengali dataset. Additionally,
we prepared a large-scale dataset called "BANS-133" which consists of 133k
Bangla news articles associated with human-generated summaries. Experimenting
with the proposed model, we achieved ROUGE-1 and ROUGE-2 scores of 0.66, 0.41
for the "BANSData" dataset and 0.67, 0.42 for the BANS-133k" dataset,
respectively. We demonstrated that the proposed system surpasses previous
state-of-the-art Bengali abstractive summarization techniques and its stability
on a larger dataset. "BANS-133" datasets and code-base will be publicly
available for research.
- Abstract(参考訳): 抽象的テキスト要約のためのニューラルシーケンス-シーケンスモデルの成功にもかかわらず、不正確な事実的詳細を繰り返したり、自分自身を繰り返す傾向があるといったいくつかの欠点がある。
本稿では,事実的詳細を不適切に再現することの欠点と句の繰り返しを解消するハイブリッドポインター生成ネットワークを提案する。
本稿では,語彙外単語を生成可能なハイブリッドポインタージェネレータネットワークを用いて注目に基づくシーケンス・ツー・シーケンスを拡大し,真偽を再現する精度を高め,繰り返しを回避できるカバレッジ機構を提案する。
入力記事の概念的完全性と事実的情報を保持する合理的な出力テキストを生成する。
評価のためには主に、広く採用されているBengaliデータセットである"BANSData"を採用しました。
さらに,人間生成サマリーに関連する133kのバングラニュース記事からなる大規模データセット"bans-133"を作成した。
提案モデルを用いて,BANS-133kデータセットのROUGE-1とROUGE-2スコアの0.66,0.41,BANS-133kデータセットの0.67,0.42をそれぞれ達成し,提案システムは従来のベンガル抽象要約技術を超え,より大きなデータセット上での安定性を示す。
関連論文リスト
- Towards Enhancing Coherence in Extractive Summarization: Dataset and Experiments with LLMs [70.15262704746378]
我々は,5つの公開データセットと自然言語ユーザフィードバックのためのコヒーレントな要約からなる,体系的に作成された人間アノテーションデータセットを提案する。
Falcon-40BとLlama-2-13Bによる予備的な実験では、コヒーレントなサマリーを生成するという点で大幅な性能向上(10%ルージュ-L)が見られた。
論文 参考訳(メタデータ) (2024-07-05T20:25:04Z) - Generating EDU Extracts for Plan-Guided Summary Re-Ranking [77.7752504102925]
要約候補を生成して1つの要約を返す2段階のアプローチでは、標準的な単一ステップアプローチよりもROUGEスコアを改善することができる。
これらの問題に対処する再ランク付け候補を生成するための新しい手法を設計する。
広く使われている単一文書ニュース記事コーパスにおいて,以前に公表された手法よりも大きな関連性を示した。
論文 参考訳(メタデータ) (2023-05-28T17:22:04Z) - A Well-Composed Text is Half Done! Composition Sampling for Diverse
Conditional Generation [79.98319703471596]
高品質の条件付き生成のための多種多様な出力を生成するための簡易で効果的な合成サンプリング法であるコンポジションサンプリングを提案する。
これは最近提案された計画ベースのニューラルジェネレーションモデルに基づいて構築され、まず最初に出力の合成を作成し、それと入力を条件付けして生成するように訓練される。
論文 参考訳(メタデータ) (2022-03-28T21:24:03Z) - RDF-to-Text Generation with Reinforcement Learning Based Graph-augmented
Structural Neural Encoders [34.774049199809426]
本稿では, RDF三重項における局所構造情報と大域構造情報の両方を学習するために, 2つのグラフ拡張構造型ニューラルエンコーダを組み合わせたモデルを提案する。
テキストの忠実性をさらに向上するため,情報抽出に基づく強化学習報酬を革新的に導入する。
論文 参考訳(メタデータ) (2021-11-20T08:41:54Z) - HETFORMER: Heterogeneous Transformer with Sparse Attention for Long-Text
Extractive Summarization [57.798070356553936]
HETFORMERはトランスフォーマーをベースとした事前学習モデルであり、抽出要約のための多粒度スパースアテンションを持つ。
単一文書と複数文書の要約タスクの実験から,HETFORMERがルージュF1の最先端性能を達成することが示された。
論文 参考訳(メタデータ) (2021-10-12T22:42:31Z) - MeetSum: Transforming Meeting Transcript Summarization using
Transformers! [2.1915057426589746]
本稿では,Transformer ベースの Pointer Generator Network を用いて要約文を生成する。
このモデルは、エンコーダとデコーダとして2つのLSTMを使用し、入力されたテキストから単語をコピーするポインタネットワークと、語彙外単語を生成するジェネレータネットワークを使用する。
本稿では,ニュース要約データセット上でモデルをトレーニングし,ゼロショット学習を用いてミーティングデータセット上でテストすることで,AMIミーティングデータセット上でのトレーニングよりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-08-13T16:34:09Z) - Reinforced Generative Adversarial Network for Abstractive Text
Summarization [7.507096634112164]
シーケンス・ツー・シーケンス・モデルは、生成的要約に対する実行可能な新しいアプローチを提供する。
これらのモデルには3つの欠点がある: 原文の詳細の把握はしばしば不正確なものであり、そのようなモデルによって生成されたテキストは繰り返しとなることが多い。
本稿では,強化学習と敵対的生成ネットワークを組み合わせた新しいアーキテクチャを提案し,シーケンス・ツー・シーケンス・アテンション・モデルを提案する。
論文 参考訳(メタデータ) (2021-05-31T17:34:47Z) - Bengali Abstractive News Summarization(BANS): A Neural Attention
Approach [0.8793721044482612]
本稿では,エンコーダ・デコーダに着目したSeq2seqベースのLong Short-Term Memory(LSTM)ネットワークモデルを提案する。
提案システムでは,単語の長い列を人文や人文で生成する,局所的な注意に基づくモデルを構築している。
また,Bangla.bdnews24.com1から収集した19k以上の記事とそれに対応する人文要約のデータセットも作成した。
論文 参考訳(メタデータ) (2020-12-03T08:17:31Z) - Improving Zero and Few-Shot Abstractive Summarization with Intermediate
Fine-tuning and Data Augmentation [101.26235068460551]
大規模テキストコーパス上での自己教師対象による事前学習モデルは、英語テキスト要約タスクにおける最先端のパフォーマンスを達成する。
モデルは通常、数十万のデータポイントで微調整されるが、これは新しいニッチなドメインに要約を適用する際に、実現不可能な要件である。
我々は、教師なし、データセット固有の方法で要約のための訓練済みモデルを微調整するための、WikiTransferと呼ばれる新しい一般化可能な手法を紹介した。
論文 参考訳(メタデータ) (2020-10-24T08:36:49Z) - Pre-training for Abstractive Document Summarization by Reinstating
Source Text [105.77348528847337]
本稿では,Seq2Seqに基づく非ラベルテキストによる抽象要約モデルの事前学習を可能にする3つの事前学習目標を提案する。
2つのベンチマーク要約データセットの実験では、3つの目的がすべてベースラインでパフォーマンスを向上させることが示されている。
論文 参考訳(メタデータ) (2020-04-04T05:06:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。