論文の概要: Liputan6: A Large-scale Indonesian Dataset for Text Summarization
- arxiv url: http://arxiv.org/abs/2011.00679v1
- Date: Mon, 2 Nov 2020 02:01:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 11:48:25.407694
- Title: Liputan6: A Large-scale Indonesian Dataset for Text Summarization
- Title(参考訳): liputan6: テキスト要約のための大規模インドネシアデータセット
- Authors: Fajri Koto and Jey Han Lau and Timothy Baldwin
- Abstract要約: オンラインニュースポータルであるLiputan6.comから記事を抽出し、215,827のドキュメント-要約ペアを取得する。
事前学習した言語モデルを用いて,データセット上のベンチマーク抽出および抽象的要約手法を開発する。
- 参考スコア(独自算出の注目度): 43.375797352517765
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce a large-scale Indonesian summarization dataset.
We harvest articles from Liputan6.com, an online news portal, and obtain
215,827 document-summary pairs. We leverage pre-trained language models to
develop benchmark extractive and abstractive summarization methods over the
dataset with multilingual and monolingual BERT-based models. We include a
thorough error analysis by examining machine-generated summaries that have low
ROUGE scores, and expose both issues with ROUGE it-self, as well as with
extractive and abstractive summarization models.
- Abstract(参考訳): 本稿では,インドネシアの大規模要約データセットを紹介する。
オンラインニュースポータルであるLiputan6.comから記事を抽出し、215,827のドキュメント-要約ペアを取得する。
事前学習した言語モデルを用いて、多言語および単言語BERTモデルを用いたデータセット上で、ベンチマーク抽出および抽象的な要約手法を開発する。
我々は,ルージュスコアの低いマシン生成サマリーについて徹底的なエラー解析を行い,ルージュit自身と抽出および抽象要約モデルの両方の問題を明らかにする。
関連論文リスト
- Towards Enhancing Coherence in Extractive Summarization: Dataset and Experiments with LLMs [70.15262704746378]
我々は,5つの公開データセットと自然言語ユーザフィードバックのためのコヒーレントな要約からなる,体系的に作成された人間アノテーションデータセットを提案する。
Falcon-40BとLlama-2-13Bによる予備的な実験では、コヒーレントなサマリーを生成するという点で大幅な性能向上(10%ルージュ-L)が見られた。
論文 参考訳(メタデータ) (2024-07-05T20:25:04Z) - From News to Summaries: Building a Hungarian Corpus for Extractive and Abstractive Summarization [0.19107347888374507]
HunSum-2は、抽象的および抽出的要約モデルのトレーニングに適したオープンソースのハンガリー語コーパスである。
データセットは、徹底的なクリーニングを行うCommon Crawlコーパスのセグメントから組み立てられる。
論文 参考訳(メタデータ) (2024-04-04T16:07:06Z) - Abstractive Text Summarization Using the BRIO Training Paradigm [2.102846336724103]
本稿では,事前学習した言語モデルを微調整することで抽象要約を改善する手法を提案する。
VieSumと呼ばれるベトナム語のためのテキスト要約データセットを構築します。
我々は、CNNDMとVieSumデータセット上でBRIOパラダイムで訓練された抽象的な要約モデルを用いて実験を行う。
論文 参考訳(メタデータ) (2023-05-23T05:09:53Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - Evaluation of Abstractive Summarisation Models with Machine Translation
in Deliberative Processes [23.249742737907905]
このデータセットは、主に文法的品質の低い複数の物語を単一のテキストで組み合わせることの難しさを反映している。
本稿では,市販機械翻訳モデルと組み合わせて,多種多様な抽象的要約モデルを広範囲に評価する。
生成した要約の流布,一貫性,関連性について有望な結果を得た。
論文 参考訳(メタデータ) (2021-10-12T09:23:57Z) - Bengali Abstractive News Summarization(BANS): A Neural Attention
Approach [0.8793721044482612]
本稿では,エンコーダ・デコーダに着目したSeq2seqベースのLong Short-Term Memory(LSTM)ネットワークモデルを提案する。
提案システムでは,単語の長い列を人文や人文で生成する,局所的な注意に基づくモデルを構築している。
また,Bangla.bdnews24.com1から収集した19k以上の記事とそれに対応する人文要約のデータセットも作成した。
論文 参考訳(メタデータ) (2020-12-03T08:17:31Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - Multi-Fact Correction in Abstractive Text Summarization [98.27031108197944]
Span-Factは、質問応答モデルから学んだ知識を活用して、スパン選択によるシステム生成サマリーの補正を行う2つの事実補正モデルのスイートである。
我々のモデルは、ソースコードのセマンティック一貫性を確保するために、反復的または自動回帰的にエンティティを置き換えるために、シングルまたはマルチマスキング戦略を採用している。
実験の結果,自動測定と人的評価の両面において,要約品質を犠牲にすることなく,システム生成要約の事実整合性を大幅に向上させることができた。
論文 参考訳(メタデータ) (2020-10-06T02:51:02Z) - Leveraging Graph to Improve Abstractive Multi-Document Summarization [50.62418656177642]
我々は、文書のよく知られたグラフ表現を活用することができる、抽象的多文書要約(MDS)モデルを開発する。
本モデルでは,長い文書の要約に欠かせない文書間関係を捉えるために,文書の符号化にグラフを利用する。
また,このモデルでは,要約生成プロセスの導出にグラフを利用することが可能であり,一貫性と簡潔な要約を生成するのに有用である。
論文 参考訳(メタデータ) (2020-05-20T13:39:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。