論文の概要: LANS: Large-scale Arabic News Summarization Corpus
- arxiv url: http://arxiv.org/abs/2210.13600v1
- Date: Mon, 24 Oct 2022 20:54:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 13:29:05.182175
- Title: LANS: Large-scale Arabic News Summarization Corpus
- Title(参考訳): LANS: 大規模アラビア語ニュース要約コーパス
- Authors: Abdulaziz Alhamadani, Xuchao Zhang, Jianfeng He, Chang-Tien Lu
- Abstract要約: 我々は、アラビア文字要約タスクのための大規模かつ多様なデータセットであるLANSを構築している。
LANSは、1999年から2019年の間に新聞のウェブサイトから抽出した840万記事と要約を提供している。
- 参考スコア(独自算出の注目度): 20.835296945483275
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Text summarization has been intensively studied in many languages, and some
languages have reached advanced stages. Yet, Arabic Text Summarization (ATS) is
still in its developing stages. Existing ATS datasets are either small or lack
diversity. We build, LANS, a large-scale and diverse dataset for Arabic Text
Summarization task. LANS offers 8.4 million articles and their summaries
extracted from newspapers websites metadata between 1999 and 2019. The
high-quality and diverse summaries are written by journalists from 22 major
Arab newspapers, and include an eclectic mix of at least more than 7 topics
from each source. We conduct an intrinsic evaluation on LANS by both automatic
and human evaluations. Human evaluation of 1000 random samples reports 95.4%
accuracy for our collected summaries, and automatic evaluation quantifies the
diversity and abstractness of the summaries. The dataset is publicly available
upon request.
- Abstract(参考訳): テキスト要約は多くの言語で研究され、いくつかの言語は先進的な段階に達した。
しかし、アラビア語のテキスト要約(ATS)はまだ発展段階にある。
既存のATSデータセットは小さいか多様性がないかのいずれかだ。
アラビア語のテキスト要約タスクのための大規模で多様なデータセットを構築します。
LANSは1999年から2019年にかけて、新聞のウェブサイトから抽出した840万記事と要約を提供している。
高品質で多彩な要約は、22のアラブの主要新聞のジャーナリストによって書かれており、それぞれのソースから少なくとも7つのトピックが混ざり合っている。
我々は,自動評価と人的評価の両方により,LANSの本質的な評価を行う。
1000個のランダムサンプルの人間による評価は、収集した要約の95.4%の精度を報告し、自動評価は要約の多様性と抽象性を定量化する。
データセットは要求に応じて公開されている。
関連論文リスト
- Embrace Divergence for Richer Insights: A Multi-document Summarization Benchmark and a Case Study on Summarizing Diverse Information from News Articles [136.84278943588652]
同一イベントを含む複数のニュース記事において遭遇する多様な情報を要約する新しい課題を提案する。
この作業を容易にするために、多様な情報を特定するためのデータ収集スキーマの概要と、DiverseSummというデータセットをキュレートした。
データセットには245のニュース記事が含まれており、各ストーリーは10のニュース記事からなり、人間公認の参照と組み合わせられる。
論文 参考訳(メタデータ) (2023-09-17T20:28:17Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - SEAHORSE: A Multilingual, Multifaceted Dataset for Summarization
Evaluation [52.186343500576214]
本稿では,多言語・多面的要約評価のためのデータセットSEAHORSEを紹介する。
SEAHORSEは、テキスト品質の6次元に沿って人間格付けされた96Kの要約で構成されている。
本稿では,SEAHORSEでトレーニングしたメトリクスが,ドメイン外メタ評価ベンチマークTRUEとmFACEで高い性能を示すことを示す。
論文 参考訳(メタデータ) (2023-05-22T16:25:07Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization [80.94424037751243]
ゼロショット多言語抽出テキスト要約では、通常、モデルは英語のデータセットに基づいて訓練され、他の言語の要約データセットに適用される。
本研究では,NLS(Neural Label Search for Summarization)を提案する。
我々はMLSUMとWikiLinguaのデータセット上で多言語ゼロショット要約実験を行い、人間と自動両方の評価を用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2022-04-28T14:02:16Z) - Evaluation of Abstractive Summarisation Models with Machine Translation
in Deliberative Processes [23.249742737907905]
このデータセットは、主に文法的品質の低い複数の物語を単一のテキストで組み合わせることの難しさを反映している。
本稿では,市販機械翻訳モデルと組み合わせて,多種多様な抽象的要約モデルを広範囲に評価する。
生成した要約の流布,一貫性,関連性について有望な結果を得た。
論文 参考訳(メタデータ) (2021-10-12T09:23:57Z) - Does Summary Evaluation Survive Translation to Other Languages? [0.0]
既存の英語要約データセット SummEval を4言語に翻訳する。
本研究は,翻訳言語における自動評価指標のスコアと,ソース言語における人間のアノテーションとの相関から分析する。
論文 参考訳(メタデータ) (2021-09-16T17:35:01Z) - XL-Sum: Large-Scale Multilingual Abstractive Summarization for 44
Languages [7.8288425529553916]
XL-SumはBBCから100万の専門的注釈付き記事-要約ペアからなる包括的・多種多様なデータセットである。
データセットは、低から高リソースまでの44の言語をカバーする。
XL-Sumは非常に抽象的で簡潔で高品質で、人間や本質的な評価によって示される。
論文 参考訳(メタデータ) (2021-06-25T18:00:24Z) - Liputan6: A Large-scale Indonesian Dataset for Text Summarization [43.375797352517765]
オンラインニュースポータルであるLiputan6.comから記事を抽出し、215,827のドキュメント-要約ペアを取得する。
事前学習した言語モデルを用いて,データセット上のベンチマーク抽出および抽象的要約手法を開発する。
論文 参考訳(メタデータ) (2020-11-02T02:01:12Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。