論文の概要: XL-Sum: Large-Scale Multilingual Abstractive Summarization for 44
Languages
- arxiv url: http://arxiv.org/abs/2106.13822v1
- Date: Fri, 25 Jun 2021 18:00:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-29 18:13:37.769194
- Title: XL-Sum: Large-Scale Multilingual Abstractive Summarization for 44
Languages
- Title(参考訳): XL-Sum:44言語のための大規模多言語抽象要約
- Authors: Tahmid Hasan, Abhik Bhattacharjee, Md Saiful Islam, Kazi Samin,
Yuan-Fang Li, Yong-Bin Kang, M. Sohel Rahman, Rifat Shahriyar
- Abstract要約: XL-SumはBBCから100万の専門的注釈付き記事-要約ペアからなる包括的・多種多様なデータセットである。
データセットは、低から高リソースまでの44の言語をカバーする。
XL-Sumは非常に抽象的で簡潔で高品質で、人間や本質的な評価によって示される。
- 参考スコア(独自算出の注目度): 7.8288425529553916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contemporary works on abstractive text summarization have focused primarily
on high-resource languages like English, mostly due to the limited availability
of datasets for low/mid-resource ones. In this work, we present XL-Sum, a
comprehensive and diverse dataset comprising 1 million professionally annotated
article-summary pairs from BBC, extracted using a set of carefully designed
heuristics. The dataset covers 44 languages ranging from low to high-resource,
for many of which no public dataset is currently available. XL-Sum is highly
abstractive, concise, and of high quality, as indicated by human and intrinsic
evaluation. We fine-tune mT5, a state-of-the-art pretrained multilingual model,
with XL-Sum and experiment on multilingual and low-resource summarization
tasks. XL-Sum induces competitive results compared to the ones obtained using
similar monolingual datasets: we show higher than 11 ROUGE-2 scores on 10
languages we benchmark on, with some of them exceeding 15, as obtained by
multilingual training. Additionally, training on low-resource languages
individually also provides competitive performance. To the best of our
knowledge, XL-Sum is the largest abstractive summarization dataset in terms of
the number of samples collected from a single source and the number of
languages covered. We are releasing our dataset and models to encourage future
research on multilingual abstractive summarization. The resources can be found
at \url{https://github.com/csebuetnlp/xl-sum}.
- Abstract(参考訳): 抽象的テキスト要約(abstractive text summarization)に関する現代の研究は、主に英語のような高リソース言語に焦点を当ててきた。
本稿では,bbcから100万の専門的注釈付記事要約ペアからなる包括的かつ多様なデータセットであるxl-sumを提案する。
データセットは、ローからハイリソースまでの44の言語をカバーしており、その多くは、現在公開データセットが使用できない。
XL-Sumは非常に抽象的で簡潔で高品質で、人間や本質的な評価によって示される。
我々は,最先端の事前学習型多言語モデルであるmt5をxl-sumで微調整し,多言語および低リソースの要約タスク実験を行った。
XL-Sumは、類似したモノリンガルデータセットを用いて得られたものと比較して、競合的な結果を誘導する: ベンチマークした10言語で11 ROUGE-2スコアを上回り、そのうちのいくつかはマルチリンガルトレーニングによって得られた15を超えている。
さらに、低リソース言語でのトレーニングは、個々に競争的なパフォーマンスを提供する。
我々の知る限り、XL-Sumは単一のソースから収集されたサンプルの数とカバーされる言語数で最大の抽象的な要約データセットである。
我々は,多言語抽象要約に関する今後の研究を促進するために,データセットとモデルをリリースする。
リソースは \url{https://github.com/csebuetnlp/xl-sum} にある。
関連論文リスト
- The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - V\=arta: A Large-Scale Headline-Generation Dataset for Indic Languages [21.018996007110324]
このデータセットには14の異なるIndic言語(および英語)の480万のニュース記事が含まれている。
私たちの知る限りでは、現在利用可能なIndic言語のキュレートされた記事のコレクションとしては、これが最大です。
論文 参考訳(メタデータ) (2023-05-10T03:07:17Z) - DN at SemEval-2023 Task 12: Low-Resource Language Text Classification
via Multilingual Pretrained Language Model Fine-tuning [0.0]
感情分析のための既存のモデルやデータセットは、英語や中国語などの高リソース言語向けに開発されている。
AfriSenti-SemEval 2023 Shared Task 12は、低リソースのアフリカの言語に対する感情分析モデルを評価することで、このギャップを埋めることを目的としている。
そこで我々は,多言語XLM-Rモデルを多言語モデルに適用し,様々なデータに基づいて分類ヘッドを訓練した。
論文 参考訳(メタデータ) (2023-05-04T07:28:45Z) - UniMax: Fairer and more Effective Language Sampling for Large-Scale
Multilingual Pretraining [92.3702056505905]
我々は,尾語への過剰適合を軽減しつつ,より均一なヘッド言語カバレッジを提供する新しいサンプリング手法UniMaxを提案する。
We found that UniMax are outperforming standard temperature-based sample, and the benefit persistent as scale increased。
論文 参考訳(メタデータ) (2023-04-18T17:45:50Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - CrossSum: Beyond English-Centric Cross-Lingual Summarization for 1,500+
Language Pairs [27.574815708395203]
CrossSumは1500以上の言語対の1,68万記事要約サンプルからなる大規模言語間要約データセットである。
我々は、多言語抽象要約データセットからのクロス言語検索により、異なる言語で記述された並列記事の整列により、クロスサムを作成する。
対象言語における記事の要約が可能な言語間要約モデルを効果的に学習する多段階データサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-12-16T11:40:36Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - The Tatoeba Translation Challenge -- Realistic Data Sets for Low
Resource and Multilingual MT [0.0]
本稿では,何千もの言語ペアに対するトレーニングとテストデータを提供する機械翻訳のための新しいベンチマークの開発について述べる。
主な目標は、世界言語をより広範囲にカバーしたオープン翻訳ツールとモデルの開発をトリガーすることである。
論文 参考訳(メタデータ) (2020-10-13T13:12:21Z) - MLSUM: The Multilingual Summarization Corpus [29.943949944682196]
MLSUMは、最初の大規模MultiLingual Summarizationデータセットである。
5つの言語で1.5M以上の記事/サマリーペアを含む。
論文 参考訳(メタデータ) (2020-04-30T15:58:34Z) - XGLUE: A New Benchmark Dataset for Cross-lingual Pre-training,
Understanding and Generation [100.09099800591822]
XGLUEは、大規模な言語間の事前トレーニングモデルのトレーニングに使用できる、新しいベンチマークデータセットである。
XGLUEは、自然言語理解と生成シナリオの両方をカバーする、11の多様化されたタスクを提供する。
論文 参考訳(メタデータ) (2020-04-03T07:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。