論文の概要: CrossSum: Beyond English-Centric Cross-Lingual Summarization for 1,500+
Language Pairs
- arxiv url: http://arxiv.org/abs/2112.08804v3
- Date: Thu, 25 May 2023 19:18:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 00:37:29.465806
- Title: CrossSum: Beyond English-Centric Cross-Lingual Summarization for 1,500+
Language Pairs
- Title(参考訳): crosssum: 1500以上の言語ペアに対する英語中心のクロスリンガル要約
- Authors: Abhik Bhattacharjee, Tahmid Hasan, Wasi Uddin Ahmad, Yuan-Fang Li,
Yong-Bin Kang, Rifat Shahriyar
- Abstract要約: CrossSumは1500以上の言語対の1,68万記事要約サンプルからなる大規模言語間要約データセットである。
我々は、多言語抽象要約データセットからのクロス言語検索により、異なる言語で記述された並列記事の整列により、クロスサムを作成する。
対象言語における記事の要約が可能な言語間要約モデルを効果的に学習する多段階データサンプリングアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 27.574815708395203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present CrossSum, a large-scale cross-lingual summarization dataset
comprising 1.68 million article-summary samples in 1,500+ language pairs. We
create CrossSum by aligning parallel articles written in different languages
via cross-lingual retrieval from a multilingual abstractive summarization
dataset and perform a controlled human evaluation to validate its quality. We
propose a multistage data sampling algorithm to effectively train a
cross-lingual summarization model capable of summarizing an article in any
target language. We also introduce LaSE, an embedding-based metric for
automatically evaluating model-generated summaries. LaSE is strongly correlated
with ROUGE and, unlike ROUGE, can be reliably measured even in the absence of
references in the target language. Performance on ROUGE and LaSE indicate that
our proposed model consistently outperforms baseline models. To the best of our
knowledge, CrossSum is the largest cross-lingual summarization dataset and the
first ever that is not centered around English. We are releasing the dataset,
training and evaluation scripts, and models to spur future research on
cross-lingual summarization. The resources can be found at
https://github.com/csebuetnlp/CrossSum
- Abstract(参考訳): 1500以上の言語対における1,68万記事要約サンプルからなる大規模言語間要約データセットであるCrossSumについて述べる。
多言語抽象要約データセットから言語間検索により、異なる言語で書かれた並列記事の調整を行い、その品質を検証するために制御された人間評価を行うことでクロスサムを作成する。
対象言語における記事の要約が可能な言語間要約モデルを効果的に学習する多段階データサンプリングアルゴリズムを提案する。
また,モデル生成要約を自動的に評価する組み込みメトリクスであるlaseも紹介する。
LaSEはROUGEと強く相関しており、ROUGEとは異なり、ターゲット言語に参照がない場合でも確実に測定することができる。
ROUGEとLaSEの性能は,提案モデルがベースラインモデルより一貫して優れていることを示している。
私たちの知る限りでは、CrossSumは最大の言語間要約データセットであり、英語を中心としない初めてのデータセットです。
データセット、トレーニング、評価スクリプト、モデルをリリースし、言語間の要約に関する将来の研究を促進する。
リソースはhttps://github.com/csebuetnlp/crosssumにある。
関連論文リスト
- Automatic Data Retrieval for Cross Lingual Summarization [4.759360739268894]
言語間の要約では、ある言語で書かれたテキストを別の言語に要約する。
本研究は,英語からヒンディー語への言語間要約を実現することを目的としている。
論文 参考訳(メタデータ) (2023-12-22T09:13:24Z) - PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Czech Dataset for Cross-lingual Subjectivity Classification [13.70633147306388]
そこで本研究では,映画レビューや説明文から10kの注釈付き主観的,客観的な文を手作業で作成する新しいチェコ語主観性データセットを提案する。
2つのアノテータはデータセットにコーエンのカッパ間アノテータ契約の0.83に達した。
新しいデータセットの単一言語ベースラインを設定するために、トレーニング済みのBERT風モデルを5つ微調整し、93.56%の精度を達成する。
論文 参考訳(メタデータ) (2022-04-29T07:31:46Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - Improving Low-resource Reading Comprehension via Cross-lingual
Transposition Rethinking [0.9236074230806579]
Extractive Reading (ERC)は、大規模で高品質なERCトレーニングデータの提供によって、大幅に進歩した。
このような急速な進歩と広範囲の応用にもかかわらず、英語のような高リソース言語以外の言語のデータセットは依然として不足している。
多言語環境において,既存の高品質抽出読解データセットをモデル化し,XLTT(Cross-Lingual Transposition ReThinking)モデルを提案する。
論文 参考訳(メタデータ) (2021-07-11T09:35:16Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - XGLUE: A New Benchmark Dataset for Cross-lingual Pre-training,
Understanding and Generation [100.09099800591822]
XGLUEは、大規模な言語間の事前トレーニングモデルのトレーニングに使用できる、新しいベンチマークデータセットである。
XGLUEは、自然言語理解と生成シナリオの両方をカバーする、11の多様化されたタスクを提供する。
論文 参考訳(メタデータ) (2020-04-03T07:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。