論文の概要: CrossSum: Beyond English-Centric Cross-Lingual Abstractive Text
Summarization for 1500+ Language Pairs
- arxiv url: http://arxiv.org/abs/2112.08804v1
- Date: Thu, 16 Dec 2021 11:40:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-17 15:56:46.774169
- Title: CrossSum: Beyond English-Centric Cross-Lingual Abstractive Text
Summarization for 1500+ Language Pairs
- Title(参考訳): crosssum: 1500以上の言語ペアに対する英語中心のクロス言語抽象テキスト要約
- Authors: Tahmid Hasan, Abhik Bhattacharjee, Wasi Uddin Ahmad, Yuan-Fang Li,
Yong-Bin Kang, Rifat Shahriyar
- Abstract要約: 我々はCrossSumという,45言語からなる1500以上の言語ペアにおいて,165万の言語横断記事サマリーサンプルからなる大規模データセットを提示する。
我々は多言語XL-Sumデータセットを使用し、言語に依存しない表現モデルを用いて言語間検索により、異なる言語で記述された同種の記事を調整する。
クロスサムを用いた多言語事前学習モデルとして,多段階データサンプリングアルゴリズムとファインチューンmT5を提案する。
- 参考スコア(独自算出の注目度): 11.86496398936758
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present CrossSum, a large-scale dataset comprising 1.65 million
cross-lingual article-summary samples in 1500+ language-pairs constituting 45
languages. We use the multilingual XL-Sum dataset and align identical articles
written in different languages via cross-lingual retrieval using a
language-agnostic representation model. We propose a multi-stage data sampling
algorithm and fine-tune mT5, a multilingual pretrained model, with explicit
cross-lingual supervision with CrossSum and introduce a new metric for
evaluating cross-lingual summarization. Results on established and our proposed
metrics indicate that models fine-tuned on CrossSum outperforms
summarization+translation baselines, even when the source and target language
pairs are linguistically distant. To the best of our knowledge, CrossSum is the
largest cross-lingual summarization dataset and also the first-ever that does
not rely on English as the pivot language. We are releasing the dataset,
alignment and training scripts, and the models to spur future research on
cross-lingual abstractive summarization. The resources can be found at
\url{https://github.com/csebuetnlp/CrossSum}.
- Abstract(参考訳): 現在,CrossSumは,45言語からなる1500以上の言語ペアにおいて,165万の言語横断記事要約サンプルからなる大規模データセットである。
我々は,多言語xl-sumデータセットを用いて,言語非依存表現モデルを用いた言語間検索により,異なる言語で書かれた同一記事の調整を行う。
本稿では,多段データサンプリングアルゴリズムと多言語事前学習モデルmt5を提案する。
提案手法により,CrossSumで微調整したモデルでは,ソースとターゲット言語ペアが言語的に離れている場合でも,要約+翻訳ベースラインが優れていた。
私たちの知る限りでは、クロスサムは最大の言語横断要約データセットであり、ピボット言語として英語に依存しない最初のデータでもある。
我々は,言語間抽象要約に関する今後の研究を促進するために,データセット,アライメント,トレーニングスクリプト,モデルをリリースする。
リソースは \url{https://github.com/csebuetnlp/crosssum} にある。
関連論文リスト
- Automatic Data Retrieval for Cross Lingual Summarization [4.759360739268894]
言語間の要約では、ある言語で書かれたテキストを別の言語に要約する。
本研究は,英語からヒンディー語への言語間要約を実現することを目的としている。
論文 参考訳(メタデータ) (2023-12-22T09:13:24Z) - PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Czech Dataset for Cross-lingual Subjectivity Classification [13.70633147306388]
そこで本研究では,映画レビューや説明文から10kの注釈付き主観的,客観的な文を手作業で作成する新しいチェコ語主観性データセットを提案する。
2つのアノテータはデータセットにコーエンのカッパ間アノテータ契約の0.83に達した。
新しいデータセットの単一言語ベースラインを設定するために、トレーニング済みのBERT風モデルを5つ微調整し、93.56%の精度を達成する。
論文 参考訳(メタデータ) (2022-04-29T07:31:46Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - Improving Low-resource Reading Comprehension via Cross-lingual
Transposition Rethinking [0.9236074230806579]
Extractive Reading (ERC)は、大規模で高品質なERCトレーニングデータの提供によって、大幅に進歩した。
このような急速な進歩と広範囲の応用にもかかわらず、英語のような高リソース言語以外の言語のデータセットは依然として不足している。
多言語環境において,既存の高品質抽出読解データセットをモデル化し,XLTT(Cross-Lingual Transposition ReThinking)モデルを提案する。
論文 参考訳(メタデータ) (2021-07-11T09:35:16Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - XGLUE: A New Benchmark Dataset for Cross-lingual Pre-training,
Understanding and Generation [100.09099800591822]
XGLUEは、大規模な言語間の事前トレーニングモデルのトレーニングに使用できる、新しいベンチマークデータセットである。
XGLUEは、自然言語理解と生成シナリオの両方をカバーする、11の多様化されたタスクを提供する。
論文 参考訳(メタデータ) (2020-04-03T07:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。