論文の概要: XGLUE: A New Benchmark Dataset for Cross-lingual Pre-training,
Understanding and Generation
- arxiv url: http://arxiv.org/abs/2004.01401v3
- Date: Fri, 22 May 2020 05:58:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 04:28:39.008618
- Title: XGLUE: A New Benchmark Dataset for Cross-lingual Pre-training,
Understanding and Generation
- Title(参考訳): XGLUE: 言語間事前トレーニング,理解,生成のためのベンチマークデータセット
- Authors: Yaobo Liang, Nan Duan, Yeyun Gong, Ning Wu, Fenfei Guo, Weizhen Qi,
Ming Gong, Linjun Shou, Daxin Jiang, Guihong Cao, Xiaodong Fan, Ruofei Zhang,
Rahul Agrawal, Edward Cui, Sining Wei, Taroon Bharti, Ying Qiao, Jiun-Hung
Chen, Winnie Wu, Shuguang Liu, Fan Yang, Daniel Campos, Rangan Majumder, Ming
Zhou
- Abstract要約: XGLUEは、大規模な言語間の事前トレーニングモデルのトレーニングに使用できる、新しいベンチマークデータセットである。
XGLUEは、自然言語理解と生成シナリオの両方をカバーする、11の多様化されたタスクを提供する。
- 参考スコア(独自算出の注目度): 100.09099800591822
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce XGLUE, a new benchmark dataset that can be used
to train large-scale cross-lingual pre-trained models using multilingual and
bilingual corpora and evaluate their performance across a diverse set of
cross-lingual tasks. Comparing to GLUE(Wang et al., 2019), which is labeled in
English for natural language understanding tasks only, XGLUE has two main
advantages: (1) it provides 11 diversified tasks that cover both natural
language understanding and generation scenarios; (2) for each task, it provides
labeled data in multiple languages. We extend a recent cross-lingual
pre-trained model Unicoder(Huang et al., 2019) to cover both understanding and
generation tasks, which is evaluated on XGLUE as a strong baseline. We also
evaluate the base versions (12-layer) of Multilingual BERT, XLM and XLM-R for
comparison.
- Abstract(参考訳): 本稿では,マルチリンガルコーパスとバイリンガルコーパスを用いた大規模クロスリンガルプリトレーニングモデルのトレーニングと,さまざまなクロスリンガルタスクにおけるパフォーマンス評価に使用可能な,新たなベンチマークデータセットであるxglueを提案する。
自然言語理解タスクのみに英語でラベル付けされているGLUE(Wang et al., 2019)と比較して、XGLUEには2つの大きな利点がある。
我々は,近年の言語間事前学習モデルUnicoder(Huang et al., 2019)を拡張し,XGLUEを強力なベースラインとして評価する。
また,多言語BERT,XLM,XLM-Rのベースバージョン(12層)を比較検討した。
関連論文リスト
- X-SNS: Cross-Lingual Transfer Prediction through Sub-Network Similarity [19.15213046428148]
クロスランガルトランスファー(XLT)は、微調整プロセスに含まれていない言語で評価された場合、タスク上での性能をある程度保持する多言語言語モデルである。
本稿では,XLTの文脈における言語間の互換性を予測するプロキシとして,2言語間のサブネットワーク類似性の利用を提案する。
論文 参考訳(メタデータ) (2023-10-26T05:39:49Z) - XNLI 2.0: Improving XNLI dataset and performance on Cross Lingual
Understanding (XLU) [0.0]
我々は、XNLIに存在する14の言語すべてでMNLIデータセットを再翻訳することで、元のXNLIデータセットの改善に注力する。
また、15言語すべてでモデルを訓練し、自然言語推論のタスクでそれらの性能を分析する実験を行った。
論文 参考訳(メタデータ) (2023-01-16T17:24:57Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - Multilingual Transfer Learning for QA Using Translation as Data
Augmentation [13.434957024596898]
我々は,多言語組込みを意味空間に近づけることで,言語間伝達を改善する戦略を検討する。
言語敵対的トレーニングと言語仲裁フレームワークという2つの新しい戦略を提案し、(ゼロリソースの)クロスリンガルトランスファーのパフォーマンスを大幅に改善します。
実験により,提案モデルは,最近導入された多言語MLQAデータセットとTyDiQAデータセットにおいて,以前のゼロショットベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-10T20:29:34Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。