論文の概要: XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating
Cross-lingual Generalization
- arxiv url: http://arxiv.org/abs/2003.11080v5
- Date: Fri, 4 Sep 2020 17:56:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 08:13:30.302022
- Title: XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating
Cross-lingual Generalization
- Title(参考訳): xtreme:多言語マルチタスクベンチマークによる言語間一般化の評価
- Authors: Junjie Hu, Sebastian Ruder, Aditya Siddhant, Graham Neubig, Orhan
Firat, Melvin Johnson
- Abstract要約: 言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。
我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
- 参考スコア(独自算出の注目度): 128.37244072182506
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Much recent progress in applications of machine learning models to NLP has
been driven by benchmarks that evaluate models across a wide variety of tasks.
However, these broad-coverage benchmarks have been mostly limited to English,
and despite an increasing interest in multilingual models, a benchmark that
enables the comprehensive evaluation of such methods on a diverse range of
languages and tasks is still missing. To this end, we introduce the
Cross-lingual TRansfer Evaluation of Multilingual Encoders XTREME benchmark, a
multi-task benchmark for evaluating the cross-lingual generalization
capabilities of multilingual representations across 40 languages and 9 tasks.
We demonstrate that while models tested on English reach human performance on
many tasks, there is still a sizable gap in the performance of cross-lingually
transferred models, particularly on syntactic and sentence retrieval tasks.
There is also a wide spread of results across languages. We release the
benchmark to encourage research on cross-lingual learning methods that transfer
linguistic knowledge across a diverse and representative set of languages and
tasks.
- Abstract(参考訳): NLPへの機械学習モデルの応用に関する最近の進歩は、さまざまなタスクにわたるモデルを評価するベンチマークによって進められている。
しかし、これらの広い範囲のベンチマークは英語に限られており、多言語モデルへの関心が高まりつつも、様々な言語やタスクにおけるそのような手法の包括的な評価を可能にするベンチマークはいまだに欠落している。
この目的のために、40言語および9タスクにわたる多言語表現の多言語一般化能力を評価するマルチタスクベンチマークであるマルチ言語エンコーダXTREMEベンチマークのクロス言語TRansfer評価を導入する。
英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデル、特に構文および文検索タスクのパフォーマンスには大きなギャップがある。
また、言語にまたがる幅広い結果がある。
我々は,言語知識を多種多様な言語やタスク間で伝達する言語横断学習手法に関する研究を奨励するベンチマークをリリースする。
関連論文リスト
- Analyzing the Evaluation of Cross-Lingual Knowledge Transfer in
Multilingual Language Models [12.662039551306632]
その結果,多言語モデルの高性能化は,実際の言語知識の伝達を必要としない要因が主な原因であることが示唆された。
具体的には、特に低リソース言語において、言語間で転送されたものは、主にデータアーチファクトとバイアスです。
論文 参考訳(メタデータ) (2024-02-03T09:41:52Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - XTREME-R: Towards More Challenging and Nuanced Multilingual Evaluation [93.80733419450225]
本稿では,言語間移動学習の現状を解析する。
XTREMEを10種類の自然言語理解タスクからなるXTREME-Rに拡張する。
論文 参考訳(メタデータ) (2021-04-15T12:26:12Z) - Are Multilingual Models Effective in Code-Switching? [57.78477547424949]
多言語モデルの有効性を検討し,複合言語設定の能力と適応性について検討する。
この結果から,事前学習した多言語モデルでは,コードスイッチングにおける高品質な表現が必ずしも保証されないことが示唆された。
論文 参考訳(メタデータ) (2021-03-24T16:20:02Z) - Meta-Learning for Effective Multi-task and Multilingual Modelling [23.53779501937046]
タスクと言語間の相互作用を学ぶためのメタラーニング手法を提案する。
我々は、XTREME多言語ベンチマークデータセットから5つの異なるタスクと6つの異なる言語に関する実験を提示する。
論文 参考訳(メタデータ) (2021-01-25T19:30:26Z) - CoSDA-ML: Multi-Lingual Code-Switching Data Augmentation for Zero-Shot
Cross-Lingual NLP [68.2650714613869]
我々は,mBERTを微調整するための多言語コードスイッチングデータを生成するためのデータ拡張フレームワークを提案する。
既存の研究と比較すると,本手法は訓練にバイリンガル文を頼らず,複数の対象言語に対して1つの学習プロセスしか必要としない。
論文 参考訳(メタデータ) (2020-06-11T13:15:59Z) - GLUECoS : An Evaluation Benchmark for Code-Switched NLP [17.066725832825423]
コード切替言語に対する評価ベンチマーク GLUECoS を提案する。
英語・ヒンディー語・英語・スペイン語におけるNLP課題について報告する。
我々は、人工的に生成されたコード切替データに基づいて、多言語モデルを微調整する。
論文 参考訳(メタデータ) (2020-04-26T13:28:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。