論文の概要: XNLI 2.0: Improving XNLI dataset and performance on Cross Lingual
Understanding (XLU)
- arxiv url: http://arxiv.org/abs/2301.06527v1
- Date: Mon, 16 Jan 2023 17:24:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-18 15:42:07.447767
- Title: XNLI 2.0: Improving XNLI dataset and performance on Cross Lingual
Understanding (XLU)
- Title(参考訳): XNLI 2.0: クロスリンガル理解(XLU)におけるXNLIデータセットの改善とパフォーマンス
- Authors: Ankit Kumar Upadhyay, Harsit Kumar Upadhya
- Abstract要約: 我々は、XNLIに存在する14の言語すべてでMNLIデータセットを再翻訳することで、元のXNLIデータセットの改善に注力する。
また、15言語すべてでモデルを訓練し、自然言語推論のタスクでそれらの性能を分析する実験を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural Language Processing systems are heavily dependent on the availability
of annotated data to train practical models. Primarily, models are trained on
English datasets. In recent times, significant advances have been made in
multilingual understanding due to the steeply increasing necessity of working
in different languages. One of the points that stands out is that since there
are now so many pre-trained multilingual models, we can utilize them for
cross-lingual understanding tasks. Using cross-lingual understanding and
Natural Language Inference, it is possible to train models whose applications
extend beyond the training language. We can leverage the power of machine
translation to skip the tiresome part of translating datasets from one language
to another. In this work, we focus on improving the original XNLI dataset by
re-translating the MNLI dataset in all of the 14 different languages present in
XNLI, including the test and dev sets of XNLI using Google Translate. We also
perform experiments by training models in all 15 languages and analyzing their
performance on the task of natural language inference. We then expand our
boundary to investigate if we could improve performance in low-resource
languages such as Swahili and Urdu by training models in languages other than
English.
- Abstract(参考訳): 自然言語処理システムは、実用的なモデルをトレーニングするための注釈付きデータの可用性に大きく依存している。
モデルは主に、英語のデータセットでトレーニングされる。
近年、異なる言語で作業する必要性が急激に増大するため、多言語理解において重要な進歩がもたらされている。
注目すべき点の1つは、今や多くの事前訓練された多言語モデルが存在するので、それらを言語間理解タスクに利用できることである。
言語間理解と自然言語推論を用いることで、アプリケーションがトレーニング言語を超えて広がるモデルをトレーニングすることができる。
機械翻訳の力を利用して、データセットをある言語から別の言語に翻訳する面倒な部分をスキップできる。
本研究では,Google Translate を用いた XNLI のテストおよび開発セットを含む,XNLI に含まれる14 言語すべてで MNLI データセットを再翻訳することで,元の XNLI データセットの改善に注力する。
また,15言語すべてでモデルをトレーニングし,その性能を自然言語推論のタスクで分析することで実験を行った。
スワヒリ語やウルドゥー語のような低リソース言語のパフォーマンスを英語以外の言語でトレーニングすることで改善できるかどうかを調べるために、境界を広げます。
関連論文リスト
- Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Continual Learning in Multilingual NMT via Language-Specific Embeddings [92.91823064720232]
共有語彙を小さな言語固有の語彙に置き換え、新しい言語の並列データに新しい埋め込みを微調整する。
元のモデルのパラメータは変更されていないため、初期言語の性能は劣化しない。
論文 参考訳(メタデータ) (2021-10-20T10:38:57Z) - Multilingual Neural Semantic Parsing for Low-Resourced Languages [1.6244541005112747]
英語,イタリア語,日本語の新しい多言語意味解析データセットを提案する。
本研究では,事前学習したエンコーダを用いた多言語学習がTOPデータセットのベースラインを大幅に上回ることを示す。
英語データのみに基づいて訓練されたセマンティクスは、イタリア語の文に対して44.9%の精度でゼロショットのパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-06-07T09:53:02Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - Zero-Shot Cross-Lingual Transfer with Meta Learning [45.29398184889296]
英語以外の言語ではほとんど、あるいは全くデータがない場合に、複数の言語でのトレーニングモデルの設定を同時に検討する。
メタラーニングを用いて、この挑戦的な設定にアプローチできることが示される。
我々は、標準教師付きゼロショットのクロスランガルと、異なる自然言語理解タスクのための数ショットのクロスランガル設定を用いて実験を行った。
論文 参考訳(メタデータ) (2020-03-05T16:07:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。