論文の概要: IndicXNLI: Evaluating Multilingual Inference for Indian Languages
- arxiv url: http://arxiv.org/abs/2204.08776v1
- Date: Tue, 19 Apr 2022 09:49:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-20 20:59:07.821647
- Title: IndicXNLI: Evaluating Multilingual Inference for Indian Languages
- Title(参考訳): IndicXNLI:インド語の多言語推論の評価
- Authors: Divyanshu Aggarwal, Vivek Gupta, Anoop Kunchukuttan
- Abstract要約: IndicXNLIは11のIndic言語のためのNLIデータセットである。
IndicXNLIで事前学習した異なるLMを微調整することにより、様々な言語間移動手法を解析する。
これらの実験は、様々な言語に対する事前学習されたモデルの振る舞いに関する有用な洞察を提供する。
- 参考スコア(独自算出の注目度): 9.838755823660147
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Indic NLP has made rapid advances recently in terms of the availability
of corpora and pre-trained models, benchmark datasets on standard NLU tasks are
limited. To this end, we introduce IndicXNLI, an NLI dataset for 11 Indic
languages. It has been created by high-quality machine translation of the
original English XNLI dataset and our analysis attests to the quality of
IndicXNLI. By finetuning different pre-trained LMs on this IndicXNLI, we
analyze various cross-lingual transfer techniques with respect to the impact of
the choice of language models, languages, multi-linguality, mix-language input,
etc. These experiments provide us with useful insights into the behaviour of
pre-trained models for a diverse set of languages.
- Abstract(参考訳): Indic NLPは最近、コーパスと事前訓練モデルの可用性の観点から急速に進歩しているが、標準のNLUタスクのベンチマークデータセットは限られている。
この目的のために、11のIndic言語のためのNLIデータセットであるIndicXNLIを紹介する。
元の英語XNLIデータセットの高品質な機械翻訳によって作成され、分析結果からIndicXNLIの品質が確認された。
IndicXNLIでは, 言語モデル, 言語選択, 多言語性, 混合言語入力などの影響について, 様々な言語間移動手法を微調整して解析する。
これらの実験は、様々な言語に対する事前学習されたモデルの振る舞いに関する有用な洞察を提供する。
関連論文リスト
- DIALECTBENCH: A NLP Benchmark for Dialects, Varieties, and Closely-Related Languages [49.38663048447942]
DIALECTBENCHは,NLPの品種に対する大規模ベンチマークとして初めて提案される。
これにより、異なる言語でNLPシステムの性能を総合的に評価することができる。
標準言語と非標準言語間の性能格差の相当な証拠を提供する。
論文 参考訳(メタデータ) (2024-03-16T20:18:36Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - XNLI 2.0: Improving XNLI dataset and performance on Cross Lingual
Understanding (XLU) [0.0]
我々は、XNLIに存在する14の言語すべてでMNLIデータセットを再翻訳することで、元のXNLIデータセットの改善に注力する。
また、15言語すべてでモデルを訓練し、自然言語推論のタスクでそれらの性能を分析する実験を行った。
論文 参考訳(メタデータ) (2023-01-16T17:24:57Z) - IndicNLG Suite: Multilingual Datasets for Diverse NLG Tasks in Indic
Languages [23.157951796614466]
本稿では,11言語を対象とした自然言語生成をベンチマークするデータセットの集合であるIndicNLGスイートを提案する。
本稿では,ウィキペディア情報ボックス(WikiBio)を用いたバイオグラフィー生成,ニュース見出し生成,文要約,質問生成,パラフレーズ生成の5つのタスクに着目した。
論文 参考訳(メタデータ) (2022-03-10T15:53:58Z) - AmericasNLI: Evaluating Zero-shot Natural Language Understanding of
Pretrained Multilingual Models in Truly Low-resource Languages [75.08199398141744]
我々は、XNLI(Conneau et al)の拡張である AmericasNLI を提示する。
は、アメリカ大陸の10の原住民の言語である。
XLM-Rで実験を行い、複数のゼロショットおよび翻訳ベースのアプローチをテストします。
XLM-Rのゼロショット性能は全10言語で低調であり、平均性能は38.62%である。
論文 参考訳(メタデータ) (2021-04-18T05:32:28Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - OCNLI: Original Chinese Natural Language Inference [21.540733910984006]
我々は,中国における最初の大規模NLIデータセット(56,000の注釈付き文対からなる)であるOriginal Chinese Natural Language Inference dataset(OCNLI)を提示する。
NLIを他の言語に拡張しようとする最近の試みとは異なり、私たちのデータセットは自動翻訳や非専門家アノテーションに依存していません。
我々は、中国語の最先端の事前訓練モデルを用いて、データセット上でいくつかのベースライン結果を確立し、人間のパフォーマンスよりもはるかに優れたパフォーマンスモデルを見つける。
論文 参考訳(メタデータ) (2020-10-12T04:25:48Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - Knowledge Distillation for Multilingual Unsupervised Neural Machine
Translation [61.88012735215636]
unsupervised neural machine translation (UNMT) は、最近、いくつかの言語対に対して顕著な結果を得た。
UNMTは単一の言語ペア間でのみ翻訳することができ、同時に複数の言語ペアに対して翻訳結果を生成することはできない。
本稿では,1つのエンコーダと1つのデコーダを用いて13言語間を翻訳する簡単な手法を実証的に紹介する。
論文 参考訳(メタデータ) (2020-04-21T17:26:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。