論文の概要: XNLIeu: a dataset for cross-lingual NLI in Basque
- arxiv url: http://arxiv.org/abs/2404.06996v1
- Date: Wed, 10 Apr 2024 13:19:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-11 14:31:02.991632
- Title: XNLIeu: a dataset for cross-lingual NLI in Basque
- Title(参考訳): XNLIeu: バスクにおける言語間NLIデータセット
- Authors: Maite Heredia, Julen Etxaniz, Muitze Zulaika, Xabier Saralegi, Jeremy Barnes, Aitor Soroa,
- Abstract要約: 本稿では、XNLIを拡張して、トランスファーラーニングのアプローチを大いに活用できる低リソース言語であるBasqueを含める。
新しいデータセットはXNLIeuと呼ばれ、最初は英語のXNLIコーパスをバスクに機械翻訳し、続いて手動で編集後のステップで開発された。
- 参考スコア(独自算出の注目度): 14.788692648660797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: XNLI is a popular Natural Language Inference (NLI) benchmark widely used to evaluate cross-lingual Natural Language Understanding (NLU) capabilities across languages. In this paper, we expand XNLI to include Basque, a low-resource language that can greatly benefit from transfer-learning approaches. The new dataset, dubbed XNLIeu, has been developed by first machine-translating the English XNLI corpus into Basque, followed by a manual post-edition step. We have conducted a series of experiments using mono- and multilingual LLMs to assess a) the effect of professional post-edition on the MT system; b) the best cross-lingual strategy for NLI in Basque; and c) whether the choice of the best cross-lingual strategy is influenced by the fact that the dataset is built by translation. The results show that post-edition is necessary and that the translate-train cross-lingual strategy obtains better results overall, although the gain is lower when tested in a dataset that has been built natively from scratch. Our code and datasets are publicly available under open licenses.
- Abstract(参考訳): XNLIは、言語横断自然言語理解(NLU)機能を評価するために広く使われている、人気のある自然言語推論(NLI)ベンチマークである。
本稿では、XNLIを拡張して、トランスファーラーニングのアプローチを大いに活用できる低リソース言語であるBasqueを含める。
新しいデータセットはXNLIeuと呼ばれ、最初は英語のXNLIコーパスをバスクに機械翻訳し、続いて手動で編集後のステップで開発された。
単言語および多言語LLMを用いて評価実験を行った。
a) MTシステムに対する専門的な後編の影響
ロ バスクにおけるNLIの最良の言語横断戦略及び
c) 最高の言語間戦略の選択は、データセットが翻訳によって構築されているという事実に影響されるかどうか。
結果より, 翻訳後編集が必要であり, 翻訳後言語戦略は, スクラッチからネイティブに構築されたデータセットでテストした場合のゲインは低いが, 全体としてより優れた結果が得られることがわかった。
私たちのコードとデータセットは、オープンライセンスの下で公開されています。
関連論文リスト
- Cross-lingual Transfer or Machine Translation? On Data Augmentation for
Monolingual Semantic Textual Similarity [2.422759879602353]
Wikipediaデータの言語間転送では、モノリンガルSTSのパフォーマンスが改善されている。
学習データとしてNLIに着目した先行研究とは対照的に,これらの言語ではWikipediaドメインがNLIドメインよりも優れている。
論文 参考訳(メタデータ) (2024-03-08T12:28:15Z) - UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised
Fine-tuning Dataset [69.33424532827608]
オープンソースの大規模言語モデル(LLM)は、様々な分野において大きな強みを持っている。
本研究では,オープンソースの多言語教師付き微調整データセットを構築する。
結果として得られたUltraLinkデータセットは、5つの言語にわたる約100万のサンプルで構成されている。
論文 参考訳(メタデータ) (2024-02-07T05:05:53Z) - To Translate or Not to Translate: A Systematic Investigation of Translation-Based Cross-Lingual Transfer to Low-Resource Languages [0.0]
低リソース言語へのトランスファーのための,既存の翻訳に基づく新しいXLT手法の評価と提案を行う。
翻訳に基づくアプローチはすべて, mLM でゼロショット XLT を劇的に上回っていることを示す。
MTシステムでサポートされていない言語に対しても,効率的な翻訳ベースのXLT戦略を提案する。
論文 参考訳(メタデータ) (2023-11-15T22:03:28Z) - Self-Augmentation Improves Zero-Shot Cross-Lingual Transfer [92.80671770992572]
言語間移動は多言語NLPにおける中心的なタスクである。
このタスクの以前の作業では、並列コーパス、バイリンガル辞書、その他の注釈付きアライメントデータを使用していた。
ゼロショットの言語間移動を改善するため, 単純で効果的なSALT法を提案する。
論文 参考訳(メタデータ) (2023-09-19T19:30:56Z) - Improving Domain-Specific Retrieval by NLI Fine-Tuning [64.79760042717822]
本稿では、自然言語推論(NLI)データの微調整の可能性を調べ、情報検索とランキングを改善する。
コントラスト損失とNLIデータを利用した教師あり手法により細調整された単言語文エンコーダと多言語文エンコーダを併用する。
この結果から,NLIの微調整によりタスクおよび言語間のモデルの性能が向上し,単言語モデルと多言語モデルが改良される可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-06T12:40:58Z) - XNLI 2.0: Improving XNLI dataset and performance on Cross Lingual
Understanding (XLU) [0.0]
我々は、XNLIに存在する14の言語すべてでMNLIデータセットを再翻訳することで、元のXNLIデータセットの改善に注力する。
また、15言語すべてでモデルを訓練し、自然言語推論のタスクでそれらの性能を分析する実験を行った。
論文 参考訳(メタデータ) (2023-01-16T17:24:57Z) - IndicXNLI: Evaluating Multilingual Inference for Indian Languages [9.838755823660147]
IndicXNLIは11のIndic言語のためのNLIデータセットである。
IndicXNLIで事前学習した異なるLMを微調整することにより、様々な言語間移動手法を解析する。
これらの実験は、様々な言語に対する事前学習されたモデルの振る舞いに関する有用な洞察を提供する。
論文 参考訳(メタデータ) (2022-04-19T09:49:00Z) - OCNLI: Original Chinese Natural Language Inference [21.540733910984006]
我々は,中国における最初の大規模NLIデータセット(56,000の注釈付き文対からなる)であるOriginal Chinese Natural Language Inference dataset(OCNLI)を提示する。
NLIを他の言語に拡張しようとする最近の試みとは異なり、私たちのデータセットは自動翻訳や非専門家アノテーションに依存していません。
我々は、中国語の最先端の事前訓練モデルを用いて、データセット上でいくつかのベースライン結果を確立し、人間のパフォーマンスよりもはるかに優れたパフォーマンスモデルを見つける。
論文 参考訳(メタデータ) (2020-10-12T04:25:48Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - XGLUE: A New Benchmark Dataset for Cross-lingual Pre-training,
Understanding and Generation [100.09099800591822]
XGLUEは、大規模な言語間の事前トレーニングモデルのトレーニングに使用できる、新しいベンチマークデータセットである。
XGLUEは、自然言語理解と生成シナリオの両方をカバーする、11の多様化されたタスクを提供する。
論文 参考訳(メタデータ) (2020-04-03T07:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。