論文の概要、ライセンス

# (参考訳) 多言語モデルのゼロショット性能予測のためのマルチタスク学習 [全文訳有]

Multi Task Learning For Zero Shot Performance Prediction of Multilingual Models ( http://arxiv.org/abs/2205.06130v1 )

ライセンス: CC BY 4.0
Kabir Ahuja, Shanu Kumar, Sandipan Dandapat and Monojit Choudhury(参考訳) 超多言語トランスフォーマーに基づく言語モデルは、言語間のゼロショット転送において驚くほど効果的であることが観察されているが、性能は微調整に使用されるピボット言語によって異なる。 本研究では,マルチタスク学習問題としてモデル化することにより,タスクのゼロショット性能を予測する手法をいくつか構築する。 さまざまなタスクに対する予測モデルを共同でトレーニングすることで、モデルの実際のパフォーマンスを測定するために、ごく少数の言語でテストデータを持つタスクの正確な予測器を構築することができます。 当社のアプローチでは、より堅牢な機能選択の実行や、さまざまなタスクにわたるゼロショットパフォーマンスに影響を与える共通機能セットの特定も可能です。

Massively Multilingual Transformer based Language Models have been observed to be surprisingly effective on zero-shot transfer across languages, though the performance varies from language to language depending on the pivot language(s) used for fine-tuning. In this work, we build upon some of the existing techniques for predicting the zero-shot performance on a task, by modeling it as a multi-task learning problem. We jointly train predictive models for different tasks which helps us build more accurate predictors for tasks where we have test data in very few languages to measure the actual performance of the model. Our approach also lends us the ability to perform a much more robust feature selection and identify a common set of features that influence zero-shot performance across a variety of tasks.
公開日: Thu, 12 May 2022 14:47:03 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Multi Task Learning For Zero Shot Performance Prediction of ゼロショット性能予測のためのマルチタスク学習 0.73
Multilingual Models Kabir Ahuja1 ∗ Shanu Kumar2 ∗ Sandipan Dandapat2 Monojit Choudhury1 多言語モデル Kabir Ahuja1 ∗ Shanu Kumar2 ∗ Sandipan Dandapat2 Monojit Choudhury1 0.63
1 Microsoft Research, India インドのMicrosoft Research 0.53
2 Microsoft R&D, Hyderabad, India 2 Microsoft R&D, Hyderabad, India 0.42
2 2 0 2 y a M 2 1 2 2 0 2 y a m 2 1 である。 0.52
] L C . s c [ 1 v 0 3 1 6 0 ]LC。 sc [ 1 v 0 3 1 6 0 0.30
. 5 0 2 2 : v i X r a . 5 0 2 2 : v i X r a 0.42
{t-kabirahuja,shankum ,sadandap,monojitc}@microsoft.com t-kabirahuja,shankum ,sadandap,monojitc}@microsoft.com 0.45
Abstract Massively Multilingual Transformer based Language Models have been observed to be surprisingly effective on zero-shot transfer though the performance across languages, varies from language to language depending on the pivot language(s) used for fine-tuning. 概要 多言語トランスフォーマーベースの言語モデルは、言語間のパフォーマンスは微調整に使用されるピボット言語(s)によって異なるが、ゼロショット転送に驚くほど有効であることが観察されている。 0.64
In this work, we build upon some of the existing techniques for predicting the zero-shot performance on a task, by modeling it as a multitask learning problem. 本研究では,マルチタスク学習問題としてモデル化することにより,タスクのゼロショット性能を予測する手法をいくつか構築する。 0.81
We jointly train predictive models for different tasks which helps us build more accurate predictors for tasks where we have test data in very few languages to measure the actual performance of the model. さまざまなタスクに対する予測モデルを共同でトレーニングすることで、モデルの実際のパフォーマンスを測定するために、ごく少数の言語でテストデータを持つタスクの正確な予測器を構築することができます。 0.74
Our approach also lends us the ability to perform a much more robust feature selection, and identify a common set of features that influence zero-shot performance across a variety of tasks. このアプローチは、さらに堅牢な機能選択を実行し、さまざまなタスクにおけるゼロショットパフォーマンスに影響を与える共通の機能のセットを特定することを可能にする。 0.76
1 Introduction Multilingual models like mBERT (Devlin et al , 2019) and XLM-R (Conneau et al , 2020) have been recently shown to be surprisingly effective for zero-shot transfer (Pires et al , 2019) (Wu and Dredze, 2019), where on fine-tuning for a task on one or a few languages, called pivots, they can perform well on languages unseen during training. 1 はじめに mBERT (Devlin et al , 2019) や XLM-R (Conneau et al , 2020) といった多言語モデルは、最近、ゼロショット転送(Pires et al , 2019)において驚くほど効果的であることが示されている(Wu and Dredze, 2019)。
訳抜け防止モード: 1 はじめに mBERT(Devlin et al, 2019)のような多言語モデル そしてXLM - R (Conneau et al, 2020 ) は、最近、ゼロショット転送に驚くほど効果があることが示されている (Pires et al, 2019 ) (Wu)。 とDedze, 2019)。 ピボットという,1つまたはいくつかの言語でのタスクのチューニング 訓練中 目に見えない言語で うまくやれます。
0.58
The zero-shot performance however, is often not uniform across the languages and the multilingual models turn out to be much less effective for low resource languages (Wu and Dredze, 2020; Lauscher et al , 2020) and the languages that are typologically distant from the pivots (Lauscher et al , 2020). しかし、ゼロショットのパフォーマンスは言語全体に一様ではなく、多言語モデルは低リソース言語(Wu and Dredze, 2020; Lauscher et al , 2020)や、ピボットからタイポロジー的に離れた言語(Lauscher et al , 2020)では、はるかに効果が低いことが判明した。 0.79
What affects the zero-shot transfer across different languages is a subject of considerable interest and importance (K et al , 2020; Pires et al , 2019; Wu and Dredze, 2019; Lauscher et al , 2020), however there is little conclusive evidence and a few papers even show contradictory findings. 異なる言語間のゼロショット転送に影響を与えるものは、かなりの関心と重要性(K et al , 2020; Pires et al , 2019; Wu and Dredze, 2019; Lauscher et al , 2020)である。
訳抜け防止モード: 異なる言語間のゼロショット転送に影響を及ぼすもの かなりの関心と重要性の主題である(K et al)。 2020 ; Pires et al, 2019 ; Wu と Dredze しかし、2019 ; Lauscher et al, 2020 )。 決定的な証拠はほとんどありません いくつかの論文は矛盾する結果も示しています
0.81
∗ Equal contribution Lauscher et al (2020) recently, showed that it is possible to predict the zero shot performance of mBERT and XLM-R on different languages by formulating it as a regression problem, with pretraining data size and typological similarities between the pivot and target languages as the input features, and the performance on downstream task as the prediction target. ∗ 等貢献 lauscher et al (2020) は、mbert と xlm-r を回帰問題として定式化することで、異なる言語におけるゼロショット性能を予測できることを示した。
訳抜け防止モード: ∗ 等貢献 lauscher et al (2020) は、mbert と xlm - r の異なる言語におけるゼロショット性能を回帰問題として定式化することで予測可能であることを示した。 入力特徴として、ピボットとターゲット言語間のデータサイズとタイプロジーの類似性を事前にトレーニングすることで。 そして、下流タスクのパフォーマンスを予測対象とする。
0.50
Along similar lines Srinivasan et al (2021) and Dolicki and Spanakis (2021) explore zero-shot performance prediction with a larger set of features and different regression techniques. 同様の線に沿って、Srinivasan et al (2021) と Dolicki and Spanakis (2021) は、より大きな特徴セットと異なる回帰テクニックでゼロショットのパフォーマンス予測を探索している。 0.74
However, the efficacy of these solutions are severely limited by the lack of training data, that is, the number of languages for which performance metrics are available for a given task. しかしながら、これらのソリューションの有効性は、トレーニングデータの欠如、すなわち、あるタスクでパフォーマンスメトリクスが利用できる言語の数によって、非常に制限されている。 0.77
For instance, for most tasks in the popular XTREME-R (Ruder et al , 2021) benchmark, there are data points for 7-11 languages. 例えば、人気のあるXTREME-R(Ruder et al , 2021)ベンチマークのほとんどのタスクには、7-11言語のデータポイントがあります。 0.70
This not only makes zero-shot performance prediction a challenging problem, but also a very important one because for practical deployment of such multilingual models, one would ideally like to know its performance for all the languages the model is supposed to handle. これはゼロショットのパフォーマンス予測が難しい問題であるだけでなく、非常に重要な問題でもある。なぜなら、そのような多言語モデルの実践的な展開のために、モデルが扱うべき全ての言語のパフォーマンスを理想的に知りたいからだ。
訳抜け防止モード: これにより、ゼロではなく、ショットのパフォーマンス予測が難しい問題になります。 このような多言語モデルの実践的な展開のためにも 理想的には モデルが扱うべき全ての言語のパフォーマンスを知ることです
0.83
As Srinivasan et al (2021) shows, accurate performance predictors can also help us build better and fairer multilingual models by suggesting data labeling strategies. Srinivasan et al (2021) が示すように、正確なパフォーマンス予測器は、データラベリング戦略を提案することによって、より良く公平な多言語モデルを構築するのに役立つ。 0.63
In this work, we propose multi-task learning (Zhang and Yang, 2017) as an approach to mitigate training-data constraints and consequent over-fitting of the performance predictors to tasks and/or datasets. 本研究では,マルチタスク学習(Zhang and Yang, 2017)をトレーニングデータ制約を緩和し,タスクやデータセットに対するパフォーマンス予測器の過剰適合を緩和するアプローチとして提案する。 0.75
The contributions of our work are fourfold. 私たちの仕事の貢献は4倍です。 0.68
First, we experiment with different multitask learning approaches, such as Group Lasso (Yuan and Lin, 2006), Collective Matrix Factorization (Cortes, 2018), Multi-Task Deep Gaussian Process Regression (Bonilla et al , 2008) and Meta Agnostic Meta Learning (Finn et al , 2017) for 11 tasks. まず,グループlasso (yuan and lin, 2006), collective matrix factorization (cortes, 2018), multi-task deep gaussian process regression (bonilla et al , 2008), meta agnostic meta learning (finn et al , 2017) など,さまざまなマルチタスク学習アプローチを実験した。
訳抜け防止モード: まず,グループラッソ (Yuan and Lin, 2006) など,様々なマルチタスク学習手法を実験する。 集合行列因子化(Cotes, 2018 ), Multi - Task Deep Gaussian Process Regression ( Bonilla et al, 2008 ) そして11のタスクに対してメタに依存しないメタ学習(Finn et al, 2017)。
0.82
We observe an overall 10% reduction in performance prediction errors compared to the best performing single-task models. 我々は,最高のシングルタスクモデルと比較して,性能予測誤差の10%削減を観察した。 0.72
The gains are 利益は 0.44
英語(論文から抽出)日本語訳スコア
even stronger when we just consider the tasks with very few data points (≤ 10), where we see a 20% drop in the mean absolute errors. データポイントが極めて少ないタスク(≤ 10)を考えると、平均的な絶対誤差が20%減少します。
訳抜け防止モード: データポイントがほとんどないタスク( ≤ 10)を考えるとさらに強力になります。 平均的な絶対誤差が20%減少します
0.64
Second, an interesting consequence of modelling this problem via multi-task learning is that we are able to predict performance on low resource languages much more accurately, where in some cases single-task approaches may perform even worse than the simple averaging baselines. 第二に、マルチタスク学習によってこの問題をモデル化する興味深い結果として、低リソース言語の性能をはるかに正確に予測できることが挙げられる。
訳抜け防止モード: 第2に、マルチタスク学習を通じてこの問題をモデル化した興味深い結果として、低リソース言語のパフォーマンスをより正確に予測できる、というものがあります。 単一のタスクアプローチが単純な平均ベースラインよりもパフォーマンスが悪い場合もあります。
0.66
Third, apart from the features used for zero-shot performance prediction in the previous work (Lauscher et al , 2020; Srinivasan et al , 2021; Dolicki and Spanakis, 2021), we also utilize metrics quantifying the quality of multilingual tokenizers as proposed in (Rust et al , 2021) as features in our predictive models, which turn out to have strong predictive power for certain tasks. 第3に、前回の作業(lauscher et al , 2020; srinivasan et al , 2021; dolicki and spanakis, 2021)でゼロショットパフォーマンス予測に使用された機能とは別に、(rust et al , 2021)提案されている多言語トークン化器の品質を定量化するメトリクスも、予測モデルの特徴として利用しています。 0.79
To the best of our knowledge, our work is the first to explore the impact of tokenizer quality specifically on zero-shot transfer. 私たちの知識を最大限に活用するために、当社の作業は、特にゼロショット転送におけるトークン化品質の影響を初めて探求するものです。 0.60
And fourth, our multi-task framework in general lends us with a much more robust selection of features affecting the zero-shot performance. そして第4に,当社のマルチタスクフレームワークは,ゼロショットのパフォーマンスに影響する機能のより堅牢な選択を可能にします。 0.71
This, in turn, lets us investigate the critical open question on what influences the zero-shot performances across languages more rigorously. これにより、言語間でのゼロショットのパフォーマンスがより厳密に影響を受けるかという、批判的なオープン質問を調査できます。 0.57
As we shall see, our findings corroborate some of the previous conclusions, while others are extended or annulled. 以下に示すように、我々の発見は過去の結論のいくつかを裏付けるものである。 0.47
2 Background and Related Work Zero Shot Transfer. 2 背景と関連研究 ゼロショット転送。 0.67
Multilingual models like mBERT (Devlin et al , 2019) and XLM-R (Conneau et al , 2020) have shown surprising effectiveness in zero-shot transfer, where fine-tuning the MMLM on a task in some source language often leads to impressive performance on the same task in other languages as well without explicitly training on them. mBERT (Devlin et al , 2019) や XLM-R (Conneau et al , 2020) のような多言語モデルは、ゼロショット転送において驚くべき効果を示している。
訳抜け防止モード: mBERT(Devlin et al, 2019)のような多言語モデル そしてXLM - R (Conneau et al, 2020) は、ゼロショット転送において驚くべき効果を示した。 素晴らしい – あるソース言語のタスクにMMLMをチューニングする しばしば、他の言語で同じタスクで印象的なパフォーマンスをもたらす。
0.81
Pires et al (2019) first observed this phenomenon for NER (Tjong Kim Sang, 2002; Tjong Kim Sang and De Meulder, 2003; Levow, 2006) and POS tagging (Nivre et al , 2018) tasks. Pires et al (2019) はこの現象を NER (Tjong Kim Sang, 2002; Tjong Kim Sang and De Meulder, 2003; Levow, 2006) と POS タグ付け (Nivre et al , 2018) で最初に観測した。 0.88
Concurrently, Wu and Dredze (2019) also showed this surprisingly cross lingual transfer ability of mBERT additionally on tasks like Document Classification (Schwenk and Li, 2018), Natural Language Inference (Conneau et al , 2018) and Dependency Parsing (Nivre et al , 2018). 同時に、Wu and Dredze (2019)は、文書分類(Schwenk and Li, 2018)、自然言語推論(Conneau et al , 2018)、依存関係解析(Nivre et al , 2018)といったタスクで、mBERTの驚くほど多言語変換能力を示した。 0.74
Factors Affecting Zero Shot Transfer. ゼロショット転送に影響する因子。 0.75
Pires et al (2019) showed that vocabulary memorization played little role in zero-shot generalization as language pairs with little word piece overlap also exhibited impressive crosslingual performance. pires et al (2019) は、語彙の記憶がゼロショット一般化においてほとんど役割を果たさないことを示した。
訳抜け防止モード: Pires et al (2019 ) は語彙記憶がゼロではほとんど役に立たないことを示した。 単語の重複が少ない言語ペアも、素晴らしい言語間パフォーマンスを示しました。
0.64
K et al arrived at a similar conclusion by training BERT on an artificially generated language to zero out the word overlap with the target languages, and observed only minor drops in the performance compared to training the model on English. k et alは、ターゲット言語と重複する単語をゼロにするために人工的に生成された言語でbertを訓練することで、同様の結論に達した。
訳抜け防止モード: k et al も同様の結論に達した ターゲット言語と重複する単語をゼロにするために、人工的に生成された言語でBERTを訓練する。 成績は英語のトレーニングに比べてわずかに低下した。
0.73
On the contrary Wu and Dredze (2019), observed strong correlations between the sub-word overlap and the zero-shot performance in four out of five tasks. 一方, Wu and Dredze (2019)では, 5タスク中4タスクにおいてサブワード重なりとゼロショット性能との間に強い相関が認められた。 0.74
Wu and Dredze (2020) showed that mBERT performed much worse for zero-shot transfer to low resource languages (i.e., less pre-training data) than high resource ones on POS Tagging, NER and Dependency Parsing tasks. Wu and Dredze (2020) は mBERT が POS Tagging, NER および Dependency Parsing タスクの高リソース言語よりも低リソース言語(事前学習データが少ない)へのゼロショット転送において、はるかに悪い性能を示した。 0.78
Lauscher et al (2020) also had a similar observation on tasks like XNLI and XQuAD (Artetxe et al , 2020), though they found that the zero-shot performance on NER, POS tagging and Dependency Parsing tasks might not strictly depend on the pre-training size and could be better explained by different linguistic relatedness features like syntactic and phonological similarities between the language pair. Lauscher et al (2020) も XNLI や XQuAD (Artetxe et al , 2020) のようなタスクについて同様の観察を行ったが、彼らは NER, POS タグ付け, Dependency Parsing タスクにおけるゼロショットのパフォーマンスは、トレーニング前のサイズに厳密には依存せず、構文的および音韻的類似性のような言語的関連性の特徴によってよりよく説明できることを発見した。 0.73
Similar dependence on the typological relatedness such as word order had also been observed by Pires et al (2019). 語順などの類型的関連性への類似性も Pires et al (2019) によって観察されている。 0.78
Performance Prediction. パフォーマンス予測。 0.72
Prior work has explored predicting the performance of machine learning models from unlabelled data by either measuring (dis)agreements between multiple classifiers (Platanios et al , 2014, 2017) or by utilizing underlying information about data distribution (Domhan et al , 2015). 先行研究は、複数の分類器(platanios et al , 2014)間の(dis)アグリーメントを測定するか、データ分散に関する基礎情報(domhan et al , 2015)を使用することによって、ラベルなしのデータから機械学習モデルのパフォーマンスを予測することを検討した。 0.74
In the context of NLP Birch et al (2008) explored predicting the performance of a Machine Translation system by utilizing different explanatory variables for the language pairs. NLP Birch et al (2008) の文脈において、言語対の異なる説明変数を用いて機械翻訳システムの性能を予測することを検討した。 0.86
Lin et al (2019) proposed a learning to rank approach to choose transfer languages for cross lingual learning using several linguistic and dataset specific features. Lin et al (2019) は、言語とデータセット特有の特徴を用いて、言語間学習のための移動言語を選択するための学習方法を提案する。 0.72
Recently, there has been an interest in predicting the performance of NLP models without actually training or testing them, by formulating it as a regression problem. 近年,NLPモデルを回帰問題として定式化することによって,実際にトレーニングやテストを行わずにNLPモデルの性能を予測することに関心がある。 0.72
Xia et al (2020) showed that using experimental settings for an NLP experiment as inputs it is possible to accurately predict the performance on different languages and model architectures.Ye et al (2021) extended this work by proposing methods to do a fine-grained estimation of the performance as well as predicting well-callibrated confidence intervals. Xia et al (2020) は、NLP実験の実験的設定を入力として使用することにより、異なる言語やモデルアーキテクチャのパフォーマンスを正確に予測できることを示した。
訳抜け防止モード: xia et al (2020) は、nlp実験を入力として実験的な設定を行うことが可能であることを示した。 異なる言語およびモデルアーキテクチャの性能を正確に予測する。 ye et al (2021 ) はこの作業をメソッドの提案によって拡張した。 パフォーマンスのきめ細かな見積もりと十分な予測を行うには、信頼区間をキャリブレートする。
0.69
Specifically predicting the zero-shot performance of MMLMs was first explored in Lauscher et al (2020), where they used a linear regression model to estimate the 特にmmlmsのゼロショット性能の予測は、最初にlauscher et al (2020)で研究され、線形回帰モデルを用いて推定した。 0.76
英語(論文から抽出)日本語訳スコア
cross-lingual transfer performance based on pretraining data size and linguistic relatedness features. 事前学習データサイズと言語関連性の特徴に基づく言語間転送性能。 0.78
Srinivasan et al (2021) tackled this problem by utilizing XGBoost Regressor for the prediction along with a larger set of features. Srinivasan et al (2021) はこの問題に対処し、XGBoost Regressor をより大規模な機能セットと共に予測に利用した。 0.75
Dolicki and Spanakis (2021) explored individual syntactic features for zero-shot performance prediction instead of working with aggregate similarity values, and showed about 2 to 4 times gain in performance. dolicki氏とspanakis氏(2021)は、集約的な類似度値ではなく、ゼロショットパフォーマンス予測のための個々の構文特徴を探求し、パフォーマンスが約2倍から4倍向上したことを示した。 0.51
We extend all of these works by considering a multi-task learning approach, where performance prediction in a task utilizes not only the data available for that task, but also the patterns observed for other tasks. タスクにおけるパフォーマンス予測は,そのタスクで利用可能なデータだけでなく,他のタスクで観測されるパターンも活用する。
訳抜け防止モード: マルチタスク学習アプローチを考慮することで、これらの作業をすべて拡張します。 タスクのパフォーマンス予測はそのタスクで利用可能なデータだけでなく 他のタスクで観察されたパターンも
0.84
3 Problem Setup We begin by defining the multi-task performance prediction problem and then describe the different linguistic and MMLM specific features used. 3 問題の設定 まず、マルチタスクパフォーマンス予測問題を定義し、使用する言語的特徴とmmlm特有の特徴を説明します。 0.77
3.1 Multi-Task Performance Prediction 3.1 マルチタスク性能予測 0.74
Problem Consider a pre-trained multilingual model M, trained using self supervision on a set of languages L. Let T be the set of downstream NLP tasks, P be the set of pivot (source) languages for which training data is available for the downstream tasks for fine-tuning and T be the set of target languages for which validation/test data is available. 問題 T を下流の NLP タスクのセットとし、P を下流の細調整タスクでトレーニングデータが利用できるピボット(ソース)言語とし、T を検証/テストデータが利用可能なターゲット言語のセットとする。
訳抜け防止モード: 問題 事前訓練された多言語モデルMの検討 言語Lのセットで自己監督を使用する。Tを下流のNLPタスクのセットとする。 P をピボット(ソース)言語の集合とする。 ダウンストリームのタスクには トレーニングデータがあり - チューニングとTは、バリデーション/テストデータが利用可能なターゲット言語のセットです。
0.61
Note that P ⊂ L and T ⊆ L. We use the zero-shot setting similar to Lauscher et al (2020) which enforces P and T to be disjoint sets1, i.e., P ∩ T = ∅. ここでは、P と T を非随伴集合 1、すなわち P と T = を強制する Lauscher et al (2020) に類似したゼロショット設定を用いる。 0.61
We then define y そして y を定義する 0.80
M,t p,t ∈ R as the zero-shot performance on language t ∈ T on finetuning M on p,t ∈ Rn task t ∈ T in pivot language p ∈ P. Let xM be the n-dimensional feature vector representing the corresponding train-test configuration. m,t p,t ∈ r は、ピボット言語 p ∈ p における m on p,t ∈ rn task t ∈ t の微調整に関する言語 t ∈ t 上のゼロショット性能である。
訳抜け防止モード: m, t p, t ∈ r as the zero- shot performance on language t ∈ t on p で m を微調整する ピボット言語 p ∈ p における t ∈ rn タスク t ∈ t。 xm は対応するトレインを表す n-次元特徴ベクトルであり、テスト構成である。
0.80
Since for our experiments we train and evaluate the performance prediction for a single model at a time, we will simplify the notations to yt 実験のために、1つのモデルのパフォーマンス予測を一度にトレーニングし、評価するため、ytへの表記を単純化します。 0.69
p,t and xp,t. The predictor model can then be defined as the function fΘ,Φ : Rn × T → R, where Θ ∈ Rdg denotes the shared parameters across the tasks and the task specific parameters are given by Φ ∈ Rds×|T|. p、t、xp、t。 すると、予測モデルは関数 f , ... : Rn × T → R として定義でき、そこではタスク間の共有パラメータを t ∈ Rdg で表し、タスク固有のパラメータは t ∈ Rds×|T| で与えられる。 0.55
The objective function for training such a predictor そのような予測器を訓練する目的関数 0.86
1Though beyond the scope of the current work, it is possible to extend this to a few-shot setting as discussed in Srinivasan et al (2021). 1 現在の作業の範囲を超えて、srinivasan et al (2021)で論じられたように、これを少数の設定に拡張することが可能である。 0.70
model can be defined as: モデルは次のように定義できる。 0.68
(cid:88) (cid:88) (cid:88) (cid:88) 0.39
(cid:88) J(Θ, Φ) = (cid:88) J(s, s) = 0.38
t∈T (cid:107)f (xp,t, t; Θ, Φ) − yt tgpt (cid:107)f (xp,t, t; s, t) − yt 0.33
p,t(cid:107)2 + λg(cid:107)Θ(cid:107)1 + λs(cid:107)Φ(cid:107)1,1 + λgroup(cid:107)Φ(cid:107)1,q (1) p,t(cid:107)2 + λg(cid:107)2 + λg(cid:107)1 + λs(cid:107)1,1 + λgroup(cid:107)1,q (1) 0.46
p∈P t∈T 2 p・P tgpt 2 0.33
The second and third terms regularize the global and task specific parameters independently, while the last term, l1/lq norm with q > 1, ensures a block sparse selection of the task specific parameters. 第2項と第3項は、グローバルパラメータとタスク固有パラメータを独立に正規化し、最終項のl1/lqノルムは、タスク固有パラメータのブロックスパース選択を保証する。 0.74
This term ensures a multi-task learning behavior even when there are no parameters shared across the tasks (i.e., Θ = ∅) through selection of common features across the tasks. この用語は、タスク間で共通の特徴の選択を通じて、タスク間でパラメータが共有されていない場合でも、マルチタスクの学習行動を保証する。 0.75
Setting Θ = ∅ and λgroup = 0 leads to the single task setup of Lauscher et al (2020) and Srinivasan et al (2021). θ = a と λgroup = 0 を設定すると、lauscher et al (2020) と srinivasan et al (2021) の単一のタスクが設定される。 0.74
3.2 Features We divide the set of features into two higher level categories, viz. the pairwise features defined for the pivot and target that measure the typological relatedness of the languages, and the individual features defined for the target language reflecting the state of its representation in M. 3.2.1 Pairwise Features Instead of directly using the different typological properties of the the two languages as features, we use the pairwise relatedness to avoid feature explosion. 3.2 特徴 特徴の集合を2つの高いレベルカテゴリに分割する。viz. 言語の種類的関連性を測定するピボットとターゲットのために定義されたペアワイズ特徴と、M.2.1における表現の状態を反映するターゲット言語で定義された個々の特徴 ペアワイズ特徴を直接特徴として使用する代わりに、特徴爆発を避けるためにペアワイズ関連性を利用する。 0.89
Subword Overlap : We define the subword overlap as the percentage of unique tokens that are common to the vocabularies of both the pivot and target languages. サブワードオーバーラップ: サブワードオーバーラップを、ピボット言語とターゲット言語の語彙に共通するユニークなトークンの割合として定義する。
訳抜け防止モード: サブワードオーバーラップ : 我々はサブワードオーバーラップをユニークなトークンの割合として定義する ピボット語とターゲット言語の両方の語彙に共通しています
0.85
Let Vp and Vt be the subword vocabularies of p and t. vp と vt を p と t の副語語彙とする。 0.75
The subword overlap is then defined as : 次にサブワードオーバーラップが定義されます。 0.61
osw(p, t) = osw(p, t) = 0.43
|Vp ∩ Vt| |Vp ∪ Vt| vt| (複数形 vt|s) 0.59
(2) Similarity between Lang2Vec vectors: Following Lin et al (2019) and Lauscher et al (2020), we compute the typological relatedness between p and t from the linguistic features provided by the URIEL project (Littell et al , 2017). (2) Lang2Vec ベクトルの類似性: Lin et al (2019) と Lauscher et al (2020) に続いて、URIEL プロジェクトが提供する言語的特徴から p と t の類型的関連性を計算する(Littell et al , 2017)。 0.65
We use syntactic (ssyn(p, t)), phonological similarity (spho(p, t)), genetic similarity (sgen(p, t)) and geographic distance (dgeo(p, t)). 我々は、構文(ssyn(p, t))、音韻学的類似性(spho(p, t))、遺伝的類似性(sgen(p, t))、地理的距離(dgeo(p, t))を用いる。 0.84
For details, please see Littell et al (2017). 詳細はlittell et al (2017)を参照。 0.62
3.2.2 Pre-training Size: We use the log10 of the size (in words) of the pre-training corpus in the target 3.2.2 事前トレーニングサイズ: ターゲットの事前トレーニングコーパスのサイズ(単語)の log10 を使用する。 0.87
Individual Features 個々の特徴 0.79
英語(論文から抽出)日本語訳スコア
language, SIZE(t), as a feature. 機能として、言語、サイズ(t)。 0.70
Rare Typological Traits: Srinivasan et al (2021) proposed this metric to capture the rarity of the typological features of a language in the representation of M. Every typological feature in WALS database is ranked based on the amount of pretraining data for the languages that contain the feature. Rare Typological Traits: Srinivasan et al (2021) は、M の表現における言語の類型的特徴の希少性を捉えるために、この指標を提案した。 0.42
For the language t, Mean Reciprocal Rank (MRR) of all of its features is then calculated and used as a feature – WMRR(t). 言語tについては、すべての特徴の平均相互ランク(MRR)が計算され、WMRR(t)という特徴として使用される。 0.77
Tokenizer Features : In their recent work, Rust et al (2021) proposed two metrics, viz. tokenizer’s fertility and proportion of continued words, to evaluate the quality of multilingual tokenizers on a given language. Tokenizer Features: Rust et al (2021)は最近の研究で、ある言語における多言語トークンの質を評価するために、viz. tokenizerの肥大度と継続する単語の割合という2つの指標を提案した。 0.74
For target t, they define the tokenizer’s fertility, FERT(t), as the average number of sub-words produced for every tokenized word in t’s corpus. ターゲット t に対して、彼らはトークンライザの肥大度 FERT(t) を t のコーパス内のトークン化された単語毎に生成されるサブワードの平均数として定義している。 0.68
On the other hand, the proportion of continued words, PCW(t), measures how often the tokenizer chooses to continue a word across at least two tokens. 一方、継続する単語の割合であるPCW(t)は、トークン化者が少なくとも2つのトークンで単語を継続する頻度を測定する。 0.63
They show that the multilingual models perform much worse on a task than their monolingual counterparts when the values of these metrics are higher for the multilingual tokenizer. 彼らは、これらの指標の値が多言語トークン化器よりも高い場合、タスク上での多言語モデルの性能が単言語モデルよりもはるかに悪いことを示した。 0.61
We include FERT(t) and PCW(t) as features. 機能としてFERT(t)とPCW(t)を含めます。 0.78
An important thing to note here is that the we do not use identity of a language as a feature while training the models, hence the performance prediction models are capable of generating predictions on new languages unseen during training. ここで注意すべき重要なことは、モデルをトレーニングしている間、言語アイデンティティを機能として使用しないため、パフォーマンス予測モデルは、トレーニング中に見つからない新しい言語の予測を生成することができるということです。 0.76
However, if the features of the new languages deviate significantly from the features seen during training, the predictions are expected to be less accurate as also observed in Xia et al (2020); Srinivasan et al (2021) and is one of the main reasons for exploring a multi-task approach. しかし、もし新しい言語の特徴がトレーニング中に見られる特徴から著しく逸脱した場合、予測はxia et al (2020), srinivasan et al (2021) に見られるように正確でないことが期待され、マルチタスクアプローチを探求する主な理由の1つとなっている。 0.76
4 Approaches We extensively experiment with a wide-array of multi-task as well as single-task regression models to provide a fair comparison between different approaches to zero-shot performance prediction. 4つのアプローチ 広範囲のマルチタスクとシングルタスク回帰モデルを用いて広範に実験を行い、ゼロショット性能予測に対する異なるアプローチの公正な比較を行った。 0.69
4.1 Baselines Average Score Within a Task (AWT) : The performance for a pivot-target pair (p , t) on a task t is approximated by taking the average of the performance on all other target languages (pivot being fixed) in the same task t, i.e., f (xp,t, t) = 4.1 タスク内の平均スコア (AWT) : タスク t 上のピボットターゲットペア (p , t) のパフォーマンスは、同じタスク t 内の他の全てのターゲット言語 (pivot が固定されている) におけるパフォーマンスの平均値、すなわち f (xp,t, t) = で近似される。 0.89
(cid:80) p,t(cid:48). (cid:80) p,t(cid:48。 0.63
t(cid:48)∈T −{t} yt t(cid:48)~T −{t} yt 0.40
(cid:80) t(cid:48)∈T−{t} yt(cid:48) p,t. (cid:80) t(cid:48) ajaxt−{t} yt(cid:48) p,t。 0.41
1|T |−1 Average Score across the Tasks (AAT) : Here instead of averaging over all the target languages within a task, we approximate the performance on a given target language by averaging the scores for that language across the other tasks, i.e., f (xp,t, t) = 1|T|−1 4.2 Single Task Models Lasso Regression: Lauscher et al (2020) train different linear regression models for each task. f (xp,t,t) = 1|t|−1 4.2 単一タスクモデル lasso regression: lauscher et al (2020) 各タスクに対する異なる線形回帰モデルを訓練することで、与えられた対象言語のパフォーマンスを近似する。
訳抜け防止モード: 1|T |−1 タスクの平均スコア (AAT ) : ここでは代わりに タスク内の全てのターゲット言語を平均化することです 目標とする言語のパフォーマンスを 平均化することで近似します f ( xp, t, t ) = 1|T|−1 4.2 単一タスクモデル Lasso Regression : Lauscher et al (2020 ) は各タスクに対して異なる線形回帰モデルを訓練する。
0.88
Along similar lines, we experiment with linear regression, but also add an L1 regularization term, as we observed it usually leads to better predictors. 同様の線に沿って線形回帰の実験を行ったが、L1正則化項も加えた。
訳抜け防止モード: 同様の線に沿って線形回帰の実験を行うが、L1正規化項も加える。 観察したように 予測能力は向上します
0.78
XGBoost Regressor: As shown in Srinivasan et al (2021), XGBoost (Chen and Guestrin, 2016) generally obtains impressive performance on this task, and hence we include it in our experiments as well. XGBoost Regressor: Srinivasan et al(2021)で示されているように、XGBoost(Chen and Guestrin, 2016)は一般的にこのタスクで素晴らしいパフォーマンスを得ています。 0.70
l1/lq is given as: (cid:107)Φ(cid:107)1,q = (cid:80)n l1/lq (cid:107) φ(cid:107)1,q = (cid:80)n 0.32
4.3 Multi Task Models Group Lasso: norm based blockregularization has been shown to be effective for multi-task learning in the setting of multi-linear regression (Yuan and Lin, 2006; Argyriou et al , 2008). 4.3 multi task models group lasso: norm based blockregularizationはマルチリニア回帰の設定においてマルチタスク学習に有効であることが示されている(yuan and lin, 2006; argyriou et al , 2008)。 0.84
For each task, consider separate linear regression models represented by the weight matrix Φ ∈ Rn×|T|. それぞれのタスクに対して、重み行列 Rn×|T| で表される別の線形回帰モデルを考える。 0.69
The l1/lq regularization term t=1 |Φjt|q)1/q , where Φjt denotes the weight for the feature j in the task t. l1/lq 正規化項 t=1 | jt|q)1/q は、タスク t における特徴 j の重みを表す。 0.70
For q > 1, minimizing this term pushes the lq-norms corresponding to the weights of a given feature across the tasks to be sparse, which encourages multiple predictors to share similar sparsity patterns. q > 1 の場合、この用語を最小化すると、与えられた機能の重みに対応する lq-ノルムがスパースとなるため、複数の予測者が類似のスパーシティパターンを共有することが推奨される。 0.64
In other words, a common set of features is selected for all the tasks. 言い換えれば、すべてのタスクに対して共通の機能セットが選択されます。 0.76
We use q = 2 for the group regularization term. 群正規化項には q = 2 を用いる。 0.72
j=1((cid:80)|T| j=1((cid:80)|T| 0.32
Since this can be restrictive in certain scenarios, some natural extensions to Group Lasso, such as Dirty Models (Jalali et al , 2010) and Multi Level Lasso (Lozano and Swirszcz, 2012), have been proposed that separate out the task specific and global parameters. これは特定のシナリオで制限されるため、Dirty Models (Jalali et al , 2010) や Multi Level Lasso (Lozano and Swirszcz, 2012) のようなグループラッソへのいくつかの自然な拡張は、タスク固有のパラメータとグローバルパラメータを分離するために提案されている。 0.83
We experimented with these methods and observed equivalent or worse performance compared to Group Lasso. これらの手法を実験し,Group Lassoと比較して同等か悪い性能を示した。 0.65
Collective Matrix Factorization (CMF) with Side Information: Low rank approximation for the task weights matrices forms one family of methods for multi-task learning (Zhang and Yang, 2017; Pong et al , 2010; Ando et al , 2005). サイド情報を持つ集合行列分解 (cmf) : タスクウェイトの低ランク近似 行列は、マルチタスク学習(zhang and yang, 2017; pong et al , 2010; ando et al , 2005)のための一種類の手法を形成する。 0.72
As a direct analogue with collaborative filtering, here we can think of the tasks as users and pivot-target pairs 協調フィルタリングとの直接的な類似性として、タスクをユーザとピボットターゲットペアとして考えることができる。 0.66
英語(論文から抽出)日本語訳スコア
as items. Consider the matrix Y ∈ R|T|×|P×T |, where each element of the matrix correspond to p,t. アイテムとして 行列 Y ∈ R|T|×|P×T | を考えると、行列の各元は p,t に対応する。 0.69
We can then decompose the matrix into task yt and language-pair specific factors as その後、行列をタスクytと言語ペア固有の要素に分解できる。 0.64
Y ∼ TLT (3) where T ∈ R|T|×dlatent and L ∈ R|P×T |×dlatent are the task and language-pair factor matrices, and dlatent is the number of factors. Y–TLT (3) T ∈ R|T|×dlatent および L ∈ R|P×T |×dlatent がタスクおよび言語対因子行列であり、dlatent は因子の数である。 0.58
Additionally, in order to incorporate the feature information about the language pairs as discussed in section 3.2, we incorporate Collective Matrix Factorization approach (Cortes, 2018). さらに,第3.2節で論じられている言語ペアの特徴情報を取り入れるために,集合行列因子化アプローチ(Cortes, 2018)を取り入れた。 0.82
It incorporates the attribute information about items and/or users in the factorization algorithm by decomposing the language-pair feature matrix X ∈ R|P×T |×n as LFT , such that L is shared across both decompositions. 言語ペア特徴行列 X ∈ R|P×T |×n を L を LFT として分解することにより、分解アルゴリズムにおいてアイテムおよび/またはユーザに関する属性情報を組み込む。 0.78
This helps to learn the latent representations for the pivot-language pairs from the task-wise performance as well as different linguistic and MMLM specific features2. これは、異なる言語とMMLM特有の特徴2と同様に、タスクワイドのパフォーマンスから、ピボット言語ペアの潜在表現を学習するのに役立ちます。 0.63
In relation to Equation 1, we can think of task factors T to correspond to the task specific parameters Φ, languagepair factors L as the shared parameters Θ and the predictor model as f (xp,t, t; Θ, Φ) = (TLT )(p,t),t. 方程式 1 に関して、タスク因子 t はタスク固有のパラメータ φ, languagepair 因子 l を共有パラメータ θ,予測モデル f (xp,t,t; θ, φ) = (tlt )(p,t),t に対応すると考えることができる。 0.69
Both L and T are regularized seperately, but there is no group regularization term (λgroup = 0). L と T は分離正規化されるが、群正規化項(λgroup = 0)は存在しない。 0.78
Ye et al (2021) also uses a Tensor Factorization approach for performance prediction which is similar to our CMF method. Ye et al (2021) も、我々のCMF法に類似したパフォーマンス予測にTensor Factorizationアプローチを使用している。 0.72
However, they train separate models for each task and factorize over metric specific attributes instead for a fine-grained prediction. しかしながら、各タスクで別々のモデルをトレーニングし、粒度の細かい予測の代わりにメトリクス固有の属性を分解する。 0.63
Multi-Task Deep Gaussian Process Regression (MDGPR): We use the multi-task variant of Gaussian Processes proposed in Bonilla et al (2008) and utilize deep neural networks to define the kernel functions as in Deep GPs (Wilson et al , 2016). Multi-Task Deep Gaussian Process Regression (MDGPR): Bonilla et al (2008)で提案されたGaussian Processesのマルチタスク版を使用し、ディープニューラルネットワークを用いてDeep GPのカーネル関数を定義する(Wilson et al , 2016)。 0.81
For comparison, we also report the scores of the single-task variant of this method which we denote as DGPR. 比較のために,本手法の単一タスク変種(DGPR)のスコアについても報告する。 0.63
See Appendix (section A.1) for details. 詳細はAppendix (section A.1)を参照。 0.80
Apart from these we also explore other multitask methods like Model Agnostic Meta Learning (MAML) (Finn et al , 2017), details of which we leave in the appendix (section A.1). これらとは別に、モデル非依存メタ学習(MAML)(Finn et al , 2017)のような他のマルチタスク手法についても検討しています。 0.56
5 Experimental Setup In this section, we discuss our test conditions, datasets and training parameters for the different 5 実験セットアップ この節では、異なるテスト条件、データセット、トレーニングパラメータについて論じます。 0.76
2Note that we can use a similar approach for providing 2 同様のアプローチで提供できることに注意。 0.68
side information for the tasks as well. タスクのサイド情報も提供します。 0.72
experiments. 5.1 Test Conditions We consider two different test conditions: Leave One Language Out (LOLO) and Leave Low Resource Languages Out (LLRO). 実験だ 5.1 テスト条件 2つの異なるテスト条件を検討します。 1つの言語を外し(lolo)、低いリソース言語を外す(llro)。
訳抜け防止モード: 実験だ 5.1 テスト条件 2 つの異なるテスト条件 : 1つの言語(lolo)を外し、低リソース言語(llro)を外す。
0.74
Leave One Language Out: LOLO is a popular setup for multilingual performance prediction (Lauscher et al , 2020; Srinivasan et al , 2021), where for a given task, we choose a target language and move all of its instances from the prediction dataset to the test data. loloは多言語パフォーマンス予測(lauscher et al , 2020; srinivasan et al , 2021)の一般的なセットアップであり、与えられたタスクに対して、ターゲット言語を選択し、すべてのインスタンスを予測データセットからテストデータに移動します。 0.76
The models are then trained on the remaining languages and evaluated on the unseen test language. モデルは残りの言語でトレーニングされ、未認識のテスト言語で評価される。 0.80
This is done for all the target languages available for a task, and the Mean Absolute Error (MAE) across languages is reported. これはタスクで利用可能なすべての言語に対して行われ、言語間の平均絶対誤差(MAE)が報告されている。 0.78
In the multi-task setting we evaluate on one task at a time while considering the rest as helper tasks for which the entire data is used including the test language3. マルチタスク設定では、テスト言語3を含む全データを使用するヘルパータスクとして残りのタスクを考慮しながら、一度にひとつのタスクで評価する。 0.69
Leave Low Resource Languages Out: Through this evaluation strategy we try to emulate the real world use case where we only have test data available in high resource languages such as English, German and Chinese, and would like to estimate the performance on under-represented languages such as Swahili and Bengali. 低リソース言語を除外する: この評価戦略を通じて、私たちは、英語、ドイツ語、中国語のような高リソース言語でのみ利用可能なテストデータを持つ現実世界のユースケースをエミュレートし、スワヒリやベンガルといった未表現言語のパフォーマンスを推定したいと考えています。 0.76
We use the language taxonomy provided by Joshi et al (2020) to categorize the languages into six classes (0 = low to 5 = high) based on the number of resources available. 我々は、joshi et al (2020) によって提供された言語分類法を用いて、利用可能なリソースの数に基づいて、言語を6つのクラス (0 = low to 5 = high) に分類する。 0.70
We then move languages belonging to class 3 or below to our test set and train the models on class 4 and 5 languages only. 次に、クラス3以下の言語をテストセットに移動し、クラス4と5の言語でのみモデルをトレーニングします。 0.75
Similar to LOLO, here too we allow the helper tasks to retain all the languages. LOLOと同様に、ここでもヘルパータスクがすべての言語を保持することを許可します。 0.64
5.2 Tasks and Datasets We use the following 11 tasks provided in XTREME (Hu et al , 2020) and XTREME-R (Ruder et al , 2021) benchmarks: 5.2 タスクとデータセット XTREME (Hu et al , 2020) と XTREME-R (Ruder et al , 2021) のベンチマークで提供される11のタスクを使用します。 0.73
1. Classification: XNLI (Conneau et al , 2018) , PAWS-X (Yang et al , 2019), and XCOPA (Ponti et al , 2020) 1.分類:XNLI(Conneau et al , 2018)、PAWS-X(Yang et al , 2019)、XCOPA(Ponti et al , 2020) 0.42
2. Structure Prediction: UDPOS (Nivre et al , 2018), and NER (Pan et al , 2017) 2.構造予測:UDPOS(Nivre et al , 2018)、NER(Pan et al , 2017) 0.39
3. Question Answering: XQUAD (Artetxe et al , 2020), MLQA (Lewis et al , 2020), and TyDiQA-GoldP (Clark et al , 2020) 3.質問回答:XQUAD (Artetxe et al , 2020), MLQA (Lewis et al , 2020), TyDiQA-GoldP (Clark et al , 2020) 0.40
4. Retrieval: Tatoeba (Artetxe and Schwenk, 4.検索:タトエバ(Artetxe、Schwenk) 0.56
3Note that this is a reasonable relaxation to make as it is closer to the real world use case where we would have the evaluation data for some languages in the standard tasks and would like to utilize that to make predictions on the same languages for the new ftask. 3:これは、標準的なタスクにおけるいくつかの言語の評価データを持ち、それを新しいftaskで同じ言語で予測するために利用したい実世界のユースケースに近い、合理的な緩和である。 0.74
英語(論文から抽出)日本語訳スコア
MMLM Task XLMR MMLM 課題 XLMR 0.46
MLQA PAWS XCOPA TyDiQA XQUAD LAReQA MewsliX XNLI MLQA PAWS XCOPA TyDiQA XQUAD LAReQA MewsliX XNLI 0.42
WikiANN Tatoeba UDPOS Average WikiANN Tatoeba UDPOS 平均値 0.46
Average (|T | ≤ 10) 平均 (|T | ≤ 10) 0.46
mBERT Average Average (|T | ≤ 10) ムバート 平均 平均 (|T | ≤ 10) 0.57
|T | 7 7 8 9 10 10 10 14 32 35 48 19 9 |T | 7 7 8 9 10 10 10 14 32 35 48 19 9 0.43
19 9 Average within Task Average across Tasks Lasso XGBoost DGPR Group Lasso CMF MDGPR MAML 19 9 タスク間のタスク平均内平均値 Lasso XGBoost DGPR Group Lasso CMF MDGPR MAML 0.66
Baselines Single Task Models ベースライン 単一タスクモデル 0.72
Multi Task Models 2.92 3.34 4.52 4.29 4.90 2.10 16.61 3.07 15.22 8.69 10.15 6.89 5.53 マルチタスクモデル 2.92 3.34 4.52 4.29 4.90 2.10 16.61 3.07 15.22 8.69 10.15 6.89 5.53 0.38
8.69 6.96 2.26 0.9 5.91 5.48 4.22 1.51 15.48 2.07 11.61 8.68 7.65 5.98 5.11 8.69 6.96 2.26 0.9 5.91 5.48 4.22 1.51 15.48 2.07 11.61 8.68 7.65 5.98 5.11 0.23
6.57 5.64 4.33 0.8 2.42 5.89 4.54 1.53 15.70 1.97 10.14 5.82 7.52 5.51 5.03 6.57 5.64 4.33 0.8 2.42 5.89 4.54 1.53 15.70 1.97 10.14 5.82 7.52 5.51 5.03 0.23
5.55 4.99 2.91 1.28 4.16 5.63 6.56 1.56 21.16 1.53 10.26 7.14 5.12 6.12 6.18 5.55 4.99 2.91 1.28 4.16 5.63 6.56 1.56 21.16 1.53 10.26 7.14 5.12 6.12 6.18 0.23
6.86 6.54 3.26 1.27 4.73 6.56 4.13 1.78 15.66 2.16 12.64 6.80 6.02 5.91 5.34 6.86 6.54 3.26 1.27 4.73 6.56 4.13 1.78 15.66 2.16 12.64 6.80 6.02 5.91 5.34 0.23
6.10 5.73 2.21 1.32 2.69 5.04 4.16 1.52 13.73 2.17 10.92 5.83 7.72 5.21 4.38 6.10 5.73 2.21 1.32 2.69 5.04 4.16 1.52 13.73 2.17 10.92 5.83 7.72 5.21 4.38 0.23
5.45 4.44 2.66 1.39 2.03 5.88 3.86 1.87 14.62 2.17 11.36 6.08 7.89 5.44 4.62 5.45 4.44 2.66 1.39 2.03 5.88 3.86 1.87 14.62 2.17 11.36 6.08 7.89 5.44 4.62 0.36
5.08 4.18 2.96 2.71 1.96 4.61 3.15 2.69 10.07 3.54 9.15 8.09 5.88 4.98 4.02 5.08 4.18 2.96 2.71 1.96 4.61 3.15 2.69 10.07 3.54 9.15 8.09 5.88 4.98 4.02 0.23
5.12 4.53 4.89 6.62 6.28 4.96 6.85 8.22 9.33 4.55 13.19 9.72 10.71 7.76 6.73 5.12 4.53 4.89 6.62 6.28 4.96 6.85 8.22 9.33 4.55 13.19 9.72 10.71 7.76 6.73 0.23
8.14 7.51 Table 1: Mean Absolute Error (scaled by 100 for readability) for LOLO for different approaches across tasks. 8.14 7.51 表1:タスク間の異なるアプローチのためのLOLOに対する平均絶対誤差(可読性のために100にスケール)。 0.52
We also report the average MAE across all tasks (“Average”) and for tasks which has less than or equal to 10 languages (“Average (|T | ≤ 10)”). また,各タスクの平均MAE(平均)と10言語未満のタスク(平均 (|T | ≤ 10))についても報告する。 0.59
Task-wise results for mBERT can be found in the Appendix (table 2) mBERT のタスクワイズ結果は Appendix (table 2) に記載されている。 0.72
2019), Mewsli-X (Botha et al , 2020; Ruder et al , 2021), and LAReQA (Roy et al , 2020) All of these datasets have training data present only in English i.e. P = {en}, and majority of the tasks have fewer than 10 target languages. mewsli-x (botha et al , 2020; ruder et al , 2021)、lareqa (roy et al , 2020) 、mewsli-x (botha et al , 2020)、lareqa (roy et al , 2020) といったデータセットは、いずれも英語のみに存在するトレーニングデータを持っている。 0.73
5.3 Training Details We train and evaluate our performance prediction models for mBERT (bert-base-multiling ualcased) and XLM-R (xlm-roberta-large). 5.3 トレーニングの詳細 mBERT (bert-base-multiling ualcased) と XLM-R (xlm-roberta-large) のパフォーマンス予測モデルをトレーニングし評価する。 0.64
For training XGBoost, we used 100 estimators with a maximum depth of 10. XGBoostのトレーニングには,最大深度10の推定器を100個使用した。 0.76
For Group Lasso, we used the implementation provided in the MuTaR software package4, and used a regularization strength of 0.01. グループラッソでは MuTaR ソフトウェアパッケージ4 で提供される実装を使用し、正規化強度は 0.01 であった。 0.76
We optimized CMF’s objective function using Alternating Least Squares (ALS), used 5 latent factors with a regularization parameter equal to 0.1, and used the Collective Matrix Factorization python library5. 我々は, Alternating Least Squares (ALS) を用いてCMFの目的関数を最適化し, 正規化パラメータが0.1に等しい5つの潜在因子を用い, 集合行列因子化ピソンライブラリ5を用いた。 0.77
In case of MDGPR, we used Radial Basis Function as the kernel and a two-layer MLP for learning latent features, with 50 and 10 units followed by ReLU activation. MDGPRでは,RLUアクティベーション後に50,10ユニットの潜伏した特徴を学習するために,核としてラジアル基底関数と2層MLPを用いた。 0.85
We set the learning rate and epochs as 0.01 and 200, and implemented it using GPyTorch6. 学習速度とエポックを0.01と200と設定し,GPyTorch6を用いて実装した。 0.72
6 Results and Discussion 6.1 LOLO Results Table 1 shows MAE (in %) for LOLO for different single-task and multi-task models on the tasks. 6 結果と議論 6.1 LOLO 結果表1では、タスク上の異なるシングルタスクモデルとマルチタスクモデルに対するLOLOのMAE(%)が示されている。 0.69
For XLMR, we observe that multi-task models, primarily MDGPR, often outperform the best single- XLMRの場合、マルチタスクモデル、主にMDGPRは、しばしば最高のシングルよりも優れています。 0.69
4https://github.com/ hichamjanati/mutar 5https://github.com/ david-cortes/ 4https://github.com/ hichamjanati/mutar 5https://github.com/ david-cortes/ 0.16
cmfrec 6https://gpytorch.ai / cmfrec 6https://gpytorch.ai / 0.45
task models by significant margins, and for tasks like MewsliX we even see about 36% reduction in MAE. MewsliXのようなタスクでは、MAEの約36%の削減が見られます。
訳抜け防止モード: かなりのマージンのタスクモデルと MewsliXのようなタスクでは、約36%のMAE削減が見られます。
0.71
Overall, we see about 10% drop in LOLO errors on average for MDGPR compared to the best performing single-task model i.e. Lasso Regression. 全体として、MDGPRのLOLOエラーは、最高のシングルタスクモデルであるLasso Regressionと比較して、平均で約10%減少している。 0.65
As expected, the benefit of multi-task learning is even more prominent when we consider the tasks for which only a few (≤ 10) data points are available. 予想通り、数個の(≤ 10)データポイントしか利用できないタスクを考えると、マルチタスク学習の利点はさらに顕著です。
訳抜け防止モード: 予想通り、マルチタスク学習のメリットは、さらに顕著です。 我々は、いくつかの( ≤ 10 )データポイントしか利用できないタスクについて検討する。
0.65
Here we see about 20% reduction in errors. ここでは、エラーの約20%が減少している。 0.63
For mBERT as well, we have similar observations, except that CMF performs slightly better than MDGPR. mBERTも同様に観察できるが、CMFはMDGPRより若干優れている。 0.57
Note that the Average across task baseline is quite competitive and performs better than singletask XGBoost and MAML in average, and better than all models for LAReQA. タスクベースラインを越えた平均は極めて競争力があり、シングルタスクのXGBoostやMAMLよりもパフォーマンスが良く、LAReQAのすべてのモデルよりも優れています。 0.67
Figure 2 plots the dependence of the number of helper tasks on the performance of the multi-task models. 図2は、複数のタスクモデルのパフォーマンスに対するヘルパータスクの数依存性をプロットします。 0.80
As expected, MAE decreases as helper tasks increase, especially for MDGPR and CMF. 予想通り、特にMDGPRやCMFではヘルパータスクが増加するにつれて、MAEは減少する。 0.58
On a related note, the Pearson Correlation coefficient between MAE and number of tasks a target language is part of is found to be −0.39, though the trend in this case is not as clear. 関連する注意点として、ターゲット言語の一部であるタスク数とMAEのピアソン相関係数は-0.39であることが分かるが、この場合の傾向はそれほど明確ではない。 0.73
6.2 LLRO Results Predicting the performance on low resource languages, for which often standard training and test datasets are not available, can be an important use case where multi-task performance prediction can be helpful. 6.2 llroの結果、標準的なトレーニングやテストデータセットが利用できない低リソース言語のパフォーマンスを予測することは、マルチタスクのパフォーマンス予測に役立つ重要なユースケースである。 0.82
Figure 6 in appendix shows the classwise (Joshi et al , 2020) distribution of languages for the tasks that we consider in our experiments. 付録の図6は、実験で検討したタスクのクラス別(joshi et al , 2020)の言語分布を示しています。 0.80
As one would expect, for most tasks, test data is available for languages belonging to class-4 and ほとんどのタスクでは、クラス4およびクラス4に属する言語でテストデータが利用可能です。 0.76
英語(論文から抽出)日本語訳スコア
class-5. Training performance prediction models without any task to transfer from can therefore, possibly lead to poor generalization on the low resource languages. クラス5。 したがって、タスクを移行せずにパフォーマンス予測モデルをトレーニングすることは、低リソース言語の一般化を損なう可能性がある。 0.71
On the other hand, for the same reason - lack of test data, building accurate predictors for low-resource languages is necessary. 一方、同じ理由から、テストデータの欠如、低リソース言語のための正確な予測器を構築する必要がある。 0.74
MAE values for the LLRO evaluation setup are shown in figure 1 for XLMR. LLRO評価設定のMAE値は、XLMRの図1に示す。 0.70
Results for mBERT follow similar trends and are reported in the Appendix (figure 7). mBERTの結果も同様の傾向であり、Appendixで報告されている(図7)。 0.68
For both XLMR and mBERT we observe that the three main multi-task models – Group Lasso, CMF and MDGPR – outperform the single-task models and baselines. XLMR と mBERT のどちらにおいても、主要なマルチタスクモデルである Group Lasso, CMF, MDGPR がシングルタスクモデルとベースラインを上回っている。 0.77
Interestingly, for XLMR, the single task models XGBoost and Lasso perform even worse than the Average within Tasks baseline. 興味深いことに、xlmrでは、単一タスクモデル xgboost と lasso は、タスクベースラインの平均よりもパフォーマンスがさらに悪い。 0.58
Overall we see around 18% and 11% drop in MAE for Group Lasso over the best performing single-task model, for XLMR and mBERT respectively. 全体として、XLMRとmBERTでは、最高のシングルタスクモデルよりもグループラッソでは18%、MAEでは11%の減少が見られる。 0.63
6.3 Feature Importance An interesting consequence of zero-shot performance prediction is that the models can be directly used to infer the correlation (and possibly causation) between linguistic relatedness and pretraining conditions and zero-shot transferability. 6.3 特徴量 ゼロショット性能予測の興味深い結果として、言語関連性と事前訓練条件とゼロショット転送可能性との相関(およびおそらく因果関係)を直接推測するためにモデルが使用できる。 0.76
Multi-task learning, in this context, help us make more robust inferences, as the models are less prone to overfitting to a particular task or dataset. この文脈でのマルチタスク学習は、モデルが特定のタスクやデータセットに過度に適合する傾向が低いため、より堅牢な推論を可能にする。 0.69
Figure 3 shows the SHAP values of the features for the Group Lasso model trained on XLMR’s zero-shot performance data. 図3は、XLMRのゼロショットパフォーマンスデータに基づいてトレーニングされたGroup Lassoモデルの機能のSHAP値を示しています。 0.79
As expected for Group Lasso, we see a block-sparsity behavior among the tasks. グループラッソでは予想通り、タスク間でブロックスパーシティの振る舞いが見られます。 0.45
Features such as Rare Typological Traits (WMRR(t)), Tokenizer’s Fertility (FERT(t)) and Genetic Similarity (sgen(p, t)) are ignored in all the tasks. 希少なタイポロジー形質(WMRR(t))、トケナイザーの妊婦性(FERT(t))、遺伝的類似性(sgen(p, t))といった特徴は全てのタスクで無視される。 0.70
In contrast, for the single-task lasso regression (Figure 9 in Appendix), we see different sets of features selected for different tasks, which for 対照的に、シングルタスクラッソレグレッション(Appendixの図9)では、異なるタスクに対して選択されたさまざまな機能セットが、それぞれに対して表示される。
訳抜け防止モード: 対照的に、単一のタスクラッソ回帰(Appendixの図9)では、 異なるタスクのために選択された 様々な機能があります
0.79
Figure 1: Leave Low Resource Out (LLRO) results for XLMR 図1:XLMRの低リソースアウト(LLRO)結果 0.71
Figure 2: Number of helper tasks vs. LOLO MAE. 図2: ヘルパータスクの数 vs. LOLO MAE。 0.72
Errors for different model types (Group Lasso, CMF and MDGPR) and tasks are scaled by diving them by the maximum error value. 異なるモデルタイプ(Group Lasso、CMF、MDGPR)とタスクに対するエラーは、最大エラー値でダイビングすることでスケールする。 0.75
Figure 3: Task-wise mean SHAP values of different features for the Group Lasso model trained on XLMR zero-shot performance data. 図3:タスクワイドは、XLMRゼロショットパフォーマンスデータに基づいてトレーニングされたGroup Lassoモデルの異なる機能のSHAP値を意味する。 0.70
Higher value implies stronger effect. 高い値は強い効果を意味する。 0.61
the scale at which we operate, might not be indicative of the actual factors that affect the zero-shot performance in these tasks. 私たちが運用するスケールは、これらのタスクのゼロショットパフォーマンスに影響を与える実際の要因を示すものではないかもしれません。 0.66
Subword Overlap. サブワードオーバーラップ。 0.65
Among the features that get selected for all tasks, we observe that Subword Overlap (osw(p, t)) typically gets higher importance in retrieval (LAReQA and MewsliX) and sentence classification tasks (PAWS-X, XNLI). 全てのタスクで選択される機能のうち、サブワードオーバーラップ(osw(p, t))が検索(LAReQA, MewsliX)や文分類タスク(PAWS-X, XNLI)においてより重要になるのが普通である。 0.81
Since the retrieval tasks that we consider, as described in Ruder et al (2021), measure the alignment between the cross lingual representations of semantically similar sentences, having a shared vocabulary between the languages can leak information from one to another (Wu and Dredze, 2019) which might improve the retrieval performance. Ruder et al (2021) に記述されているような検索タスクは意味的に類似した文の言語間表現のアライメントを測定するため、言語間の共通語彙を持つことで、検索性能を向上させることができる(Wu and Dredze, 2019)。 0.66
Interestingly, if we compare this with the feature importance scores for the single task lasso model (Figure 9 in Appendix), we do see MewsliX task getting higher importance for the subword overlap, but LAReQA gets virtually zero SHAP value for this feature, showcasing how single-task models can misinterpret two similar tasks as requiring very different features. 興味深いことに、シングルタスクラッソモデル( appendix の図 9)の機能重要度スコアと比較すると、mewslixタスクはサブワードの重複においてより重要になるが、lareqa はこの機能に対して事実上ゼロのシェープ値を獲得し、シングルタスクモデルが2つの類似のタスクを全く異なる機能を必要とすると解釈する方法を示している。 0.71
Our observation reinforce the generally held notion that vocabulary overlap between the pivot and target is 我々の観察は、ピボットとターゲットの語彙重なりが一般的であるという考えを補強する 0.73
XGBoostMAMLDGPRLasso AWTAATCMFGroupLassoM DGPR68101214AverageL LROError11.8610.7210 .3410.169.669.599.30 9.038.28XLMR12345678 910NumberofHelperTas ks0.40.50.60.70.80.9 1.0NormalizedLOLOErr orXLMRModelGroupLass oCMFMDGPRSIZE(t)WMRR (t)PCW(t)FERT(t)dgeo (p,t)ssyn(p,t)spho(p ,t)sgen(p,t)osw(p,t) XCOPALAReQAMewsliXML QATyDiQAPAWS-XWikiAN NXNLITatoebaUDPOSXQU AD0.6300.0500.140.04 0.0600.070.1700.0900 .340.050.0600.290.05 00.0200.40.070.1200. 340.2300.1100.150.04 0.2800.190.0400.4600 .120.060.3100.020.11 00.2700.130.090.1700 .230.0200.3200.260.1 0.1900.110.1900.0100 .240.170.0200.380.33 00.100.240.090.1500. 090.0100.2900.370.11 0.1800.040.0300.4300 .320.020.1200.08Mean SHAPvalues(XLMR)-Gro upLasso0.00.10.20.30 .40.50.6 XGBoostMAMLDGPRLasso AWTAATCMFGroupLassoM DGPR68101214AverageL LROError11.8610.7210 .3410.169.669.599.30 9.038.28XLMR12345678 910NumberofHelperTas ks0.40.50.60.70.80.9 1.0NormalizedLOLOErr orXLMRModelGroupLass oCMFMDGPRSIZE(t)WMRR (t)PCW(t)FERT(t)dgeo (p,t)ssyn(p,t)spho(p ,t)sgen(p,t)osw(p,t) XCOPALAReQAMewsliXML QATyDiQAPAWS-XWikiAN NXNLITatoebaUDPOSXQU AD0.6300.0500.140.04 0.0600.070.1700.0900 .340.050.0600.290.05 00.0200.40.070.1200. 340.2300.1100.150.04 0.2800.190.0400.4600 .120.060.3100.020.11 00.2700.130.090.1700 .230.0200.3200.260.1 0.1900.110.1900.0100 .240.170.0200.380.33 00.100.240.090.1500. 090.0100.2900.370.11 0.1800.040.0300.4300 .320.020.1200.08Mean SHAPvalues(XLMR)-Gro upLasso0.00.10.20.30 .40.50.6 0.10
英語(論文から抽出)日本語訳スコア
beneficial for zero-shot transfer (Wu and Dredze, 2019), especially for retrieval tasks, though some studies have argued otherwise (Pires et al , 2019; K et al , 2020). ゼロショット転送には有益(Wu and Dredze, 2019)、特に検索タスクには有益である(Pires et al , 2019; K et al , 2020)。 0.65
Tokenizer Features. For structure prediction (UDPOS and WikiAnn) and question answering (XQUAD and TyDiQA) tasks that require making predictions for each token in the input, we see that the tokenizer feature, PCW(t), receive a higher SHAP value. トークン化機能。 入力中の各トークンに対する予測を必要とする構造予測(UDPOS,WikiAnn)および質問応答(XQUAD,TyDiQA)タスクに対して、トークン化機能であるPCW(t)がより高いSHAP値を受け取る。 0.65
In contrast, for single-task lasso, here too we do not observe high importance of this feature across these related tasks. 対照的に、シングルタスクのラッソについては、これらの関連するタスク間でこの機能の重要性を高く見ていない。 0.60
Rust et al (2021) note that languages such as Arabic where mBERT’s multilingual tokenizer was found to be much worse than it’s monolingual counterpart, there was a sharper drop in performance of mBERT compared to the monolingual model for QA, UDPOS and NER tasks than for sentiment classification. Rust et al (2021) は、mBERTの多言語トークン化ツールがモノリンガルのそれよりもはるかに劣っているアラビア語のような言語は、感情分類よりもQA、UDPOS、NERタスクのモノリンガルモデルと比較してmBERTのパフォーマンスが大幅に低下したことを指摘している。 0.75
We believe that XLMR’s surprisingly worse performance than mBERT for Chinese and Japanese on UDPOS might be correlated with it’s significantly worse tokenizer for these languages based on the fertility (FERT) and Percentage Continued Words (PCW) feature values (see Appendix A.2 for exact values). 我々は、XLMRが中国語と日本語のUDPOSにおけるmBERTよりも驚くほどパフォーマンスが劣っていることは、これらの言語のferity(FERT)とPercentage Continued Words(PCW)の機能値に基づいて、非常に低いトークン化要因と相関していると考えている(正確な値についてはAppendix A.2を参照)。 0.67
The high SHAP values for PCW(t) further strengthen our belief7. pcw(t) に対する高いshap値は、我々の信念をさらに強化します。 0.58
Pre-training Size. プリトレーニングサイズ。 0.70
Similar to the findings of Lauscher et al (2020), we observe that pre-training corpus size has low SHAP value, and therefore, lower importance for lower level tasks such as UDPOS and NER, and higher SHAP values for higher level tasks like XNLI. Lauscher et al (2020)と同様、事前学習コーパスのサイズはSHAP値が低いため、UDPOSやNERのような低レベルのタスクでは重要度が低く、XNLIのような高レベルのタスクではSHAP値が高いことが観察された。 0.62
Additionally, we extend their observations to tasks such as XCOPA, Tatoeba, MLQA and LAReQA where pre-training size seem to play a significant role in the performance prediction. さらに,XCOPA, Tatoeba, MLQA, LAReQAなどのタスクに対して, 事前学習のサイズが性能予測に重要な役割を担っていることを示す。 0.77
Again, compared to single Lasso Regression model, we see a different selection pattern: Pre-training size receives a high SHAP value for UDPOS while for XNLI it is negligible. 事前学習のサイズは、XNLIでは無視できるが、UDPOSでは高いSHAP値を受け取る。
訳抜け防止モード: 繰り返しますが、単一ラッソ回帰モデルと比較すると、異なる選択パターンが見られます。 Pre - トレーニングサイズはUDPOSに対して高いSHAP値を受け取り、XNLIでは無視できる。
0.67
This neither fully conforms with our observations on the multi-task feature selections, nor with the previous work (Lauscher et al , 2020). これは、マルチタスク機能の選択に関する我々の観測と、以前の作業(lauscher et al , 2020)と完全に一致していない。 0.69
Typological Relatedness Features. 類型的関連性の特徴。 0.56
Out of all the typological relatedness features, we found Geographical Distance (dgeo(p, t)) receiving highest SHAP values for all tasks, implying that geographical proximity between the pivot-target pair is an important factor in determining the zero-shot trans- すべての類型的関連性の特徴から,すべてのタスクにおいて最も高いシェープ値を受ける地理的距離 (dgeo(p, t)) を見出し,ピボット・ターゲット対間の地理的近接がゼロショットトランスを決定する上で重要な要因であることが示唆された。
訳抜け防止モード: 類型的関連性の特徴のうち,全タスクに対して高いSHAP値を受け取る地理距離(dgeo(p, t ))が認められた。 ピボット-ターゲットペア間の地理的近接がゼロショットトランスを決定する重要な要素であることを示す
0.74
7Note that Rust et al (2021) shows the importance of tokenizer metrics for the case where the multilingual models are fine-tuned on the target language, whereas we analyze their importance for zero-shot transfer. 7注: rust et al (2021) は、ターゲット言語で多言語モデルが微調整されている場合において、トークン化メトリクスの重要性を示している。 0.64
ferability between them. Lauscher et al (2020) also observe positive correlations between geographical relatedness and zero-shot performance. 相互の信頼関係です Lauscher et al (2020) は地理的関連性とゼロショット性能の正の相関も観察した。 0.57
The crosstask importance of geographic distance (unlike the other relatedness features) might be attributed to the 100% coverage across languages for the geographical vectors in the URIEL database. 地理的距離のクロスタスクの重要性(他の関連する特徴とは異なり)は、urielデータベース内の地理的ベクトルの言語を100%カバーすることに起因する可能性がある。 0.72
In contrast, Syntactic and Phonological vectors have missing values for a majority of the languages (Littell et al , 2017). 対照的に、シンタクティックベクトルとフォノロジーベクトルは、ほとんどの言語で値が欠落している(Littell et al , 2017)。 0.68
Like Lauscher et al (2020), we also see some dependence on syntactic (ssyn(p, t)) and phonological (spho(p, t)) similarities for XLMR’s zero shot performance on XNLI and XQUAD tasks respectively. Lauscher et al (2020) と同様に、XLMR の XNLI と XQUAD のタスクにおけるゼロショット性能に対するシンタクティック (ssyn(p, t)) と音韻論的 (spho(p, t)) の類似性にも依存している。 0.85
However, in both cases we found that the tokenizer feature PCW(t) receives a much higher SHAP value. しかし、どちらのケースでも、トークン化機能であるPCW(t)がより高いSHAP値を受け取ることがわかった。 0.56
Interestingly, genetic similarity (sgen(p, t)) is not selected for any task, arguably due to the block sparsity in feature selection of Group Lasso. 興味深いことに、遺伝的類似性(sgen(p, t))はラッソ群の特徴選択におけるブロックスパース性のため、いかなるタスクに対しても選択されない。 0.67
We do see some tasks receiving high SHAP values for sgen(p, t) in single-task lasso (Figure 9 in Appendix). 単一タスクラッソのsgen(p, t)に対して高いSHAP値を受け取るタスクがいくつか見られる(Appendixの図9)。 0.80
However, the number of such tasks as well as the SHAP values are on the lower side, implying that genetic similarity might not provide any additional information for zero-shot transfer over and above the geographical, syntactic and phonological similarities. しかしながら、そのようなタスクの数とSHAP値が下位にあり、遺伝的類似性は、地理的、構文的、音韻的類似性以上のゼロショット転送のための追加情報を提供しないことを意味する。 0.66
Similar trends are observed in the case of mBERT as well (Figure 10 in appendix), with some minor differences. mBERTでも同様の傾向がみられ(虫垂第10図)、若干の差がある。 0.58
For instance, instead of PCW(t), FERT(t) receives higher SHAP value; ssyn(p, t) also receives higher importance, especially for tasks like UDPOS and XNLI, which is consistent with the findings of Lauscher et al (2020). 例えば、PCW(t)の代わりにFERT(t) は高いSHAP値を受け取り、ssyn(p, t) は特に UDPOS や XNLI のようなタスクにおいてより重要となる。
訳抜け防止モード: 例えば、pcw(t ) の代わりに、fert(t ) はより高いシェープ値 ; ssyn(p,) を受け取る。 t)はまた、特にudposやxnliのようなタスクにおいて、より重要である。 これはlauscher et al (2020) の結果と一致している。
0.58
7 Conclusion and Future Work 7 結論と今後の課題 0.78
In this paper, we showed that the zero-shot performance prediction problem can be much more effectively and robustly solved by using multi-task learning approaches. 本稿では,マルチタスク学習手法を用いて,ゼロショット性能予測問題をより効果的かつロバストに解決できることを示す。 0.81
We see significant reduction in errors compared to the baselines and single-task models, specifically for the tasks which have test sets available in a very few languages or when trying to predict the performance for low resource languages. 特に、ごく少数の言語でテストセットを利用できるタスクや、低リソース言語のパフォーマンスを予測しようとする場合において、ベースラインやシングルタスクモデルと比較してエラーが大幅に減少する。 0.78
Additionally, this approach allows us to robustly identify factors that influence zero-shot performance. さらに、このアプローチにより、ゼロショットのパフォーマンスに影響を与える要因をしっかり特定できます。 0.52
Our findings in this context can be summarized as follows. この文脈における我々の発見は次のように要約できる。 0.58
1. Subword overlap between the pivot and target has a strong positive influence on zero-shot trans- 1. ピボットとターゲットの単語重複はゼロショットトランスに強い正の影響を及ぼす- 0.81
英語(論文から抽出)日本語訳スコア
fer, especially for Retrieval tasks. fer,特に検索タスクについて。 0.64
2. Quality of the target tokenizer, defined in terms of how often or how aggressively it splits the target tokens negatively influences zero-shot performance for word-level tasks such as POS tagging and Span extraction. 2) POSタグ付けやスパン抽出などの単語レベルのタスクにおいて,ターゲットトークンの割当頻度や積極的分割がゼロショット性能に悪影響を及ぼす要因として,ターゲットトークン化器の品質が定義される。
訳抜け防止モード: 2. ターゲットトークンがゼロに悪影響を及ぼす頻度または過度に分裂する頻度で定義されるターゲットトークン化器の品質 -言葉のショットパフォーマンス POSタグやSpan抽出などのレベルタスク。
0.80
3. Pre-training size of the target positively influences zero-shot performance in many tasks, including XCOPA, Tatoeba, MLQA and LAReQA. 3) 目標の事前訓練サイズはXCOPA, Tatoeba, MLQA, LAReQAなど多くのタスクにおいてゼロショット性能に肯定的な影響を及ぼす。 0.69
4. Geographical proximity between pivot and target is found to be uniformly important across all the tasks, unlike syntactic and phonological similarities, which are important for only some tasks. 4) ピボットとターゲットの地理的近接性は, 構文的・音韻的類似性とは異なり, 全てのタスクにおいて一様に重要であることが判明した。 0.73
This last finding is especially interesting. この最後の発見は特に興味深い。 0.78
As described earlier, geographical proximity is a more clear, noise-free and complete feature compared to the other relatedness metrics. 前述のように、地理的な近接性は、他の関連する指標と比較して、より明確でノイズがなく、完全な特徴である。 0.54
However, one could also argue that since neighboring languages tend to have high vocabulary and typological feature overlap due to contact processes and shared areal features, geographical distance is an extremely informative feature for zero-shot transfer. しかし、隣接する言語は、接点のプロセスと共有の領域の特徴によって、高い語彙と類型的特徴が重なり合う傾向があるため、地理的距離はゼロショット転送の非常に有益な特徴であると主張することもできる。 0.70
Two direct implications of these findings are: (1) for effective use of MMLMs, one should develop resources in at least one pivot language per geographic regions, and (2) one should work towards multilingual tokenizers that are effective for most languages. これらの発見の直接的な意味は,(1)MMLMを効果的に活用するためには,地域ごとの少なくとも1つのピボット言語で資源を開発すること,(2)ほとんどの言語に有効である多言語トークン化器に取り組んでいくこと,の2つである。 0.71
There are a number of directions that can be explored in future related to our work. 将来、私たちの仕事に関連するいくつかの方向を探ることができます。 0.71
The prediction models can be extended to a multi-pivot and few-shot settings, as described in Srinivasan et al (2021). 予測モデルは、srinivasan et al (2021) に記述されているように、マルチピボットと少数ショットの設定に拡張することができる。 0.63
Further probing experiments could be designed to understand the role of sub-word overlap on zero-shot transfer of Retrieval tasks. 検索タスクのゼロショット転送におけるサブワード重なりの役割を理解するために,さらなる探索実験を行うことができた。
訳抜け防止モード: さらなる調査実験は 検索タスクのゼロショット転送におけるサブワード重なりの役割を理解する。
0.68
Acknowledgements We would like to thank the LITMUS team at Microsoft for their valuable inputs and feedback over the course of this project. 覚書 プロジェクト全体を通じて貴重なインプットとフィードバックを頂いて、MicrosoftのLITMUSチームに感謝します。 0.50
References Rie Kubota Ando, Tong Zhang, and Peter Bartlett. 参照: Rie Kubota Ando、Tong Zhang、Peter Bartlett。 0.69
2005. A framework for learning predictive structures from multiple tasks and unlabeled data. 2005. 複数のタスクとラベルなしデータから予測構造を学習するフレームワーク。 0.62
Journal of Machine Learning Research, 6(11). journal of machine learning research, 6(11)を参照。 0.84
Andreas Argyriou, Theodoros Evgeniou, and Massimiliano Pontil. アンドレアス・アルギリオウ、テオドロス・エヴゲニウ、マッシミリアノ・ポンティユ。 0.43
2008. Convex multi-task feature learning. 2008. Convex Multi-task機能学習。 0.60
Machine learning, 73(3):243–272. 機械学習、73(3):243–272。 0.78
Mikel Artetxe, Sebastian Ruder, and Dani Yogatama. Mikel Artetxe、Sebastian Ruder、Dani Yogatama。 0.65
2020. On the Cross-lingual Transferability of MonoIn Proceedings of ACL lingual Representations. 2020. ACL言語表現におけるMonoInの言語間伝達性について 0.53
2020. Mikel Artetxe and Holger Schwenk. 2020. Mikel ArtetxeとHolger Schwenk。 0.59
2019. Massively Multilingual Sentence Embeddings for Zero-Shot Cross-Lingual Transfer and Beyond. 2019. ゼロショット・クロスリンガル・トランスファー用多言語文埋め込み 0.46
Transactions of the ACL 2019. ACL 2019のトランザクション。 0.62
Alexandra Birch, Miles Osborne, and Philipp Koehn. アレクサンドラ・バーチ、マイルズ・オズボーン、フィリップ・コーン。 0.66
2008. Predicting success in machine translation. 2008. 機械翻訳の成功を予測する。 0.60
In Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing, pages 745–754, Honolulu, Hawaii. 2008年、ハワイ州ホノルルの745-754ページで「自然言語処理における経験的方法に関する会議」を開催。
訳抜け防止モード: 自然言語処理における実証的手法に関する2008年会議のまとめ 745-754頁、ハワイ州ホノルル。
0.79
Association for Computational Linguistics. Edwin V Bonilla, Kian Chai, and Christopher Williams. 計算言語学会会員。 エドウィン5世ボニラ、キアン・チャイ、クリストファー・ウィリアムズ。 0.55
2008. Multi-task gaussian process prediction. 2008. マルチタスクガウスプロセス予測。 0.49
In Advances in Neural Information Processing Systems, volume 20. In Advances in Neural Information Processing Systems, Volume 20(英語) 0.85
Curran Associates, Inc. Curran Associates, Inc. 0.42
Jan A. Botha, Zifei Shan, and Daniel Gillick. jan a. botha、zifei shan、daniel gillick。 0.46
2020. EnIn Proceedings of tity Linking in 100 Languages. 2020. enin proceedings of tity linking in 100 languages (英語) 0.57
the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 7833– 7845, Online. 2020年自然言語処理における経験的手法に関する会議(emnlp) 7833-7845ページオンライン。 0.80
Association for Computational Linguistics. Tianqi Chen and Carlos Guestrin. 計算言語学会会員。 チアンチー・チェンとカルロス・ゲストリン 0.49
2016. Xgboost: A In Proceedings of scalable tree boosting system. 2016. Xgboost: スケーラブルなツリーブースティングシステムの成果です。 0.57
the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD ’16, page 785–794, New York, NY, USA. 第22回acm sigkdd international conference on knowledge discovery and data mining, kdd ’16, page 785-794, new york, ny, usa (英語) 0.80
Association for Computing Machinery. アソシエーション・フォー・コンピューティング・マシンズ(Association for Computing Machinery)の略。 0.36
Jonathan H. Clark, Eunsol Choi, Michael Collins, Dan Garrette, Tom Kwiatkowski, Vitaly Nikolaev, and Jennimaria Palomaki. ジョナサン・h・クラーク、eunsol choi、michael collins、dan garrette、tom kwiatkowski、vitaly nikolaev、jennimaria palomaki。
訳抜け防止モード: ジョナサン・H・クラーク、ウンソル・チョイ、マイケル・コリンズ、ダン・ギャレット Tom Kwiatkowski、Vitaly Nikolaev、Jennimaria Palomaki。
0.75
2020. TyDi QA: A Benchmark for Information-Seeking Question Answering In Transacin Typologically Diverse Languages. 2020. TyDi QA: Transacin Typologically Diverse Languagesにおける情報探索質問回答のベンチマーク。 0.65
tions of the Association of Computational Linguistics. 計算言語学会(Association of Computational Linguistics)の略称。 0.62
Alexis Conneau, Kartikay Khandelwal, Naman Goyal, Vishrav Chaudhary, Guillaume Wenzek, Francisco Guzmán, Edouard Grave, Myle Ott, Luke Zettlemoyer, and Veselin Stoyanov. Alexis Conneau, Kartikay Khandelwal, Naman Goyal, Vishrav Chaudhary, Guillaume Wenzek, Francisco Guzmán, Edouard Grave, Myle Ott, Luke Zettlemoyer, Veselin Stoyanov
訳抜け防止モード: alexis conneau, kartikay khandelwal, naman goyal, vishrav chaudhary. guillaume wenzek, francisco guzmán, edouard grave, myle ott, ルーク・ゼトルモイヤー(luke zettlemoyer)とヴェセリン・ストヤノフ(veslin stoyanov)。
0.65
2020. Unsupervised cross-lingual representation learning at scale. 2020. 教師なし言語間表現学習の大規模化 0.45
In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 8440– 8451, Online. 第58回計算言語学会年次総会の議事録では、8440-8451ページがオンラインで公開されている。 0.55
Association for Computational Linguistics. Alexis Conneau, Ruty Rinott, Guillaume Lample, Adina Williams, Samuel Bowman, Holger Schwenk, and Veselin Stoyanov. 計算言語学会会員。 Alexis Conneau, Ruty Rinott, Guillaume Lample, Adina Williams, Samuel Bowman, Holger Schwenk, Veselin Stoyanov。
訳抜け防止モード: 計算言語学会会員。 Alexis Conneau, Ruty Rinott, Guillaume Lample, Adina Williams サミュエル・ボウマン(Samuel Bowman)、ホルガー・シュヴェンク(Holger Schwenk)、ヴェゼリン・ストヤノフ(Veslin Stoyanov)。
0.61
2018. XNLI: Evaluating cross-lingual sentence representations. 2018. xnli: 言語間表現の評価。 0.54
In Proceedings of EMNLP 2018, pages 2475–2485. Proceedings of EMNLP 2018, page 2475–2485。 0.41
David Cortes. デビッド・コルテス。 0.51
2018. in collective matrix factorization. 2018. 集合行列の分解です 0.48
arXiv:1809.00366. arXiv:1809.00366 0.28
Cold-start recommendations arXiv preprint コールドスタートレコメンデーションarxivプレプリント 0.51
Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova 0.38
2019. BERT: Pre-training of deep bidirectional transformers for language underIn Proceedings of the 2019 Conference standing. 2019. BERT: 2019年開催のProceedings of the 2019 Conferenceにおいて、言語の下での双方向トランスフォーマーの事前トレーニング。 0.50
of the North American Chapter of the Association for Computational Linguistics: Human Language 計算言語学協会の北米支部:人間言語について 0.61
英語(論文から抽出)日本語訳スコア
Technologies, Volume 1 (Long and Short Papers), pages 4171–4186, Minneapolis, Minnesota. Technologies, Volume 1 (Long and Short Papers), page 4171–4186, Minneapolis, Minnesota. 0.45
Association for Computational Linguistics. Bła˙zej Dolicki 計算言語学会会員。 ブワ・ジゼイ・ドリック 0.35
and Gerasimos Spanakis. とGerasimos Spanakis。 0.68
2021. Analysing the impact of linguistic features on crosslingual transfer. 2021. 言語的特徴が言語間移動に与える影響の分析 0.62
arXiv preprint arXiv:2105.05975. arXiv preprint arXiv:2105.05975 0.36
Tobias Domhan, Jost Tobias Springenberg, and Frank Hutter. Tobias Domhan、Jost Tobias Springenberg、Frank Hutter。 0.36
2015. Speeding up automatic hyperparameter optimization of deep neural networks by extrapolation of learning curves. 2015. 学習曲線の外挿によるディープニューラルネットワークの自動ハイパーパラメータ最適化の高速化 0.64
In Twenty-fourth international joint conference on artificial intelligence. 第24回人工知能国際会議に参加して 0.65
Chelsea Finn, Pieter Abbeel, and Sergey Levine. チェルシー・フィン、ピーター・アブベエル、セルゲイ・レヴァイン。 0.50
2017. Model-agnostic meta-learning for fast adaptation of deep networks. 2017. 深層ネットワークの高速適応のためのモデル非依存メタラーニング 0.51
In International Conference on Machine Learning, pages 1126–1135. 機械学習に関する国際会議』1126-1135頁。 0.75
PMLR. Junjie Hu, Sebastian Ruder, Aditya Siddhant, Graham Neubig, Orhan Firat, and Melvin Johnson. PMLR。 Junjie Hu, Sebastian Ruder, Aditya Siddhant, Graham Neubig, Orhan Firat, Melvin Johnson 0.37
2020. XTREME: A massively multilingual multitask benchmark for evaluating cross-lingual generalisation. 2020. XTREME: 言語間一般化を評価するための多言語マルチタスクベンチマーク。 0.55
In Proceedings of the 37th International Conference on Machine Learning, volume 119 of Proceedings of Machine Learning Research, pages 4411–4421. 第37回In Proceedings of the 37th International Conference on Machine Learning, Volume 119 of Proceedings of Machine Learning Research, page 4411–4421。
訳抜け防止モード: 第37回機械学習国際会議報告, 第119巻 機械学習研究の成果 4411-4421頁。
0.63
PMLR. Ali Jalali, Sujay Sanghavi, Chao Ruan, and Pradeep Ravikumar. PMLR。 Ali Jalali, Sujay Sanghavi, Chao Ruan, Pradeep Ravikumar 0.36
2010. A dirty model for multi-task In Advances in Neural Information Prolearning. 2010. 神経情報プロラーニングにおけるマルチタスクのための汚いモデル 0.54
cessing Systems, volume 23. システム停止、第23巻。 0.57
Curran Associates, Inc. Curran Associates, Inc. 0.42
Pratik Joshi, Sebastin Santy, Amar Budhiraja, Kalika Bali, and Monojit Choudhury. Pratik Joshi、Sebastin Santy、Amar Budhiraja、Kalika Bali、Monojit Choudhury。 0.32
2020. The state and fate of linguistic diversity and inclusion in the NLP In Proceedings of the 58th Annual Meetworld. 2020. NLP In Proceedings of the 58th Annual Meetworldにおける言語多様性と包摂の状況と運命 0.58
ing of the Association for Computational Linguistics, pages 6282–6293, Online. ing of the association for computational linguistics, pages 6282-6293, online (英語) 0.36
Association for Computational Linguistics. Karthikeyan K, Zihan Wang, Stephen Mayhew, and Dan Roth. 計算言語学会会員。 Karthikeyan K、Zihan Wang、Stephen Mayhew、Dan Roth。 0.43
2020. Cross-lingual ability of multilingual bert: An empirical study. 2020. 多言語ベルトの言語間能力 : 実証的研究 0.53
In International Conference on Learning Representations. 学習表現に関する国際会議に参加。 0.79
Anne Lauscher, Vinit Ravishankar, Ivan Vuli´c, and Goran Glavaš. アンネ・ラウシャー、ヴィニト・ラヴィシャンカル、イヴァン・ヴリ(ivan vuli)、ゴラン・グラヴァシュ(goran glavaš)。 0.40
2020. From zero to hero: On the limitations of zero-shot language transfer with multilingual Transformers. 2020. ゼロからヒーローへ:多言語トランスフォーマーによるゼロショット言語転送の制限について。 0.59
In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 4483–4499, Online. 自然言語処理における経験的手法に関する2020年会議(emnlp)の議事録では、4483-4499ページがオンラインで公開されている。
訳抜け防止モード: 自然言語処理における経験的手法に関する2020年会議(EMNLP)の開催報告 4483-4499頁。
0.71
Association for Computational Linguistics. Gina-Anne Levow. 計算言語学会会員。 Gina-Anne Levow 0.48
2006. The third international Chinese language processing bakeoff: Word segmenIn Proceedtation and named entity recognition. 2006. 第3の国際中国語処理 bakeoff: word segmenin proceedtation と name entity recognition である。 0.64
ings of the Fifth SIGHAN Workshop on Chinese Language Processing, pages 108–117, Sydney, Australia. The Fifth SIGHAN Workshop on Chinese Language Processing, page 108-117, Sydney, Australia (英語) 0.40
Association for Computational Linguistics. Patrick Lewis, Barlas O˘guz, Ruty Rinott, Sebastian Riedel, and Holger Schwenk. 計算言語学会会員。 パトリック・ルイス、バラス・オ・シュグス、ルティ・リノット、セバスチャン・リーデル、ホルガー・シュウェンク。 0.55
2020. MLQA: Evaluating Cross-lingual Extractive Question Answering. 2020. MLQA: 言語横断抽出質問応答の評価。 0.61
In Proceedings of ACL 2020. ACL 2020に参加。 0.61
Yu-Hsiang Lin, Chian-Yu Chen, Jean Lee, Zirui Li, Yuyan Zhang, Mengzhou Xia, Shruti Rijhwani, Junxian He, Zhisong Zhang, Xuezhe Ma, Antonios Anastasopoulos, Patrick Littell, and Graham Neubig. Yu-Hsiang Lin, Chian-Yu Chen, Jean Lee, Zirui Li, Yuyan Zhang, Mengzhou Xia, Shruti Rijhwani, Junxian He, Zhisong Zhang, Xuezhe Ma, Antonios Anastasopoulos, Patrick Littell, Graham Neubig
訳抜け防止モード: Yu - Hsiang Lin, Chian - Yu Chen, Jean Lee Zirui Li, Yuyan Zhang, Mengzhou Xia, Shruti Rijhwani Junxian He, Zhisong Zhang, Xuezhe Ma, Antonios Anastasopoulos パトリック・リッテル(Patrick Littell)とグラハム・ニュービッグ(Graham Neubig)。
0.80
2019. Choosing transfer languages for cross-lingual learning. 2019. 言語間学習のためのトランスファー言語の選択。 0.53
In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 3125–3135, Florence, Italy. 57th Annual Meeting of the Association for Computational Linguistics, page 3125–3135, イタリア・フィレンツェ。 0.72
Association for Computational Linguistics. Patrick Littell, David R. Mortensen, Ke Lin, Katherine Kairis, Carlisle Turner, and Lori Levin. 計算言語学会会員。 パトリック・リッテル、デイヴィッド・r・モーテンセン、ケ・リン、キャサリン・カイリス、カーライル・ターナー、ロリ・レヴィン。 0.48
2017. URIEL and lang2vec: Representing languages as typological, geographical, and phylogenetic vectors. 2017. URIEL と lang2vec: 言語をタイプ的、地理的、系統的ベクトルとして表現する。 0.50
In Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics: Volume 2, Short Papers, pages 8–14, Valencia, Spain. 第15回欧州計算言語学会欧州支部紀要:第2巻 短文 8-14頁 スペイン・バレンシア 0.38
Association for Computational Linguistics. Aurelie C Lozano and Grzegorz Swirszcz. 計算言語学会会員。 Aurelie C LozanoとGrzegorz Swirszcz。 0.43
2012. Multilevel lasso for sparse multi-task regression. 2012. スパースマルチタスク回帰のためのマルチレベルラッソ 0.52
In Proceedings of the 29th International Coference on International Conference on Machine Learning, pages 595–602. 第29回International Coference on International Conference on Machine Learning』の595-602頁。 0.78
Joakim Nivre, Mitchell Abrams, Željko Agi´c, Lars Ahrenberg, Lene Antonsen, Maria Jesus Aranzabe, Gashaw Arutie, Masayuki Asahara, Luma Ateyah, Mohammed Attia, et al 2018. Joakim Nivre氏、Mitchell Abrams氏、Seljko Agi ́c氏、Lars Ahrenberg氏、Lene Antonsen氏、Maria Jesus Aranzabe氏、Gashaw Arutie氏、Asayuki Asahara氏、Luma Ateyah氏、Mohammed Attia氏など。 0.73
Universal dependencies 2.2. ユニバーサル2.2。 0.60
Xiaoman Pan, Boliang Zhang, Jonathan May, Joel Nothman, Kevin Knight, and Heng Ji. Xiaoman Pan, Boliang Zhang, Jonathan May, Joel Nothman, Kevin Knight, and Heng Ji 0.39
2017. Crosslingual name tagging and linking for 282 languages. 2017. 282言語のための言語間タギングとリンク。 0.59
In Proceedings of ACL 2017, pages 1946–1958. The Proceedings of ACL 2017』1946-1958頁。 0.82
Telmo Pires, Eva Schlinger, and Dan Garrette. テルモ・ピレス、エヴァ・シュリンガー、ダン・ガレット 0.43
2019. In ProHow multilingual is multilingual BERT? 2019. 多言語 bert は多言語 bert か? 0.48
ceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 4996– 5001, Florence, Italy. 第57回計算言語学会第4996-5001ページ、イタリアのフィレンツェで開催された。 0.51
Association for Computational Linguistics. Emmanouil Platanios, Hoifung Poon, Tom M Mitchell, and Eric J Horvitz. 計算言語学会会員。 Emmanouil Platanios、Hoifung Poon、Tom M Mitchell、Eric J Horvitz。 0.44
2017. Estimating accuracy from unlabeled data: A probabilistic logic approach. 2017. ラベルのないデータから精度を推定する:確率的論理アプローチ。 0.60
In Advances in Neural Information Processing Systems, volume 30. ニューラル・インフォメーション・プロセッシング・システム (neural information processing system) における第30巻。 0.55
Curran Associates, Inc. Curran Associates, Inc. 0.42
Emmanouil Antonios Platanios, Avrim Blum, and Tom Mitchell. Emmanouil Antonios Platanios、Avrim Blum、Tom Mitchell。 0.66
2014. Estimating accuracy from unlabeled data. 2014. ラベルなしデータから精度を推定する。 0.54
Ting Kei Pong, Paul Tseng, Shuiwang Ji, and Jieping Ye. Ting Kei Pong, Paul Tseng, Shuiwang Ji, Jieping Ye。 0.36
2010. Trace norm regularization: Reformulations, algorithms, and multi-task learning. 2010. トレースノルム正規化:再編成、アルゴリズム、マルチタスク学習。 0.52
SIAM Journal on Optimization, 20(6):3465–3489. SIAM Journal on Optimization, 20(6):3465–3489。 0.90
Edoardo Maria Ponti, Goran Glavaš, Olga Majewska, Qianchu Liu, Ivan Vuli´c, and Anna Korhonen. Edardo Maria Ponti、Goran Glavaš、Olga Majewska、Qianchu Liu、Ivan Vuli ́c、Anna Korhonen。 0.35
2020. XCOPA: A multilingual dataset for causal commonIn Proceedings of the 2020 Consense reasoning. 2020. XCOPA: 因果共通のための多言語データセット 2020年のConsense推論の証明。 0.62
ference on Empirical Methods in Natural Language Processing (EMNLP), pages 2362–2376, Online. Empirical Methods in Natural Language Processing (EMNLP), page 2362–2376, Online. 0.39
Association for Computational Linguistics. 計算言語学会会員。 0.52
英語(論文から抽出)日本語訳スコア
Uma Roy, Noah Constant, Rami Al-Rfou, Aditya Barua, Aaron Phillips, and Yinfei Yang. Uma Roy, Noah Constant, Rami Al-Rfou, Aditya Barua, Aaron Phillips, Yinfei Yang。 0.42
2020. LAReQA: Language-agnostic answer retrieval from a multilingual pool. 2020. LAReQA:多言語プールからの言語に依存しない回答検索。 0.52
In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 5919–5930, Online. 自然言語処理における経験的手法に関する2020年会議(emnlp)の議事録では、5919-5930ページがオンラインで公開されている。
訳抜け防止モード: 自然言語処理における経験的手法に関する2020年会議(EMNLP)の開催報告 5919-5930頁。
0.68
Association for Computational Linguistics. Sebastian Ruder, Noah Constant, Jan Botha, Aditya Siddhant, Orhan Firat, Jinlan Fu, Pengfei Liu, Junjie Hu, Dan Garrette, Graham Neubig, and Melvin Johnson. 計算言語学会会員。 Sebastian Ruder、Noah Constant、Jan Botha、Aditya Siddhant、Orhan Firat、Jinlan Fu、Pengfei Liu、Junjie Hu、Dan Garrette、Graham Neubig、Melvin Johnson。
訳抜け防止モード: 計算言語学会会員。 セバスティアン・ルーダー、ノア・コンスタント、ヤン・ボサ、アディティア・シッダーント Orhan Firat, Jinlan Fu, Pengfei Liu, Junjie Hu ダン・ギャレット、グラハム・ノイビッグ、メルヴィン・ジョンソン。
0.58
2021. XTREME-R: Towards more challenging and nuanced multilingual evaluation. 2021. XTREME-R: より困難でニュアンスのある多言語評価を目指して。 0.49
In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, pages 10215– 10245, Online and Punta Cana, Dominican Republic. 2021年、ドミニカ共和国のPunta Canaと10215–10245ページで、自然言語処理に関する実証的手法に関する会議が開催された。 0.71
Association for Computational Linguistics. Phillip Rust, Jonas Pfeiffer, Ivan Vuli´c, Sebastian Ruder, and Iryna Gurevych. 計算言語学会会員。 Phillip Rust, Jonas Pfeiffer, Ivan Vuli ́c, Sebastian Ruder, Iryna Gurevych 0.46
2021. How good is your tokenizer? 2021. トークンはどれくらい良いですか。 0.47
on the monolingual performance of multilingual language models. 多言語モデルの単言語性について 0.70
In Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), pages 3118–3135, Online. 第59回計算言語学会年次大会および第11回自然言語処理国際合同会議(第1巻:長い論文)の議事録において、3118-3135ページがオンラインで公開されている。 0.68
Association for Computational Linguistics. Holger Schwenk and Xian Li. 計算言語学会会員。 Holger SchwenkとXian Li。 0.45
2018. A corpus for multilingual document classification in eight languages. 2018. 8言語における多言語文書分類のためのコーパス 0.59
In Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018), Paris, France. 第11回言語資源評価国際会議(lrec 2018)がパリで開催された。 0.61
European Language Resources Association (ELRA). 欧州言語資源協会 (ELRA) の略。 0.77
Anirudh Srinivasan, Sunayana Sitaram, Tanuja Ganu, Sandipan Dandapat, Kalika Bali, and Monojit Choudhury. Anirudh Srinivasan, Sunayana Sitaram, Tanuja Ganu, Sandipan Dandapat, Kalika Bali, Monojit Choudhury。 0.37
2021. Predicting the performance arXiv preprint of multilingual nlp models. 2021. 多言語nlpモデルのarxivプリプリント性能の予測 0.54
arXiv:2110.08875. arXiv:2110.08875。 0.49
Erik F. Tjong Kim Sang. erik f. tjong kimが歌った。 0.56
2002. Introduction to the CoNLL-2002 shared task: Language-independent In COLING-02: The named entity recognition. 2002. 関連スポンサーコンテンツ conll-2002 shared task: language-independent in coling-02: the named entity recognition (英語) 0.51
6th Conference on Natural Language Learning 2002 (CoNLL-2002). 第6回自然言語学習会議(CoNLL-2002)に参加。 0.70
Erik F. Tjong Kim Sang and Fien De Meulder. Erik F. Tjong Kim SangとFien De Meulder。 0.44
2003. Introduction to the CoNLL-2003 shared task: Language-independent named entity recognition. 2003. CoNLL-2003の共有タスクの紹介:言語に依存しない名前付きエンティティ認識。 0.51
In Proceedings of the Seventh Conference on Natural Language Learning at HLT-NAACL 2003, pages 142–147. 第7回自然言語学習会議(llt-naacl 2003)第142-147頁。 0.62
Andrew Gordon Wilson, Zhiting Hu, Ruslan Salakhutdinov, and Eric P. Xing. Andrew Gordon Wilson、Zhiting Hu、Ruslan Salakhutdinov、Eric P. Xing。 0.39
2016. Deep kernel learning. 2016. 深いカーネル学習。 0.55
In Proceedings of the 19th International Conference on Artificial Intelligence and Statistics, volume 51 of Proceedings of Machine Learning Research, pages 370–378, Cadiz, Spain. 第19回人工知能・統計国際会議の議事録では、第51巻、第370-378頁、スペインのカディス。
訳抜け防止モード: 第19回人工知能・統計国際会議に参加して Proceedings of Machine Learning Research, page 370–378, Cadiz, Spain
0.62
PMLR. Shijie Wu and Mark Dredze. PMLR。 シージー・ウーとマーク・ドレッゼ。 0.35
2019. Beto, bentz, becas: The surprising cross-lingual effectiveness of BERT. 2019. Beto, bentz, becas: BERTの驚くべき言語間効果。 0.60
In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing 自然言語処理における経験的手法に関する2019年会議のまとめ 0.75
and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pages 833–844, Hong Kong, China. 第9回自然言語処理国際共同会議(emnlp-ijcnlp)は、香港の833-844ページ。
訳抜け防止モード: 第9回国際自然言語処理国際会議(EMNLP - IJCNLP)に参加して 833-844頁、香港、中国。
0.75
Association for Computational Linguistics. Shijie Wu and Mark Dredze. 計算言語学会会員。 シージー・ウーとマーク・ドレッゼ。 0.41
2020. Are all languages created equal in multilingual BERT? 2020. すべての言語は多言語bertで等しいか? 0.54
In Proceedings of the 5th Workshop on Representation Learning for NLP, pages 120–130, Online. 第5回nlp表現学習ワークショップの議事録では、120-130ページがオンラインで公開されている。 0.53
Association for Computational Linguistics. Mengzhou Xia, Antonios Anastasopoulos, Ruochen Xu, Yiming Yang, and Graham Neubig. 計算言語学会会員。 Mengzhou Xia、Antonos Anastasopoulos、Ruochen Xu、Yiming Yang、Graham Neubig。 0.42
2020. Predicting performance for natural language processing tasks. 2020. 自然言語処理タスクのパフォーマンス予測。 0.57
In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 8625–8646, Online. 第58回計算言語学会年次総会の議事録では、8625-8646ページがオンラインで公開されている。 0.53
Association for Computational Linguistics. Yinfei Yang, Yuan Zhang, Chris Tar, and Jason Baldridge. 計算言語学会会員。 Yinfei Yang、Yuan Zhang、Chris Tar、Jason Baldridge。 0.59
2019. PAWS-X: A cross-lingual adversarial dataset for paraphrase identification. 2019. PAWS-X: パラフレーズ識別のための言語間敵対的データセット。 0.51
In Proceedings of EMNLP 2019, pages 3685–3690. en:emnlp 2019において、3685-3690頁。 0.52
Zihuiwen Ye, Pengfei Liu, Jinlan Fu, and Graham Neubig. zihuiwen ye氏、pengfei liu氏、jinlan fu氏、graham neubig氏。 0.32
2021. Towards more fine-grained and reliable NLP performance prediction. 2021. より微細で信頼性の高いNLPパフォーマンス予測を実現する。 0.50
In Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume, pages 3703–3714, Online. The 16th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume, page 3703–3714, Online 0.38
Association for Computational Linguistics. Ming Yuan and Yi Lin. 計算言語学会会員。 Ming YuanとYi Lin。 0.45
2006. Model selection and estimation in regression with grouped variables. 2006. 群付き変数を用いた回帰におけるモデル選択と推定 0.59
Journal of the Royal Statistical Society: Series B (Statistical Methodology), 68(1):49–67. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 68(1):49–67。 0.45
Yu Zhang and Qiang Yang. Yu Zhang と Qiang Yang。 0.79
2017. A survey on multitask learning. 2017. マルチタスク学習に関する調査 0.51
IEEE Transactions on Knowledge and Data Engineering, PP. IEEE Transactions on Knowledge and Data Engineering, PP 0.37
A Appendix appendix (複数形 appendixs) 0.35
A.1 Additional Details of Approaches Used Gaussian Process Regression (GPR): We start by briefly reviewing Gaussian Processes (GP) in context of the zero-shot performance prediction problem. A.1 ガウス過程回帰法(GPR: Used Gaussian Process Regression; GPR): ゼロショット性能予測問題の文脈でガウス過程(GP)を概観することから始める。 0.54
For a pivot-target language pair (p, t) and a task t, the GP prior and the likelihood function can be defined as: f ∼ N (µt, Kt); y|f (xp,t) ∼ N (yt ピボット・ターゲット言語対 (p, t) とタスク t に対して、gp を前もって定義し、帰納関数を次のように定義することができる: f (μt, kt); y|f (xp, t) , n (yt) 0.78
p,t; f (xp,t), σ2 t ) (4) where µt (p,t),(p(cid:48),t(c id:48)) = kt(xp,t, xp(cid:48),t(cid:48) ) is the kernel of the GP defined on the task t. p,t; f (xp,t), σ2 t ) (4) ここで μt (p,t),(p(cid:48),t(c id:48)) = kt(xp,t, xp(cid:48),t(cid:48) ) はタスク t 上で定義された GP の核である。 0.91
σ2 is the mean and Kt σ2 平均とKtです 0.44
t denotes the noise variance. tはノイズ分散を表す。 0.75
Deep Gaussian Process Regression (DGPR): We use DGP (Wilson et al , 2016) to learn rich features Deep Gaussian Process Regression (DGPR): DGP (Wilson et al , 2016) を使ってリッチな機能を学ぶ 0.87
英語(論文から抽出)日本語訳スコア
from the observed data. 観測されたデータから 0.79
Specifically, the kernel kt(xp,t, xp(cid:48),t(cid:48) ) now takes the transformed inputs as (5) where g(x) is a non-linear mapping given by a deep network. 具体的には、カーネル kt(xp,t, xp(cid:48),t(cid:48) ) は変換された入力を (5) として取り込む。
訳抜け防止モード: 具体的には、カーネル kt(xp, t, xp(cid:48),t(cid:48 ) ) が変換入力を (5 ) として取り込む。 g(x) は、ディープネットワークによって与えられる非線型写像である。
0.70
Please refer to Wilson et al (2016) for a detail account on optimization of DGP. DGPの最適化に関する詳細な説明については Wilson et al (2016) を参照してください。 0.75
kt(xp,t, xp(cid:48),t(cid:48) ) = kt(g(xp,t), g(xp(cid:48),t(cid:4 8))) kt(xp,t,xp(cid:48),t (cid:48)) = kt(g(xp,t),g(xp(cid: 48),t(cid:48))) 0.47
Multi-Task Deep Gaussian Process Regression (MDGPR): We use the multi-task variant of Gaussian Processes proposed in Bonilla et al (2008) where inter-task similarities are learnt solely based on the task identities and the observed data for each task. マルチタスクDeep Gaussian Process Regression (MDGPR): Bonilla et al (2008) で提案されたマルチタスクのGaussian Processes を用いて、タスクのアイデンティティと各タスクの観測データに基づいてタスク間の類似性を学習する。 0.82
Instead of learning task-specific kernels kt(g(xp,t), g(xp(cid:48),t(cid:4 8))), we will have a common kernel over the inputs as k(g(xp,t), g(xp(cid:48),t(cid:4 8))) and a positive semi-definite matrix Ktask for learning inter-task similarities. タスク固有のカーネル kt(g(xp,t), g(xp(cid:48), t(cid:48)) を学ぶ代わりに、k(g(xp,t), g(xp(cid:48),t(cid:4 8)) という入力上の共通のカーネルを持ち、タスク間の類似性を学ぶための正の半定義行列 ktask を持つ。 0.81
Specifically, we define the multi-task kernel Km as follows km([xp,t, t], [xp(cid:48),t(cid:48) , t(cid:48)]) = 具体的には、マルチタスクカーネルkmを次のように定義する。 km([xp, t, t], [xp(cid:48), t(cid:48), t(cid:48)]) = 0.82
k(g(xp,t), g(xp(cid:48),t(cid:4 8))) ∗ ktask(t, t(cid:48)) k(g(xp,t), g(xp(cid:48),t(cid:4 8))) ∗ ktask(t, t(cid:48)) 0.48
(6) The GP prior will be defined by replacing the task specific kernel Kt in the equation 4 with the multi-task kernel Km. (6) gp の事前定義は、方程式 4 のタスク固有カーネル kt をマルチタスクカーネル km に置き換えることによって定義される。 0.68
We use the optimization steps similar to DGP and the inference is done by using the standard GP formulae. DGPと同様の最適化ステップを使用し、標準GP公式を用いて推論を行う。 0.69
Relating MDGPR to equation 1, the global parameters Θ are the parameters of the deep network g, and the task specific parameter Φ is the positive semi-definite matrix Ktask. MDGPR を方程式 1 に関連付けると、大域的パラメータは深いネットワーク g のパラメータであり、タスク固有パラメータは正の半定値行列 Ktask である。 0.82
Model Agnostic Meta Learning (MAML): MAML (Finn et al , 2017) is a popular meta learning algorithm that can be used to quickly adapt Deep Neural Networks on new tasks in a few-shot setting. モデル非依存型メタ学習(maml): maml(finn et al , 2017)は、新しいタスクに深層ニューラルネットワークを素早く適応させるために、数秒設定で使用できる一般的なメタ学習アルゴリズムである。 0.79
In MAML, the set of initialization parameters for the neural network are explicitly learned such that the network can generalize well on a new task with a small number of gradient steps and training samples. MAMLでは、ニューラルネットワークの初期化パラメータのセットを明示的に学習し、少数の勾配ステップとトレーニングサンプルで新しいタスクでネットワークをうまく一般化することができる。 0.74
Relating to equation 1, the global parameters Θ can be considered as the initial set of parameters for the neural network that are learned and shared across all the tasks. 方程式 1 に関して、大域パラメータ θ は、すべてのタスクで学習され共有されるニューラルネットワークのパラメータの初期セットと見なすことができる。 0.73
Task specific parameters Φ are adapted from Θ by taking K gradient steps using the task’s performance data. タスク固有のパラメータ φ は、タスクのパフォーマンスデータを用いて k 勾配ステップを取ることで θ から適応される。 0.72
For evaluating a task t, we consider rest of the tasks in our dataset as helpers (t(cid:48) ∈ T−{t}) and use them to train the initial set of parameters Θ. タスクtを評価するために、データセット内の他のタスクをヘルパー(t(cid:48) ∈ t−{t})として考慮し、最初のパラメータセット θ をトレーニングするためにそれらを使用する。
訳抜け防止モード: タスク t を評価するには、データセットの残りのタスクをヘルパー ( t(cid:48 ) ∈ T−{t } ) とみなす。 パラメータの最初のセットをトレーニングするためにそれらを使用します。
0.74
The initial parameters are then updated by fine-tuning the network on the training set for t using gradient descent. 初期パラメータは、勾配降下を用いたtのトレーニングセット上のネットワークを微調整することで更新される。 0.71
Figure 4: Comparison of Tokenizer metrics as described by Rust et al (2021) on different languages for MBERT and XLMR. 図4: MBERT と XLMR の異なる言語で、Rust ら (2021) が説明した Tokenizer メトリクスの比較。 0.73
For most languages both model’s have similar values of fertility and proportion of continued words, however for Chinese and Japanese the values for XLMR are much higher, which might indicate the subpar quality of XLMR’s tokenizer in these languages. ほとんどの言語では、どちらのモデルも出生率と継続語の割合が似ているが、中国語と日本語ではXLMRの値ははるかに高く、これらの言語ではXLMRのトークン化のサブパー品質を示す可能性がある。 0.68
A.2 Comparison between mBERT and A.2 mBERTとmBERTの比較 0.54
XLMR Tokenizers The FERT and PCW metrics as proposed by Rust et al (2021), have been compared for mBERT and XLMR in figure 4. XLMRトケナイザ Rustらによって提案されたFERTとPCWの測定値(2021年)は、図4でmBERTとXLMRと比較されている。 0.72
As can be seen, for most languages the metric values are similar across the two tokenizers, however for languages like Chinese and Japanese, there is a dramatic increase in the values for XLMR. ご覧のとおり、ほとんどの言語では、メトリック値は2つのトークン化器で似ていますが、中国語や日本語のような言語では、xlmrの値が劇的に増加しています。 0.67
Interestingly, when we compare the zero-shot performance between mBERT and XLMR on structure prediction tasks like UDPOS and WikiANN, we see a surprisingly large drop (upto 20% absolute drop) in the performance for XLMR on these both Chinese and Japanese, whereas usually XLMR outperforms mBERT on these tasks (Refer to figure 5). 興味深いことに、UDPOS や WikiANN のような構造予測タスクにおける mBERT と XLMR のゼロショット性能を比較すると、中国語と日本語の両方で XLMR のパフォーマンスが驚くほど大きく(20% まで)低下するのに対し、通常 XLMR は mBERT より優れている(図5参照)。 0.78
This observation along with the feature importance for the tokenizer features that we observed for Group Lasso (3) indicate that tokenizer quality might play some role in the zero-shot transfer capabilities of the multilingual models. この観察と、我々が Group Lasso (3) で観察したトークン化機能の特徴は、トークン化特性が多言語モデルのゼロショット転送能力に何らかの役割を果たすことを示している。 0.75
arenfiidjakorutrzh0. 00.51.01.52.0Fertili tyModelmBERTxlmraren fiidjakorutrzh0.00.1 0.20.30.40.50.60.7Pr oportionofcontinuedw ordsModelmBERTxlmr arefiidjakorutrzh0.0 0.51.51.52.0Fertilit yModelmBERTxlrarenfi idjakorutrzh0.00.10. 20.30.40.50.60.7Prop ortionofcontinuedwor dsModelmBERTxlmr 0.02
英語(論文から抽出)日本語訳スコア
Task |T | Baselines 課題 |T | ベースライン 0.56
Single Task Models Multi Task Models 単一タスクモデル マルチタスクモデル 0.66
Average within Task Average across Tasks Lasso XGBoost DGPR Group Lasso CMF MDGPR MAML タスク間のタスク平均内平均値 Lasso XGBoost DGPR Group Lasso CMF MDGPR MAML 0.89
MLQA PAWS XCOPA TyDiQA XQUAD LAReQA MewsliX XNLI MLQA PAWS XCOPA TyDiQA XQUAD LAReQA MewsliX XNLI 0.42
WikiANN Tatoeba UDPOS Average WikiANN Tatoeba UDPOS 平均値 0.46
Average (|T | ≤ 10) 平均 (|T | ≤ 10) 0.46
7 7 8 9 10 10 10 14 32 35 48 19 9 7 7 8 9 10 10 10 14 32 35 48 19 9 0.43
4.87 4.01 3.44 5.06 6.56 5.57 19.23 5.29 14.79 14.63 12.10 8.69 6.96 4.87 4.01 3.44 5.06 6.56 5.57 19.23 5.29 14.79 14.63 12.10 8.69 6.96 0.21
4.59 2.96 3.63 7.08 2.97 2.79 15.48 2.94 10.54 11.86 7.43 6.57 5.64 4.59 2.96 3.63 7.08 2.97 2.79 15.48 2.94 10.54 11.86 7.43 6.57 5.64 0.21
6.39 3.97 3.54 3.42 2.89 2.59 12.15 3.29 9.37 6.43 7.05 5.55 4.99 6.39 3.97 3.54 3.42 2.89 2.59 12.15 3.29 9.37 6.43 7.05 5.55 4.99 0.21
7.47 3.01 4.24 6.44 4.69 4.40 15.54 2.60 11.13 9.57 6.37 6.86 6.54 7.47 3.01 4.24 6.44 4.69 4.40 15.54 2.60 11.13 9.57 6.37 6.86 6.54 0.21
6.12 3.53 3.10 3.94 3.26 2.64 17.52 2.95 11.51 6.38 6.18 6.10 5.73 6.12 3.53 3.10 3.94 3.26 2.64 17.52 2.95 11.51 6.38 6.18 6.10 5.73 0.21
3.45 2.34 3.30 5.09 4.16 2.22 10.53 3.18 10.30 6.46 8.94 5.45 4.44 3.45 2.34 3.30 5.09 4.16 2.22 10.53 3.18 10.30 6.46 8.94 5.45 4.44 0.21
3.18 2.75 2.86 4.59 4.37 1.96 9.54 3.89 8.91 7.21 6.58 5.08 4.18 3.18 2.75 2.86 4.59 4.37 1.96 9.54 3.89 8.91 7.21 6.58 5.08 4.18 0.21
2.42 1.92 2.59 3.92 3.13 1.75 15.99 2.98 8.62 6.16 6.87 5.12 4.53 2.42 1.92 2.59 3.92 3.13 1.75 15.99 2.98 8.62 6.16 6.87 5.12 4.53 0.21
3.75 6.77 5.38 8.34 4.86 8.74 14.72 5.05 11.80 12.13 7.97 8.14 7.51 3.75 6.77 5.38 8.34 4.86 8.74 14.72 5.05 11.80 12.13 7.97 8.14 7.51 0.21
Table 2: Mean Absolute Errors (Scaled by 100 for readability) for different models trained to predict the zero shot performance of mBERT. 表2: mBERTのゼロショット性能を予測するために訓練された異なるモデルの平均絶対誤差(可読性100倍)。 0.83
In the “Average” row we average the MAEs across all the tasks and in the “Average Low” Res Tasks", we consider the tasks with fewer than 10 target languages and take the average of the MAEs for those tasks. Average”行では、すべてのタスクの平均と“Average Low” Res Tasksで、ターゲット言語が10言語未満のタスクを検討し、それらのタスクのMAEの平均値を取ります。
訳抜け防止モード: 平均」の行で 私たちはすべてのタスクと“平均低い”resタスクのmaesを平均化しています。 対象言語が10未満のタスクについて検討し、それらのタスクに対して平均的なmaesを取ります。
0.69
(a) (b) Figure 5: Zero-shot performance comparison between mBERT and XLMR on (a) (b) 図5:mBERTとXLMRのゼロショット性能比較 0.53
(a) UDPOS and (b) WikiANN (NER) tasks, as given in Ruder et al (2021) (a)UDPOS、 (b)ruder et al (2021)に記載されているwikiann (ner)タスク 0.47
Figure 7: Leave Low Resource Out (LLRO) results for mBERT 図7:mBERTの低リソースアウト(LLRO)結果 0.73
Figure 6: Class wise distribution of languages for different tasks. 図6: 異なるタスクのための言語のクラスワイズ分布。 0.87
Languages have been categorized based on the taxonomy provided by Joshi et al (2020) 言語は、joshi et al (2020)の分類に基づいて分類されている。 0.72
Figure 8: Number of helper tasks vs. LOLO MAE for mBERT. 図8:mBERTのヘルパータスク数 vs. LOLO MAE。 0.66
Errors for different model types (Group Lasso, CMF and MDGPR) and tasks are scaled by diving them by the maximum error value. 異なるモデルタイプ(Group Lasso、CMF、MDGPR)とタスクに対するエラーは、最大エラー値でダイビングすることでスケールする。 0.75
ARENFIIDJAKORUTRZHLa ng020406080100120F1s corePerformanceonUDP OSModelmBERTXLMRAREN FIIDJAKORUTRZHLang01 02030405060708090F1s corePerformanceonWik iANNModelmBERTXLMRcl ass-0class-1class-2c lass-3class-4class-5 XQUADXCOPALAReQAMews liXMLQATyDiQAPAWSWik iANNXNLITatoebaUDPOS 00014500133200014500 02350000250112320000 16012101270013460121 313714218167051015AW TMAMLDGPRXGBoostAATL assoCMFGroupLassoMDG PR68101214AverageLLR OError13.5412.3310.9 010.8010.549.359.168 .988.30mBERT12345678 910NumberofHelperTas ks0.40.50.60.70.80.9 1.0NormalizedLOLOErr orMBERTModelGroupLas soCMFMDGPR ARENFIIDJAKORUTRZHLa ng020406080100120F1s corePerformanceonUDP OSModelmBERTXLMRAREN FIIDJAKORUTRZHLang01 02030405060708090F1s corePerformanceonWik iANNModelmBERTXLMRcl ass-0class-1class-2c lass-3class-4class-5 XQUADXCOPALAReQAMews liXMLQATyDiQAPAWSWik iANNXNLITatoebaUDPOS 00014500133200014500 02350000250112320000 16012101270013460121 313714218167051015AW TMAMLDGPRXGBoostAATL assoCMFGroupLassoMDG PR68101214AverageLLR OError13.5412.3310.9 010.8010.549.359.168 .988.30mBERT12345678 910NumberofHelperTas ks0.40.50.60.70.80.9 1.0NormalizedLOLOErr orMBERTModelGroupLas soCMFMDGPR 0.00
英語(論文から抽出)日本語訳スコア
Figure 9: Task-wise mean SHAP values of different features for the Single Task Lasso Regression model trained on XLMR zero-shot performance data. 図9:タスクワイドは、XLMRゼロショットパフォーマンスデータに基づいてトレーニングされた単一タスクラッソ回帰モデルに対して、異なる機能のSHAP値を意味します。 0.66
Figure 10: Task-wise mean SHAP values of different features for the Group Lasso model trained on mBERT zero-shot performance data. 図10:タスクワイドは、mBERTゼロショットのパフォーマンスデータに基づいてトレーニングされたGroup Lassoモデルの異なる機能のSHAP値を意味する。 0.65
Figure 11: Task-wise mean SHAP values of different features for the Single Task Lasso Regression model trained on mBERT zero-shot performance data. 図11: タスク毎の平均シェープ値は、mbertゼロショットパフォーマンスデータに基づいてトレーニングされた単一のタスクラッソ回帰モデルに対して異なる機能を持つ。 0.64
SIZE(t)WMRR(t)PCW(t) FERT(t)dgeo(p,t)ssyn (p,t)spho(p,t)sgen(p ,t)osw(p,t)XCOPALARe QAMewsliXMLQATyDiQAP AWS-XWikiANNXNLITato ebaUDPOSXQUAD00.090. 3900.410.030.0700.01 0.82000.150000.0300. 10000.340000.5700.01 00.110.340.060.2300. 240.23000.07000.7000 0.200.29000.340.1800 000.42000.1100.470.1 00.2300.220.120.1800 .140.10000.020.48000 .40.48000.090.220.01 0.080.12000.070.2500 .360.040.170.110Mean SHAPvalues(XLMR)-Las soRegression0.00.10. 20.30.40.50.60.70.8S IZE(t)WMRR(t)PCW(t)F ERT(t)dgeo(p,t)ssyn( p,t)spho(p,t)sgen(p, t)osw(p,t)XCOPALAReQ AMewsliXMLQATyDiQAPA WS-XWikiANNXNLITatoe baUDPOSXQUAD0.09000. 050.320.080.3400.110 .09000.210.070.160.0 300.440.06000.10.330 .010.0800.420.06000. 20.020.180.1800.360. 02000.20.20.10.0900. 390.04000.090.160.23 0.1200.360.03000.050 .260.250.1600.250.09 000.130.10.290.0100. 380.12000.170.010.24 0.0400.420.04000.030 .220.380.1900.140.05 000.170.160.250.0900 .29MeanSHAPvalues(MB ERT)-GroupLasso0.000 .050.100.150.200.250 .300.350.40SIZE(t)WM RR(t)PCW(t)FERT(t)dg eo(p,t)ssyn(p,t)spho (p,t)sgen(p,t)osw(p, t)XCOPALAReQAMewsliX MLQATyDiQAPAWS-XWiki ANNXNLITatoebaUDPOSX QUAD0.2400.4500.010. 230.07000.250000.210 .040.5000.330.0100.1 700.02000.4700.0300. 030.300.160.070.410. 31000.24000.450000.0 500.10.250000.600.24 0.01000000.750.20.05 0.0900.170.180.0800. 210.500.09000.37000. 040.44000.2500.2100. 040.060.040000.120.5 50.240.050MeanSHAPva lues(MBERT)-LassoReg ression0.00.10.20.30 .40.50.60.7 SIZE(t)WMRR(t)PCW(t) FERT(t)dgeo(p,t)ssyn (p,t)spho(p,t)sgen(p ,t)osw(p,t)XCOPALARe QAMewsliXMLQATyDiQAP AWS-XWikiANNXNLITato ebaUDPOSXQUAD00.090. 3900.410.030.0700.01 0.82000.150000.0300. 10000.340000.5700.01 00.110.340.060.2300. 240.23000.07000.7000 0.200.29000.340.1800 000.42000.1100.470.1 00.2300.220.120.1800 .140.10000.020.48000 .40.48000.090.220.01 0.080.12000.070.2500 .360.040.170.110Mean SHAPvalues(XLMR)-Las soRegression0.00.10. 20.30.40.50.60.70.8S IZE(t)WMRR(t)PCW(t)F ERT(t)dgeo(p,t)ssyn( p,t)spho(p,t)sgen(p, t)osw(p,t)XCOPALAReQ AMewsliXMLQATyDiQAPA WS-XWikiANNXNLITatoe baUDPOSXQUAD0.09000. 050.320.080.3400.110 .09000.210.070.160.0 300.440.06000.10.330 .010.0800.420.06000. 20.020.180.1800.360. 02000.20.20.10.0900. 390.04000.090.160.23 0.1200.360.03000.050 .260.250.1600.250.09 000.130.10.290.0100. 380.12000.170.010.24 0.0400.420.04000.030 .220.380.1900.140.05 000.170.160.250.0900 .29MeanSHAPvalues(MB ERT)-GroupLasso0.000 .050.100.150.200.250 .300.350.40SIZE(t)WM RR(t)PCW(t)FERT(t)dg eo(p,t)ssyn(p,t)spho (p,t)sgen(p,t)osw(p, t)XCOPALAReQAMewsliX MLQATyDiQAPAWS-XWiki ANNXNLITatoebaUDPOSX QUAD0.2400.4500.010. 230.07000.250000.210 .040.5000.330.0100.1 700.02000.4700.0300. 030.300.160.070.410. 31000.24000.450000.0 500.10.250000.600.24 0.01000000.750.20.05 0.0900.170.180.0800. 210.500.09000.37000. 040.44000.2500.2100. 040.060.040000.120.5 50.240.050MeanSHAPva lues(MBERT)-LassoReg ression0.00.10.20.30 .40.50.60.7 0.15
                             ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。