論文の概要、ライセンス

# (参考訳) 談話のための多言語言語モデルの提案 [全文訳有]

Probing Multilingual Language Models for Discourse ( http://arxiv.org/abs/2106.04832v1 )

ライセンス: CC BY 4.0
Murathan Kurfal{\i}, Robert \"Ostling(参考訳) 事前学習された多言語言語モデルは、多言語自然言語処理において重要な構成要素となっている。 本稿では,言語間の談話レベルの知識の伝達方法を検討するために,そのようなモデルについて検討する。 これは、以前組み立てられたよりも幅広い談話レベルのタスクの体系的な評価によって行われる。 XLM-RoBERTaファミリーは、優れたモノリンガルモデルであると同時に、ゼロショット設定で比較的劣化が少ないことで、常に最高の性能を示す。 また, モデル蒸留が文表現の言語間移動を阻害する可能性も示唆した。 10の異なる家庭で合計22の言語で5つのタスクをカバーするテストスイートが、文レベルでの多言語パフォーマンスのための有用な評価プラットフォームになることを期待しています。

Pre-trained multilingual language models have become an important building block in multilingual natural language processing. In the present paper, we investigate a range of such models to find out how well they transfer discourse-level knowledge across languages. This is done with a systematic evaluation on a broader set of discourse-level tasks than has been previously been assembled. We find that the XLM-RoBERTa family of models consistently show the best performance, by simultaneously being good monolingual models and degrading relatively little in a zero-shot setting. Our results also indicate that model distillation may hurt the ability of cross-lingual transfer of sentence representations, while language dissimilarity at most has a modest effect. We hope that our test suite, covering 5 tasks with a total of 22 languages in 10 distinct families, will serve as a useful evaluation platform for multilingual performance at and beyond the sentence level.
公開日: Wed, 9 Jun 2021 06:34:21 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Probing Multilingual Language Models for Discourse 談話のための多言語言語モデルの提案 0.62
Murathan Kurfalı ムラサン・クルファル(Murathan Kurfalı) 0.27
Linguistics Department Stockholm University Stockholm, Sweden スウェーデンのストックホルム大学ストックホルム言語学部 0.70
Robert ¨Ostling ロバート・ショストリング 0.74
Linguistics Department Stockholm University Stockholm, Sweden スウェーデンのストックホルム大学ストックホルム言語学部 0.70
murathan.kurfali@lin g.su.se murathan.kurfali@lin g.su.se 0.47
robert@ling.su.se robert@ling.su.se 0.59
1 2 0 2 n u J 1 2 0 2 n u J 0.85
9 ] L C . s c [ 9 ]LC。 sc [ 0.60
1 v 2 3 8 4 0 1 v 2 3 8 4 0 0.85
. 6 0 1 2 : v i X r a . 6 0 1 2 : v i X r a 0.85
Abstract Pre-trained multilingual language models have become an important building block in multilingual natural language processing. 概要 事前学習された多言語言語モデルは、多言語自然言語処理において重要な構成要素となっている。 0.50
In the present paper, we investigate a range of such models to find out how well they transfer discourse-level knowledge across languages. 本稿では,言語間の談話レベルの知識の伝達方法を検討するために,そのようなモデルについて検討する。 0.74
This is done with a systematic evaluation on a broader set of discourse-level tasks than has been previously been assembled. これは、以前組み立てられたよりも幅広い談話レベルのタスクの体系的な評価によって行われる。 0.71
We find that the XLM-RoBERTa family of models consistently show the best performance, by simultaneously being good monolingual models and degrading relatively little in a zero-shot setting. XLM-RoBERTaファミリーは、優れたモノリンガルモデルであると同時に、ゼロショット設定で比較的劣化が少ないことで、常に最高の性能を示す。 0.66
Our results also indicate that model distillation may hurt the ability of cross-lingual transfer of sentence representations, while language dissimilarity at most has a modest effect. また, モデル蒸留が文表現の言語間移動を阻害する可能性も示唆した。
訳抜け防止モード: また, モデル蒸留により, 文表現の言語間移動が阻害される可能性が示唆された。 言語の違いはせいぜいささやかな効果がある。
0.66
We hope that our test suite, covering 5 tasks with a total of 22 languages in 10 distinct families, will serve as a useful evaluation platform for multilingual performance at and beyond the sentence level. 10の異なる家庭で合計22の言語で5つのタスクをカバーするテストスイートが、文レベルでの多言語パフォーマンスのための有用な評価プラットフォームになることを期待しています。 0.81
Introduction 1 Large-scale pre-trained neural language models have become immensely popular in the natural language processing (NLP) community in recent years (Devlin et al , 2019; Peters et al , 2018). はじめに 近年,自然言語処理(nlp)コミュニティでは,大規模事前学習型ニューラルネットワークモデルが広く普及している(devlin et al , 2019; peters et al , 2018)。 0.61
When used as contextual sentence encoders, these models have led to remarkable improvements in performance for a wide range of downstream tasks (Qiu et al , 2020). 文脈文エンコーダとして使用する場合、これらのモデルによって、幅広い下流タスク(qiu et al, 2020)のパフォーマンスが著しく向上した。 0.72
In addition, multilingual versions of these models (Devlin et al , 2019; Conneau and Lample, 2019) have been successful in transferring knowledge across languages by providing language-independent sentence encodings. さらに、これらのモデルの多言語バージョン(Devlin et al , 2019; Conneau and Lample, 2019)は、言語に依存しない文エンコーディングを提供することで、言語間での知識の伝達に成功している。 0.68
The general usefulness of pre-trained language models has been convincingly demonstrated thanks to persistent creation and application of evaluation datasets by the NLP community. NLPコミュニティによる評価データセットの作成と適用により,事前学習言語モデルの汎用性が実証された。 0.70
Discourse-level analysis is particularly interesting to study, given 談話レベルの分析は特に研究に興味深い 0.76
that many of the currently available models are trained with relatively short contexts such as pairs of adjacent sentences. 現在利用可能なモデルの多くは、隣接する文のペアのような比較的短い文脈で訓練されています。 0.70
Wang et al (2019) use a diverse set of natural language understanding (NLU) tasks to investigate the generality of the sentence representations produced by different language models. Wang et al (2019) は様々な自然言語理解(NLU)タスクを用いて、異なる言語モデルによって生成される文表現の一般性を調べる。 0.83
Hu et al (2020) use a broader set of tasks from across the NLP field to investigate the ability of multilingual models to transfer various types of knowledge across language boundaries. Hu et al (2020) は、言語境界を越えて様々な種類の知識を伝達する多言語モデルの能力を調べるために、NLP分野全体から幅広いタスクセットを使用している。
訳抜け防止モード: Hu et al (2020 ) は NLP 分野全体から幅広いタスクセットを使用する 言語境界を越えて様々な種類の知識を伝達する多言語モデルの能力について検討する。
0.89
Our goal in this paper is to systematically evaluate the multilingual performance on NLU tasks, particularly at the discourse level. 本稿では,nluタスク,特に談話レベルでの多言語性能を体系的に評価することを目的とする。
訳抜け防止モード: 本論文の目標は NLUタスクにおける多言語のパフォーマンスを、特に談話レベルで体系的に評価する。
0.85
This combines two of the most challenging aspects of representation learning: multilinguality and discourse-level analysis. これは表現学習の最も難しい2つの側面、多言語性と談話レベルの分析を組み合わせたものである。 0.60
A few datasets have been used for this purpose before, most prominently the XNLI evaluation set (Conneau et al , 2018) for Natural Language Inference (NLI), and recently also XQuAD (Artetxe et al , 2020) and MLQA (Lewis et al , 2020) for Question Answering (QA). とりわけ、自然言語推論(NLI)のためのXNLI評価セット(Conneau et al , 2018)や、最近では質問回答(QA)のためのXQuAD(Artetxe et al , 2020)やMLQA(Lewis et al , 2020)など、この目的のためにいくつかのデータセットが使用されている。 0.82
We substantially increase the breadth of our evaluation by adding three additional tasks: 3つの追加タスクを追加することで評価の幅を大幅に増やします。 0.58
1. Penn Discourse TreeBank (PDTB)-style implicit discourse relation classification on annotated TED talk subtitles in seven languages (Section 3.1.1) 1. Penn Discourse TreeBank (PDTB)-- Annotated TED talk subtitles in 7 languages (Section 3.1.1) 0.77
2. Rhetorical Structure Theory (RST)-style discourse relation classification with a custom set consisting of treebanks in six non-English languages (Section 3.1.2) 2. 修辞的構造理論(rst)スタイルの談話関係分類 : 6つの非英語言語における木銀行からなるカスタムセット(3.1.2) 0.80
3. Stance detection with a custom dataset in five 3. 5つのカスタムデータセットによる姿勢検出 0.84
languages (Section 3.1.3) We investigate the cross-lingual generalization capabilities of seven multilingual sentence encoders with considerably varying model sizes 言語(第3部) モデルサイズが異なる7つの多言語文エンコーダの言語間一般化能力について検討する。 0.71
英語(論文から抽出)日本語訳スコア
through their cross-lingual zero-shot performance1 which, in this context, refers to the evaluation scheme where sentence encoders are tested on the languages that they are not exposed to during training. クロスリンガルゼロショットパフォーマンス1(cross-lingual zero-shot performance1)は、この文脈では、トレーニング中に公開されない言語で文エンコーダをテストするための評価スキームを指す。 0.73
The complied test suite consists of five tasks, covering 22 different languages in total. 準拠したテストスイートは5つのタスクで構成され、合計22の異なる言語をカバーする。 0.66
We specifically focus on zero-shot transfer scenario where a sufficient amount of annotated data to fine-tune a pre-trained language model is assumed to be available only for one language. 具体的には,事前学習した言語モデルを1つの言語でのみ利用できると仮定して,十分な量の注釈付きデータを微調整する,ゼロショット転送シナリオに着目する。 0.68
We believe that this is the most realistic scenario for a great number of languages; therefore, zero-shot performance is the most direct way of assessing cross-lingual usefulness in a large scale. これは多数の言語において最も現実的なシナリオであると考えています。したがって、ゼロショットのパフォーマンスは、大規模な言語間の有用性を評価する最も直接的な方法です。 0.67
Our contributions are as follows: (i) we provide a detailed analysis of a wide range of sentence encoders on large number of probing tasks, several of which have not previously been used with multilingual sentence encoders despite their relevancy, (ii) we provide suitably pre-processed versions of these datasets to be used as a multilingual benchmark for future work with strong baselines provided by our evaluation, (iii) we show that the zero-shot performance on discourse level tasks are not correlated with any kind of language similarity and hard to predict, (iv) we show that knowledge distillation may selectively destroy multilingual transfer ability in a way that harms zero-shot transfer, but is not visible during evaluations where the models are trained and evaluated with the same language. Our contributions are as follows: (i) we provide a detailed analysis of a wide range of sentence encoders on large number of probing tasks, several of which have not previously been used with multilingual sentence encoders despite their relevancy, (ii) we provide suitably pre-processed versions of these datasets to be used as a multilingual benchmark for future work with strong baselines provided by our evaluation, (iii) we show that the zero-shot performance on discourse level tasks are not correlated with any kind of language similarity and hard to predict, (iv) we show that knowledge distillation may selectively destroy multilingual transfer ability in a way that harms zero-shot transfer, but is not visible during evaluations where the models are trained and evaluated with the same language. 0.89
2 Background The standard way of training a multilingual language model is through a large non-parallel multilingual corpora, e g Wikipedia articles, where the models are not provided with any explicit mapping across languages which renders cross-lingual performance of such models puzzling. 背景 多言語言語モデルのトレーニングの標準的な方法は、wikipediaの記事のように、大きな非並列多言語コーパスを通じて行われる。
訳抜け防止モード: 背景 多言語言語モデルのトレーニングの標準的な方法は、大きな非並列多言語コーパスを通じて行われる。 モデルは言語をまたいだ明示的なマッピングが提供されない。 renders cross-lingual performance of such model puzzling。
0.60
Pires et al (2019) and Wu and Dredze (2019) are the earliest studies to explore that puzzle by trying to uncover the factors that give multilingual BERT (henceforth, mBERT) its cross-lingual capabilities. Pires et al (2019) と Wu and Dredze (2019) は、多言語BERT(henceforth, mBERT)の言語間能力を与える要因を明らかにすることによって、このパズルを探求する最も初期の研究である。 0.72
Pires et al (2019) perform a number of probing tasks and hypothesize that the shared sentence pieces across languages gives mBERT its generalization ability by forcing other pieces to be mapped into the same space. pires et al (2019) は、言語間で共有された文片が、他の要素を同じ空間にマッピングさせることで、mbert の一般化能力を与えると仮定した。
訳抜け防止モード: Pires et al (2019 )はいくつかの調査タスクを実行している 言語間で共有された文章が mBERT その一般化能力は 他の部品を同じ空間にマッピングさせました
0.77
Similarly, Wu and Dredze (2019) 同様に、Wu and Dredze(2019年) 0.78
1In the remainder of the paper, cross-lingual zero-shot performance is simply referred as zero-shot performance for brevity. 1 論文の残りの部分では,クロスリンガルなゼロショットパフォーマンスを簡潔なゼロショットパフォーマンスと呼ぶ。 0.70
Similarly, source language performance denotes the performance of the respective model on the test set of the training language. 同様に、ソース言語のパフォーマンスは、トレーニング言語のテストセットにおける各モデルのパフォーマンスを表す。 0.88
evaluate the performance of mBERT in five tasks and report that while mBERT shows a strong zeroshot performance, it also retains language-specific information in each layer. 5つのタスクでmBERTの性能を評価し、mBERTは強いゼロショット性能を示すが、各レイヤに言語固有の情報を保持する。 0.68
Chen et al (2019a) proposes a benchmark to evaluate sentence encoders specifically on discourse level tasks. Chen et al (2019a)は、談話レベルタスクに特化して文エンコーダを評価するベンチマークを提案する。 0.59
The proposed benchmark consists of discourse relation classification and a number of custom tasks such as finding the correct position of a randomly moved sentence in a paragraph or determining if a given paragraph is coherent or not. 提案するベンチマークは、談話関係の分類と、段落内でランダムに移動された文の正しい位置を見つける、または与えられた段落が一貫性があるかどうかを判断するなど、多くのカスタムタスクからなる。 0.59
The benchmark is confined to English, hence, only targets monolingual English models. ベンチマークは英語に限定されているため、単言語英語モデルのみを対象としている。 0.54
Two very recent studies, XTREME (Hu et al , 2020) and XGLUE (Liang et al , 2020), constitute the first studies on the cross-lingual generalization abilities of pre-trained language models via their zero-shot performance. 最近の2つの研究、XTREME (Hu et al , 2020) と XGLUE (Liang et al , 2020) は、ゼロショット性能による事前学習言語モデルの言語間一般化能力に関する最初の研究である。 0.83
The tasks in both studies largely overlap, where XTREME serves as cross-lingual benchmark consisting of well-known datasets, e g XNLI, XQuAD. XTREMEは、よく知られたデータセット、例えばXNLI、XQuADからなる言語間ベンチマークとして機能する。
訳抜け防止モード: 両研究の課題は、主に重複している。 XTREMEは、よく知られたデータセット、例えばXNLI、XQuADからなるクロスランガルベンチマークとして機能する。
0.60
On the other hand, while covering the most of XTREME tasks2, XGLUE offers new datasets which either focus on the relation between a pair of inputs, such as web page–query matching, or on text generation via question/news title generation. 一方、XTREMEタスク2の大部分をカバーする一方で、XGLUEは、ウェブページ-クエリマッチングや質問/ニュースタイトル生成によるテキスト生成など、入力のペア間の関係に焦点を当てた新しいデータセットを提供する。 0.79
In addition to the mBERT and certain XLM and XLM-R versions, XTREME includes MMTE (Arivazhagan et al , 2019) whereas XGLUE evaluates Unicoder (Huang et al , 2019) among its baselines. mBERTとXLMとXLM-Rのバージョンに加えて、XTREMEはMMTE(Arivazhagan et al , 2019)を含むが、XGLUEはUnicoder(Huang et al , 2019)をベースラインとして評価している。 0.72
3 Cross-lingual Discourse-level Evaluation 3言語横断談話 評価 0.71
In discourse research, sentences/clauses are not understood in isolation but in relation to one another. 談話研究では、文/語句は孤立して理解されておらず、互いに関連している。 0.54
The semantic interactions between these units are usually regarded as the backbone of coherence in various prominent discourse theories including that underlying the Penn Discourse TreeBank (PDTB) (Prasad et al , 2007), and Rhetorical Structure Theory (RST) (Mann and Thompson, 1988) used in the RST Discourse Treebank (Carlson and Marcu, 2001). これらの単位間の意味的相互作用は、通常、ペン・ディスコース・ツリーバンク(PDTB)の基礎となっている(Prasad et al , 2007)や、RSTディスコース・ツリーバンク(Carlson and Marcu, 2001)で使用されるレトリック構造理論(RST)など、様々な著名な談話理論におけるコヒーレンスのバックボーンと見なされる。 0.80
Modelling such interactions requires an understanding that is beyond sentence-level and, from this point-of-view, determining any kind of relation between sentences/clauses can be associated with discourse. このような相互作用のモデル化には、文レベルを超えた理解が必要であり、この観点から、文/節間のあらゆる種類の関係を決定することは、談話と関連付けることができる。 0.54
Although paraphrase detection or natural language inference may not strike as discourse-level tasks at first glance, they both deal with semantic 言い換え検出や自然言語推論は、一見すると談話レベルのタスクとはなり得ないが、どちらも意味論を扱う。 0.60
2Except parallel sentence retrieval tasks. 2 並列文検索タスクを除く。 0.60
英語(論文から抽出)日本語訳スコア
relations between sentences. Tonelli and Cabrio (2012) show that textual entailment is, in fact, a subclass of Restatement relations of the PDTB framework whereas Nie et al (2019) report an increase in discourse relation classification accuracy when NLI is used as the intermediate fine-tuning task. 文間の関係。 Tonelli and Cabrio (2012) は、テキストエンテーメントは、実際にはPDTBフレームワークのRestatement Relationのサブクラスであることを示しているが、Nie et al (2019) は、NLIを中間微調整タスクとして使用すると、談話関係分類の精度が増加することを報告している。 0.62
In a similar vein, a stance against a judgement, Favor or Against, can be seen as CONTINGENCY: Cause: reason and COMPARISON: Contrast in PDTB; Explanation and Antithesis in RST, respectively. 同様に、判断に対する姿勢は、ConttingENCY: Cause: reason と COMPARISON: Contrast in PDTB、Explaination と Antithesis in RST と見ることができる。 0.60
Therefore, these NLU tasks can be seen as special subsets of discourse relation classification; only a model with a good understanding beyond individual sentences can be expected to solve these tasks. したがって、これらのNLUタスクは、談話関係分類の特別なサブセットと見なすことができ、個々の文を超えて理解されたモデルのみがこれらのタスクを解決することを期待できる。
訳抜け防止モード: したがって、これらのNLUタスクは、談話関係分類の特別な部分集合と見なすことができる。 個々の文章を超えて 理解されたモデルだけが これらの課題を解決できる
0.73
Finally, since question answering requires an understanding on discourse level in order to be solved, so we also believe classifying this as a discourse-level task should be uncontroversial. 最後に、問合せの解答には談話レベルの理解が必要であるため、談話レベルの課題として分類するのも議論の余地がある。 0.69
3.1 Tasks & Datasets In this section, we present our task suite and the datasets used for training and zero-shot evaluation. 3.1 タスクとデータセット この節では、トレーニングやゼロショット評価に使用されるタスクスイートとデータセットを紹介します。 0.69
For the sake of clarity, we name each task after the dataset used for training. 明確にするために、トレーニングに使用されるデータセットに因んで各タスクを命名する。 0.72
3.1.1 Implicit Discourse Relation Classification (PDTB) 3.1.1 Implicit Discourse Relation Classification (PDTB) 0.62
Implicit discourse relations hold between adjacent sentence pairs but are not explicitly signaled with a connective such as because, however. 暗黙の談話関係は、隣接する文対の間に保持されるが、しかしながら、接続性によって明示的にシグナルを伝達されない。 0.55
Implicit discourse relation classification is the task of determining the sense conveyed by these adjacent sentences, which can be easily inferred by readers. 暗黙の談話関係分類は、これらの隣接した文によって伝達される感覚を決定するタスクであり、読者が容易に推測できる。 0.68
Classifying implicit relations constitutes the most challenging step of shallow discourse parsing (Xue et al , 2016). 暗黙的関係の分類は、浅い談話解析(xue et al , 2016)の最も難しいステップである。 0.68
The training is performed on PDTB3 (Webber et al , 2016) where sections 2–20, 0–1 are used for training and development respectively. トレーニングはPDTB3(Webber et al , 2016)で行われ、それぞれ2–20, 0–1がトレーニングと開発に使用される。 0.81
The zeroshot evaluation is performed on the TED-MDB corpus (Zeyrek et al , 2019)3, which is a PDTB-style annotated parallel corpus consisting of 6 TED talk transcripts, and the recent Chinese annotation effort on TED talk transcripts that however are mostly not parallel to TED-MDB (Long et al , 2020). TED-MDBコーパス(Zeyrek et al , 2019)3では6つのTEDトークトランスクリプトからなるPDTBスタイルのアノテート並列コーパスでゼロショットの評価が行われ、最近のTEDトークトランスクリプトに対する中国のアノテーションはTED-MDBとほとんど平行ではない(Long et al , 2020)。 0.75
Due to the small size of the test sets, we confine ourselves to the top-level senses: Contingency, Comparison, Expansion, Temporal which is also the most common setting for this task. テストセットが小さいため、私たちは、このタスクの最も一般的な設定である、偶発性、比較、拡張、テンポラリといったトップレベルの感覚に自分自身を絞り込みます。 0.66
Despite the limited size of TED-MDB, zero-shot transfer is possible and TED-MDBのサイズは限られているが、ゼロショット転送が可能。 0.61
3https://github.com/ MurathanKurfali/Ted- MDB- 3https://github.com/ MurathanKurfali/Ted- MDB 0.30
Annotation yields meaningful results as shown in (Kurfalı and ¨Ostling, 2019). 注釈 有意義な結果が得られる(kurfalı and sostling, 2019)。 0.67
In total, seven languages are evaluated in this task: English, German, Lithuanian4, Portuguese, Polish, Russian and Chinese. 英語、ドイツ語、リトアニア語、ポルトガル語、ポーランド語、ロシア語、中国語の7つの言語がこのタスクで評価されている。 0.64
3.1.2 Rhetorical Relation Classification 3.1.2 修辞関係分類 0.58
(RST) Rhetorical relations are just another name for discourse relations but this term is most commonly associated with Rhetorical Structure Theory (RST) (Mann and Thompson, 1988). (RST) 修辞関係は単なる談話関係の別称であるが、この用語は一般にRST(Rhetorical Structure Theory)と結びついている(Mann and Thompson, 1988)。 0.81
Similar to PDTB’s discourse relations, rhetorical relations also denote links between discourse units, but are considerably different from the former. PDTBの談話関係と同様、修辞関係も談話単位間の関係を示すが、前者とはかなり異なる。
訳抜け防止モード: PDTBの談話関係と同様に、修辞関係は談話単位間の関係も表している。 でも 前とはかなり違う。
0.67
The difference largely stems from the take of the respective theories on the structure of the discourse. この違いは、談話の構造に関する各理論の取扱いに大きく起因している。 0.73
RST conceives discourse as one connected tree-shaped structure assuming hierarchical relations among the discourse relations. RSTは、談話関係の階層的関係を仮定する1つの連結樹形構造として談話を考える。 0.58
On the other hand, PDTB does not make any claims regarding the structure of the discourse and annotates discourse relations only in a local context (i.e. 一方、PDTBは談話の構造に関する主張を一切行わず、談話関係を局所的な文脈(すなわち)でのみ注釈付けする。 0.63
adjacent clauses/sentences) without assuming any relation on higher levels. 隣接する節/関係) より高いレベルでのいかなる関係も仮定せずに。 0.54
Hence, evaluation on RST and PDTB relations can be seen as complementary to each other as the former focuses on both global and local discourse structure whereas PDTB focuses only on local structure. したがって、RSTとPDTBの関係性の評価は、PDTBが局所構造にのみ焦点をあてているのに対して、前者はグローバルとローカルの両方に焦点をあてているため、相互に相補的なものと見なすことができる。
訳抜け防止モード: したがって、RTTとPDTBの関係性の評価は相互に相補的であると見なすことができる。 前者はグローバルとローカルの両方の談話構造に焦点をあてるが、PDTBはローカル構造にのみ焦点をあてる。
0.65
We use English RST-DT (Carlson and Marcu, 2001) for training where a randomly selected 35 documents are reserved for development. RST-DT (Carlson and Marcu, 2001) を用いて、ランダムに選択された35の文書が開発用に予約されているトレーニングを行う。 0.64
However, unlike PDTB, there is not any compact parallel RST corpus; RST annotations across languages usually differ from each other in several ways. しかし、pdtbとは異なり、コンパクトな並列rstコーパスは存在せず、言語間のrstアノテーションは通常、いくつかの点で異なる。 0.66
Therefore, we follow Braud et al (2017) and create a custom multilingual corpus for the zero-shot experiments which consists of the following languages: Basque (Iruskieta et al , 2013), Brazilian Portuguese (Cardoso et al , 2011; Collovini et al , 2007; Pardo and Seno, 2005), Chinese (Cao et al , 2018), German (Stede, 2004), Spanish (Da Cunha et al , 2011), Russian (Pisarevskaya et al , 2017). そこで、Braud et al (2017)に従い、ゼロショット実験のためのカスタム多言語コーパスを作成し、バスク語 (Iruskieta et al , 2013)、ブラジルポルトガル語 (Cardoso et al , 2011; Collovini et al , 2007; Pardo and Seno, 2005)、中国語 (Cao et al , 2018)、ドイツ語 (Stede, 2004)、スペイン語 (Da Cunha et al , 2011)、ロシア語 (Pisarevskaya et al , 2017) からなる。 0.74
We perform a normalization step on each treebank which includes binarization of non-binary trees and mapping all relations to 18 coarse grained classes described in (Carlson and Marcu, 2001). 非バイナリツリーの双対化を含む各ツリーバンクの正規化ステップを実行し,すべての関係を18の粗粒度クラスにマッピングする(carlson and marcu, 2001)。 0.81
The normalization step is performed via the pre-processing scripts of (Braud et al , 2017). 正規化ステップは (Braud et al , 2017) の前処理スクリプトを通じて実行される。 0.70
Due to memory constraints, we limit the sequence lengths to 384. メモリの制約のため、シーケンス長を384に制限する。 0.68
Hence, we only keep those relations where the first discourse unit is shorter than 150 words so that both units can 4Lithuanian is the latest addition to the Ted-MDB corpus, したがって、第1の談話ユニットが150語未満で、両方のユニットが4リトアニア語にできるような関係は、Ted-MDBコーパスの最新の追加である。 0.76
as documented in (Oleskeviciene et al , 2018). 記録されているように (Oleskeviciene et al , 2018)。 0.63
英語(論文から抽出)日本語訳スコア
be equally represented which lead to omission of only 5% of all non-English relations. 対等に表現すると、すべての非英語関係の5%しか欠落しない。 0.65
3.1.3 Stance Detection (X-Stance) The stance detection is task of determining the attitude expressed in a text towards a target claim. 3.1.3 姿勢検出(x-stance) 姿勢検出は、対象クレームに対するテキストで表現された姿勢を決定するタスクである。 0.74
For experiments, we mainly use the X-stance corpus which consists of 60K answers to 150 questions concerning politics in German, Italian and French (Vamvas and Sennrich, 2020). 実験では、主にXスタンスコーパスを使用し、ドイツ語、イタリア語、フランス語(Vamvas and Sennrich, 2020)の政治に関する150の質問に対して60Kの回答からなる。 0.69
Unlike other tasks, we select German as the training language for stance detection as it is the largest language in X-Stance. 他のタスクとは異なり、Xスタンスで最大の言語であるため、姿勢検出のためのトレーニング言語としてドイツ語を選択します。 0.62
Following the official split, we use the German instances in the training and development sets during fine-tuning and non-German instances in the test set for evaluation. 公式な分割の後、テストセットの微調整と非ドイツインスタンスのトレーニングと開発セットにドイツインスタンスを使用し、評価を行う。 0.72
Furthermore, we enrich the scope of our zero-shot evaluation by two additional dataset, one in English (Chen et al , 2019b) and other one in Chinese (Yuan et al , 2019), which also consist of stance annotated claim–answer pairs, despite in different domains. さらに、英語(Chen et al , 2019b)と中国語(Yuan et al , 2019)の2つの追加データセットによるゼロショット評価の範囲を拡大しています。
訳抜け防止モード: さらに、2つの追加データセットによるゼロショット評価の範囲を拡大します。 1つは英語( Chen et al, 2019b)、もう1つは中国語( Yuan et al, 2019)である。 これはまた、異なるドメインに拘わらず、アノテートされたクレーム – 回答ペアからなる。
0.60
3.1.4 Natural Language Inference (XNLI) Natural language inference (NLI) is the task of determining whether a premise sentence entails, contradicts or is neutral to a hypothesis sentence. 3.1.4 自然言語推論 (XNLI) 自然言語推論 (NLI) は、前提文が仮説文に関係するか、矛盾するか、中立であるかを決定するタスクである。 0.73
MultiNLI and the mismatched part of the development data (Williams et al , 2018) are used for training and validation, respectively. MultiNLIと開発データのミスマッチ部分(Williams et al , 2018)はそれぞれ、トレーニングと検証に使用されている。 0.74
The evaluation is performed on the test sets of the XNLI (Conneau et al , 2018) corpus which covers the following 14 languages in addition to English: French, Spanish, German, Greek, Bulgarian, Russian, Turkish, Arabic, Vietnamese, Thai, Chinese, Hindi, Swahili and Urdu. この評価は、英語、フランス語、スペイン語、ドイツ語、ギリシャ語、ブルガリア語、ロシア語、トルコ語、アラビア語、ベトナム語、タイ語、中国語、ヒンディー語、スワヒリ語、ウルドゥー語の14の言語をカバーするxnli(conneau et al , 2018)コーパスのテストセットで実施されている。 0.65
3.1.5 Question Answering (XQuAD) Question answering is the task of identifying span in a paragraph which answers to a question. 3.1.5 質問回答 (XQuAD) 質問応答は、質問に答える段落内のスパンを特定するタスクである。 0.85
We use the SQuAD v1.1 (Rajpurkar et al , 2016) for training. トレーニングにはSQuAD v1.1(Rajpurkar et al , 2016)を使用します。 0.78
We evaluate the models on the popular XQuAD dataset which contains the translation of SQuAD v1.1 development set into ten languages (Artetxe et al , 2020): Spanish, German, Greek, Russian, Turkish, Arabic, Vietnamese, Thai, Chinese, and Hindi. 我々は、SQuAD v1.1開発セットを10言語(Artetxe et al , 2020):スペイン語、ドイツ語、ギリシャ語、ロシア語、トルコ語、アラビア語、ベトナム語、タイ語、中国語、ヒンディー語)に翻訳した人気XQuADデータセットのモデルを評価した。 0.73
3.2 Languages The proposed task suite covers the following 22 languages representing 10 language families: IndoEuropean (Bulgarian bg, German de, Greek el, English en, Spanish es, French fr, Hindi hi, Italian 3.2言語 提案されているタスクスイートは、以下の22言語をカバーする: indoeuropean (bulgarian bg, german de, greek el, english en, spanish es, french fr, hindi hi, italian 0.81
it, Lithuanian lt, Polish pl, Portuguese pt, Russian ru, Urdu ur), Afroasiatic (Arabic ar), Basque (eu), Japonic (Japanese ja), Koreanic (Korean ko), NigerCongo (Swahili sw), Tai-Kadai (Thai th), Turkic (Turkish tr), Austroasiatic (Vietnamese vi), SinoTibetan (Chinese zh). リトアニア語 lt, ポーランド語 pl, Portuguese pt, Russian ru, Urdu ur), Afroasiatic (アラビア語 ar), Basque (eu), Japonic (日本語 ja), Koreanic (Korean ko), NigerCongo (Swahili sw), Tai-Kadai (タイ語 th), Turkic (トルコ語 tr), Austroasiatic (ベトナム語 vi), SinoTibetan (中国語 zh)。 0.79
Seven of these languages are evaluated in at least three different tasks. これらの言語のうち7つは少なくとも3つの異なるタスクで評価される。 0.61
4 Experiments We evaluate a wide range of multilingual sentence encoders which learn contextual representations. 4つの実験 文脈表現を学習する多言語文エンコーダの評価を行った。 0.66
The evaluated models represent a broad spectrum of model sizes, in order to allow practitioners to estimate the trade-off between model size and accuracy. 評価されたモデルは、モデルサイズと精度の間のトレードオフを推定できるように、モデルサイズの幅広いスペクトルを表す。 0.81
4.1 Sentence Encoders The sentence encoders evaluated in the current paper are described in detailed below, and their characteristics summarized in Table 2. 4.1文エンコーダ 現在の論文で評価された文エンコーダを以下に詳述し、それらの特徴を表2にまとめた。 0.73
Multilingual BERT (mBERT): mBERT is a transformer-based language model trained with masked language modelling and next sentence prediction objectives similar to the original English BERT model (Devlin et al , 2019)5. mBERT is pretrained on the Wikipedias of 104 languages with a shared word piece vocabulary. mBERT (Multilingual BERT): mBERTは、マスク付き言語モデリングと次の文予測目的をトレーニングしたトランスフォーマーベースの言語モデルで、オリジナルの英語のBERTモデル(Devlin et al , 2019)5と似ている。
訳抜け防止モード: マルチ言語BERT (mBERT ) : mBERTは、マスキング言語モデリングで訓練されたトランスフォーマーベース言語モデルである そして次の文予測対象は、もともとの英語 BERT モデル (Devlin et al,) に類似している。 2019)5 .mBERT は 104 言語のウィキペディアで事前訓練されている。
0.85
As discussed in Section 2, its input is not marked with any languagespecific signal and mBERT does not have any objective to encode different languages in the same space. 第2節で述べられているように、入力は言語固有の信号でマークされず、mBERTは異なる言語を同じ空間でエンコードする目的を持たない。 0.77
distilmBERT: distilmBERT is a compressed version of mBERT obtained via model distillation (Sanh et al , 2019). distilmBERT: distilmBERTはモデル蒸留により得られるmBERTの圧縮版である(Sanh et al , 2019)。 0.87
Model distillation is a compression technique where a smaller model, called student, learns to mimic the behavior of the larger model, called teacher, by matching its output distribution. モデル蒸留は、学生と呼ばれる小さなモデルが、出力分布を一致させることで、教師と呼ばれるより大きなモデルの振る舞いを模倣することを学ぶ圧縮技術である。 0.78
distilmBERT is claimed to reach 92% of mBERT’s performance on XNLI while being two times faster and 25% smaller.6 However, to the best of our knowledge, there is not any comprehensive analysis of distilmBERT’s zero-shot performance. distilmBERTは、XNLI上でのmBERTのパフォーマンスの92%に達し、より2倍速く25%小さい。
訳抜け防止モード: distilmBERT は XNLI 上での mBERT のパフォーマンスの 992 % に達すると言われている 2倍速く 25%小さい しかしながら、私たちの知る限りでは、 distilmBERT のゼロショットパフォーマンスに関する包括的な分析は行われていません。
0.82
XLM: XLM is a transformer-based language model aimed at extending BERT to cross-lingual setting (Conneau and Lample, 2019). XLM: XLMは、BERTを言語間設定に拡張することを目的としたトランスフォーマーベースの言語モデルである(Conneau and Lample, 2019)。 0.70
To this end, 5https://github.com/ google-research/ この目的のために 5https://github.com/ google-research/ 0.47
bert/blob/master/mul tilingual.md bert/blob/master/mul tilingual.md 0.24
6https://github.com/ huggingface/ transformers/tree/ma ster/examples/ distillation 6https://github.com/ huggingface/ transformers/tree/ma ster/examples/ 蒸留 0.30
英語(論文から抽出)日本語訳スコア
Training data RST DT PDTB3 研修データ RST DT PDTB3 0.83
Task RST PDTB X-stance X-stance-DE NLI Q/A Task RST PDTB X-stance-DE NLI Q/A 0.68
MultiNLI Squad 1.1 MultiNLI Squad 1.1 0.78
|train| 17K 17K 33K 433K 100K |train| 17K 17K 33K 433K 100K 0.59
|test| 603 – 6,902 194 – 1,366 1,446 – 6,153 テスト| 603 – 6,902 194 – 1,366 1,446 – 6,153 0.67
5,010 1,190 5,010 1,190 0.50
#langs metric #langs メートル法 0.73
6 7 4 14 11 6 7 4 14 11 0.85
acc F1 F1 acc acc f1 f1 acc 0.78
ex. match/F1 元カレ。 match/F1 0.47
Table 1: Summary of the datasets used in experiments. 表1:実験で使用されるデータセットの概要。 0.87
”Corpus name-(lang.code)” refers to the part of the corpus belonging to the respective language. ”Corpus name-(lang.code)”は、それぞれの言語に属するコーパスの一部を指す。 0.77
#langs refers to the number of zero-shot languages, excluding the training language. #langsは、トレーニング言語を除くゼロショット言語の数を指す。 0.74
XLM increases the shared vocabulary across languages via shared byte pair encoding (BPE) vocabulary. XLMは、共有バイトペア符号化(BPE)語彙を介して、言語間での共有語彙を増加させる。 0.60
Moreover, unlike BERT, the input sentences are accompanied by language embeddings. さらに、BERTとは異なり、入力文には言語埋め込みが伴っている。 0.60
There are several different XLM models which differ at either number of training languages or training objectives. XLMモデルには、トレーニング言語数やトレーニング目的数で異なるいくつかの異なるモデルがある。 0.78
In the current study, we consider the following three: 本研究では,以下の3つを考察する。 0.86
BERT, trained on 2.5 TB of cleaned CommonCrawl data covering 100 languages (Conneau et al , 2020). BERTは、100言語をカバーするクリーニングされたCommonCrawlデータの2.5TBでトレーニングされている(Conneau et al , 2020)。 0.61
There are two released XLM-R models, XLMRbase and XLM-Rlarge, named after the BERTarchitecture they are based on. XLM-R には XLMRbase と XLM-Rlarge という2つのモデルがある。
訳抜け防止モード: XLM - Rモデル、XLMRbase、XLM - Rlarge の2種類がリリースされた。 BERTarchitectureから名付けられた。
0.72
Compared to original multilingual-BERT, XLM-RoBERTa models have a considerably larger vocabulary size which results in larger models. XLM-RoBERTaモデルは、元来の多言語BERTと比較して、より大きな語彙サイズを持ち、結果としてより大きなモデルになる。 0.58
• XLM-mlm: The XLM model which is trained with BERT’s masked language model (MLM) objective on the Wikipedias of the 15 XNLI languages. • XLM-mlm:15のXNLI言語のウィキペディア上でBERTの仮面言語モデル(MLM)を目標としたXLMモデル。 0.75
• XLM-tlm: In addition to the MLM, this XLM model has a novel training objective which is called Translation Language Model (TLM). • XLM-tlm: MLMに加えて、このXLMモデルは翻訳言語モデル(TLM)と呼ばれる新しい訓練目標を持つ。 0.84
In TLM, the model receives a pair of translationally equivalent sentences and tries to predict the masked word by attending both sentences. TLMでは、モデルが翻訳的に等価な文のペアを受け取り、両方の文に従えばマスキングされた単語を予測しようとする。 0.61
Hence, the model tries to predict the masked word by looking at its context in another language which encourages representations of different languages to be aligned. したがって、モデルは、異なる言語の表現の整合を奨励する他の言語で、その文脈を観察することで、マスクされた単語を予測しようとする。 0.70
TLM is shown to lead a significant increase on XNLI (Conneau and Lample, 2019). TLMはXNLI(Conneau and Lample, 2019)の大幅な増加を導いている。 0.78
XLM-tlm is also trained for 15 XNLI languages but only on parallel data. XLM-tlmは15のXNLI言語でも訓練されている。 0.77
• XLM-100: This version is trained, •XLM-100:このバージョンはトレーニングされている。 0.64
like mBERT, on Wikipedia data covering 100 languages using only an MLM objective. mBERTのように、100言語をカバーするウィキペディアのデータでは、MLMの目的のみを使用します。 0.58
Unlike previous XLM models, this version does not utilize language embeddings. 以前のXLMモデルとは異なり、このバージョンは言語埋め込みを使わない。 0.80
XLM-RoBERTa (XLM-R): XLM-RoBERTa is not an XLM model, in spite of what its name suggests. XLM-RoBERTa (XLM-R): XLM-RoBERTaはXLMモデルではない。
訳抜け防止モード: XLM - RoBERTa (XLM - R ) : XLM - RoBERTaはXLMモデルではない。 名前の通りだが
0.89
XLM-R does not use language embeddings, applies sentence-piece tokenization instead of BPE and is not trained on a parallel corpus unlike the XLM-tlm. XLM-Rは言語埋め込みを使用しず、BPEの代わりに文片トークン化を適用しており、XLM-tlmと異なり並列コーパスで訓練されていない。 0.63
Instead, it is a RoBERTa model (Liu et al , 2019), which is an optimized version of 代わりに、RoBERTaモデル(Liu et al , 2019)が最適化されたバージョンである。
訳抜け防止モード: 代わりに、RoBERTaモデル(Liu et al, 2019)である。 これは最適化されたバージョンで
0.84
4.2 Experimental Setup A summary of the datasets used in the experiments is provided in Table 1. 4.2 実験セットアップ 実験で使用されるデータセットの要約は表1に記載されている。 0.83
Except PDTB, all datasets are publicly available. pdtbを除くすべてのデータセットが公開されている。 0.58
As stated earlier, the training language is English for all tasks except stance detection where German is preferred due the size of the available data. 前述のように、トレーニング言語は、利用可能なデータのサイズによってドイツ語が好ましいスタンス検出を除いて、すべてのタスクで英語である。 0.73
In the spirit of real zeroshot transfer, the validation sets only consist of instances in the training language; hence, no crosslingual information whatsoever is utilized during training/model selection. 実ゼロショット転送の精神では、検証セットはトレーニング言語のインスタンスのみで構成されており、トレーニング/モデルの選択において、言語間情報を利用することはない。 0.71
For the evaluation metrics, we stick to the default metrics of each task (Table 1). 評価指標については、各タスクのデフォルトメトリクスに固執する(表1)。 0.64
We set the sequence length to 384 for question answering and RST relation classification; to 250 for stance detection and to 128 for the remaining tasks. 質問応答とrst関係分類では,シーケンス長を384に設定し,姿勢検出では250に,残りのタスクでは128に設定した。 0.74
At evaluation time, we keep the same configuration. 評価時には、同じ設定を保持します。 0.68
For all models, adam epsilon is set to 1e-8 and maximum gradient norm to 1.0. すべてのモデルに対して、アダム・エプシロンは1e-8、最大勾配ノルムは1.0と設定されている。 0.49
The learning rate of 2 × 10−5 is used for all the models except XLM-R-large and XLM-100 where it is set to 5 × 10−6. 2×10−5の学習率は、xlm-r-largeとxlm-100を除く全てのモデルで5×10−6に設定されている。 0.66
We adopt the standard fine-tuning approach and fine-tune all models for 4 epochs. 標準の微調整アプローチを採用し、4つのエポックに対してすべてのモデルを微調整する。 0.47
We do not apply any early stopping and use the model with the best validation performance during zero-shot experiments. ゼロショット実験では、早期停止を適用せず、最高の検証性能を持つモデルを使用する。 0.73
All tasks are implemented using Huggingface’s Transformers library (Wolf et al , 2019). すべてのタスクはHuggingfaceのTransformersライブラリを使って実装されている(Wolf et al , 2019)。 0.75
As fine-tuning procedure is known to show high variance on small training datasets, all models are run for 4 times with different seeds and the average performance is reported. 微調整手順は、小さなトレーニングデータセットで高いばらつきを示すことが知られているため、すべてのモデルは異なる種で4回実行され、平均性能が報告される。 0.68
For XLM and XLM-tlm models, we fall back to English lan- XLMおよびXLM-tlmモデルの場合、英語のlanにフォールバックする 0.77
英語(論文から抽出)日本語訳スコア
Model distilmBERT mBERT XLM-mlm XLM-tlm XLM-100 XLM-Rbase XLM-Rlarge XLM-mlm XLM-tlm XLM-100 XLM-Rbase XLM-Rlarge 0.62
Langs Parameter count Vocab. Langsパラメータカウント Vocab。 0.73
size 104 104 15 15 100 100 100 size 104 104 15 15 100 100 100 0.85
134M 177M 250M 250M 570M 270M 550M 134M 177M 250M 570M 270M 550M 0.71
30K 30K 95K 95K 200K 250K 250K 30K 30K 95K 95K 200K 250K 250K 0.63
# of layers 6 12 12 12 16 12 24 #レイヤ 6 12 12 12 16 12 24 0.62
Table 2: The characteristics of the sentence encoders evaluated in the experiments 表2:実験で評価された文エンコーダの特性 0.74
Model-wise analysis The ranking of the encoders displays relatively little variation across tasks, with XLM-Rlarge exhibiting the best zeroshot performance across all tasks by outperforming the second best model (XLM-Rbase) by 5.98%. モデルワイド分析 XLM-Rlargeは、第2のベストモデル(XLM-Rbase)を5.98%上回ることで、すべてのタスクで最高のゼロショット性能を示す。 0.67
distillmBERT, on the other hand, fails to match the performance of other encoders.7 一方 distillmBERT は、他のエンコーダのパフォーマンスにマッチしない。 0.57
The Translation Language Model (TLM) objective is proved to be a better training objective than MLM by consistently outperforming the vanilla XLM in all tasks. 翻訳言語モデル(TLM)の目的は、全てのタスクにおいてバニラXLMを一貫して上回り、MLMよりも優れた訓練目標であることが証明されている。
訳抜け防止モード: 翻訳言語モデル(TLM)の目的が証明される MLMよりも優れた訓練目標になる すべてのタスクにおいて、バニラXLMを一貫して上回ります。
0.76
XLM-tlm outperforms XLM100 on XNLI languages as well which is possibly because of the ‘curse of multilinguality’ (Conneau et al , 2020), the degradation of the overall performance in proportion to the number of languages in the training. XLM-tlmはXNLI言語でXLM100より優れており、これはおそらく「多言語性の計算」(Conneau et al , 2020)、訓練中の言語数に比例した全体的なパフォーマンスの低下によるものである。 0.85
However, training setting (e g training data, hyperparameters) outplays the ‘curse of multilinguality’ as XLM-Rbase clearly outperforms XLM-tlm even on XNLI languages. しかしながら、トレーニング設定(例えば、トレーニングデータ、ハイパーパラメータ)は、XLM-RbaseがXNLI言語でも明らかにXLM-tlmを上回っているため、'多言語性の曲線'を上回ります。 0.62
It would be interesting to see how an XLM-R trained with TLM objective on small set of languages, e g XNLI languages, would perform. 例えば XNLI 言語のような小さな言語で TLM の目標で訓練された XLM-R がどのように機能するかは興味深い。 0.81
DistillmBERT is the lightest model evaluated in the current investigation. DistillmBERTは現在の調査で評価された最も軽量なモデルである。 0.61
It is shown to retain 92% of the mBERT’s performance on certain XNLI languages.8 The results suggest that distillmBERT delivers its promise, although to a lesser extent. これは、ある xnli 言語における mbert のパフォーマンスの 92% を保っていることが示されており、その結果は、distillmbert が約束を果たすことを示唆している。
訳抜け防止モード: 特定の XNLI 言語で mBERT のパフォーマンスの 992 % を保っていることが示されている。 distillmBERTはその約束を果たすが、程度は小さい。
0.56
When averaged over all tasks, distillmBERT retains 93% of the source language performance of mBERT. 全てのタスクで平均となると、mBERTはmBERTのソースコード性能の93%を維持している。 0.65
However, its relative performance significantly drops to 82% on zero-shot transfer. しかし、その相対的な性能はゼロショット転送で82%まで大幅に低下する。 0.62
That is, distillmBERT is not as successful when it comes to copying mBERT’s cross-lingual abilities. つまり、mBERTは、mBERTの言語横断能力のコピーに関しては成功していない。 0.83
Furthermore, its performance (relative to mBERT) is not stable across tasks either. さらに、そのパフォーマンス(mBERTに関する)はタスク間でも安定していません。 0.72
It only achieves 69% of 69%しか達成できませんが 0.78
7The only exception is the XLM and XLM-tlm’s performance on non-XNLI languages where distillmBERT manages to outperform them but not always by a large margin. 7 唯一の例外は XLM と XLM-tlm の非XNLI 言語における性能であり、TumumBERT はそれよりも優れています。 0.80
8https://github.com/ huggingface/ transformers/tree/ma ster/examples/ distillation 8https://github.com/ huggingface/ transformers/tree/ma ster/examples/ 蒸留 0.30
Figure 1: Overview of performance of each sentence encoder on all Disco-X tasks. 図1:すべてのdisco-xタスクにおける各文エンコーダのパフォーマンスの概要。 0.82
The semi-transparent bars represent source language performance (German for X-stance, English for the rest) while the solid bars represent the zero-shot performance, i.e. 半透明なバーはソース言語のパフォーマンスを表し(Xスタンスはドイツ語、残りは英語)、固いバーはゼロショットのパフォーマンスを表す。 0.74
the mean performance across all languages except the training language. 訓練言語以外の全ての言語の平均的なパフォーマンス。 0.83
All values are averages over independent training runs. すべての値は、独立したトレーニング実行よりも平均です。 0.60
guage embeddings for non-XNLI languages. 非XNLI言語のためのゲージ埋め込み。 0.66
All experiments are run on a single TITAN X (12 GB) GPU. すべての実験は単一のTITAN X (12GB) GPU上で実行される。 0.82
5 Results and Discussion We provide an overview of the main results in Figure 1. 5 結果と議論 主な結果の概要を図1で示します。 0.68
The detailed results with per-language breakdown are provided in the Appendix A. 言語ごとの分解に関する詳細な結果は、Appendix Aで提供されている。 0.59
Overall, there is a clear difference between the training and zero-shot performance of all models. 全体として、トレーニングとすべてのモデルのゼロショットパフォーマンスには明確な違いがある。 0.72
When averaged over all tasks, the performance loss in zero-shot transfer ranges from 15.58% (XLMR-large) to 34.96% (distilmBERT) which clearly highlights the room for improvement, especially with smaller model sizes. 全てのタスクで平均される場合、ゼロショット転送のパフォーマンス損失は15.58%(XLMR-large)から34.96%(distilmBERT)の範囲で、特にモデルサイズが小さい場合には、改善の余地を明確に強調する。 0.67
In the rest of the section, we discuss the results in terms of the encoder type, task and the languages. 残りのセクションでは、エンコーダタイプ、タスク、言語の観点から結果について議論します。 0.53
英語(論文から抽出)日本語訳スコア
mBERT’s zero-shot performance on RST whereas 89% on XNLI. mBERTのRTTでのゼロショットのパフォーマンスは89%、XNLIでは89%である。 0.58
The low memory requirement and its speed (with the same batch size, it is x2 faster than mBERT and x5 than XLM-Rlarge) definitely makes distillmBERT a favorable option; however, the results show that its zero-shot performance is considerably lower than its source language performance and is highly task-dependent, hence, hard to predict. 低メモリの要求と速度(同じバッチサイズで、mbertよりx2、xlm-rlargeよりx5)により、distillmbertは間違いなく好ましい選択肢となるが、ゼロショットのパフォーマンスはソース言語のパフォーマンスよりもかなり低く、タスク依存度が高いため、予測が難しい。
訳抜け防止モード: 低メモリ要求とその速度(同じバッチサイズで) x2 は mbert よりも高速であり、x5 は xlm - rlarge よりも高速である。 その結果、ゼロショットのパフォーマンスは、ソース言語のパフォーマンスよりもかなり低いことがわかった。 極めてタスクに依存しており、予測が難しいのです。
0.74
Task-wise Analysis Table 3 shows to what extent encoders manage to transfer their source language performance to zero-shot languages. Task-wise Analysis Table 3は、エンコーダがソースコードのパフォーマンスをゼロショット言語に転送できる範囲を示す。 0.72
Overall, the zero-shot performances show high variance across tasks which is quite interesting given that all tasks are on the same linguistic level. 全体として、ゼロショットのパフォーマンスはタスク間で高いばらつきを示しており、すべてのタスクが同じ言語レベルにあることを考えると非常に興味深い。
訳抜け防止モード: 全体として、ゼロショットのパフォーマンスはタスク間で高いばらつきを示す。 全てのタスクが同じ言語レベルにあるからです
0.73
It is also surprising that mBERT manages a better zero-shot transfer performance than all XLM models while being almost as consistent as XLM-Rbase. また、mBERTがXLM-Rbaseと同等の一貫性を持ちながら、すべてのXLMモデルよりも優れたゼロショット転送性能を保っていることも驚きである。 0.62
Overall, the results show that even modern sentence encoders struggle to capture inter-sentential interactions in both monolingual and multilingual settings, contrary to the what the high performances on well-known datasets (e g PAWS (Hu et al , 2020)) may suggest. 全体として、現代の文エンコーダでさえ、よく知られたデータセット(例えば PAWS (Hu et al , 2020))のハイパフォーマンスとは対照的に、モノリンガルとマルチリンガルの両方の設定における文間相互作用をキャプチャするのに苦労している。 0.59
We believe that this finding supports our motivation to propose new probing tasks to have a fuller picture of the capabilities of these encoders. この発見は、これらのエンコーダの能力をフルに表現するために、新しい探索タスクを提案する動機を支持していると考えています。 0.61
Language-wise Analysis: In all tasks, regardless of the model, training-language performance is better than even the best zero-shot performance. 言語分析: すべてのタスクにおいて、モデルに関係なく、トレーニング言語のパフォーマンスは最高のゼロショットパフォーマンスよりも優れています。 0.68
The only exception is the XLM-R-large’s performance on the X-stance where the zero-shot performance is on par with its performance on the German test set. 唯一の例外はXLM-R-largeのパフォーマンスであり、ゼロショットのパフォーマンスはドイツのテストセットのパフォーマンスと同等である。 0.71
An important aspect of cross-lingual research is predictability. 言語横断研究の重要な側面は予測可能性である。 0.59
The zero-shot performance of a certain language do not seem to be stable across tasks (e g German is the language with the worst RST performance; yet it is one of the best in XNLI). ある言語のゼロショット性能はタスク間で安定していないように見える(例えば、ドイツ語は最悪のrstパフォーマンスを持つ言語であるが、xnliで最も優れた言語の一つである)。 0.76
We further investigate this following Lauscher et al (2020), who report high correlation between syntactic similarity and zero-shot performance for lowlevel tasks, POS-tagging and dependency parsing. lauscher et al (2020) は低レベルタスク、posタグ、依存性解析の構文的類似性とゼロショット性能の相関が高いことを報告している。 0.64
We conduct the same correlation analysis using Lang2Vec (Littell et al , 2017). lang2vec (littell et al , 2017) を用いて同様の相関解析を行った。 0.61
However, syntactic and geographical similarity only weakly correlates with zero-shot performances across the tasks (Pearson’s r = .46 and Spearman’s r = .53 on average for syntactic; Pearson’s r = .30 and Spearman’s r = .45 for geographical similarity). しかし、構文的および地理的類似性は、タスク全体でゼロショットのパフォーマンスと弱相関する(Pearsonの r = .46 と Spearmanの r = .53 は平均で構文的に、Pearsonの r = .30 と Spearmanの r = .45 は地理的類似性に対して)。 0.75
Such low correlations are important as it further supports the claim that the tasks are beyond the sentence level and also highlights a need for further research to reveal the factors at play during zero-shot transfer of discourse-level tasks. これほど低い 相関は、タスクが文レベルを超えているという主張をさらに支持すると同時に、談話レベルのタスクをゼロショット転送する際の要因を明らかにするためのさらなる研究の必要性を強調している。 0.70
6 Conclusion As pre-trained multilingual sentence encoders have become prevalent in natural language processing, research on cross-lingual zero-shot transfer gains increasing importance (Hu et al , 2020; Liang et al , 2020). 6 結論 自然言語処理において事前訓練された多言語文エンコーダが普及するにつれて、言語間ゼロショット転送の研究の重要性が高まっている(Hu et al , 2020; Liang et al , 2020)。 0.71
In this work, we evaluate a wide range of sentence encoders on a variety of discourse-level tasks in a zero-shot transfer setting. 本研究では,ゼロショット転送設定において,様々な談話レベルのタスクにおいて,幅広い文エンコーダを評価する。 0.71
Firstly, we enrich the set of available probing tasks by introducing three resources which have not been utilized in this context before. まず、この文脈で利用されていない3つのリソースを導入することで、利用可能な探索タスクのセットを充実させる。 0.61
We systematically evaluate a broad range of widely used sentence encoders with considerably varying sizes, an analysis which has not been made before. 提案手法は,様々な大きさの広範に使用される文エンコーダを体系的に評価するものであり,その解析は行われていない。 0.62
The main variable we look at is the performance gap between training-language evaluation and zeroshot evaluation. 私たちが注目する主な変数は、トレーニング言語評価とゼロショット評価のパフォーマンスギャップです。 0.68
Unsurprisingly, nearly always there is such a gap, but its magnitude depends on a number of factors: 当然ながら、ほとんど常にそのようなギャップがあるが、その大きさはいくつかの要因に依存している。
訳抜け防止モード: 当然ながら、ほとんどいつもそのようなギャップがあります。 しかしその大きさは様々な要因に依存します
0.62
• Distillation: the distilled mBERT model has a larger gap than the full mBERT model, indicating loss of multilingual transfer ability during distillation. ・蒸留: 蒸留したmBERTモデルは, 完全mBERTモデルよりも大きなギャップを有し, 蒸留中の多言語間移動能力の喪失を示す。 0.72
• Language similarity: the gap correlates only weakly with measures of language similarity (syntactic and geographical), indicating that sentence encoders generally transfer discourse-level information about as well between similar and dissimilar languages. •言語類似性 このギャップは言語類似度尺度(シンタクティックおよびジオグラフィック)と弱くのみ相関しており、文エンコーダは一般的に類似言語と異種言語間の談話レベルの情報を伝達していることを示している。 0.69
• High variance: apart from the above, we also observe a generally high variance in the gap magnitude between different tasks in our benchmark suite. • 高分散:上記とは別に、ベンチマークスイートの異なるタスク間のギャップの大きさのばらつきも一般的に観察しています。 0.78
These observation provide several starting points for future work: investigating why knowledge distillation seems to hurt zero-shot performance to a much greater extent than same-language sentence encoding ability and what can be done to solve this problem, and explaining the large variations in the zero-shot transfer gap between different discourselevel NLP tasks. これらの観察は、なぜ知識蒸留がゼロショット性能を同文符号化能力よりも遥かに大きく損なうのか、この問題を解決するために何ができるか、そして、異なる談話レベルのNLPタスク間のゼロショット転送ギャップにおける大きなばらつきを説明することなど、今後の研究の出発点となる。 0.72
英語(論文から抽出)日本語訳スコア
PDTB RST Model mBERT 74.49 64.18 54.37 distilmBERT 66.13 52.93 60.32 XLM-mlm XLM-tlm 63.49 50.36 57.54 73.76 XLM-100 70.75 78.96 XLM-Rbase XLM-Rlarge 79.91 73.33 PDTB RST Model mBERT 74.49 64.18 54.37 distilmBERT 66.13 52.93 XLM-mlm XLM-tlm 63.49 50.36 57.54 73.76 XLM-100 70.75 78.96 XLM-Rbase XLM-Rlarge 79.91 73.33 0.49
X-stance XQuAD MNLI Average ± std 75.58 ± 6.92 84.75 65.02 ± 8.15 71.34 68.56 ± 10.93 76.4 72.49 ± 13.56 85.57 74.96 ± 10.02 87.62 82.91 ± 8.00 94.29 85.89 ± 9.11 100.4 X-stance XQuAD MNLI Average ± std 75.58 ± 6.92 84.75 65.02 ± 8.15 71.34 68.56 ± 10.93 76.4 72.49 ± 13.56 85.57 74.96 ± 10.02 87.62 82.91 ± 8.00 94.29 85.89 ± 9.11 100.4 0.52
74.22 57.35 69.68 78.76 74.89 82.44 86.81 74.22 57.35 69.68 78.76 74.89 82.44 86.81 0.43
80.28 75.9 83.47 84.26 81.01 88.1 89 80.28 75.9 83.47 84.26 81.01 88.1 89 0.47
Table 3: Relative zero-shot performance of each encoder to the source language performance (metrics differ between tasks but higher is better in all cases). 表3: 各エンコーダのソース言語パフォーマンスに対する相対的ゼロショットパフォーマンス(タスク間でメトリクスが異なるが、すべてのケースでより高い)。 0.84
The figures shows what percentage of the source language performance is retained through zero-shot transfer in each task. 図は、各タスクにおけるゼロショット転送によって、ソース言語のパフォーマンスが保持される割合を示しています。 0.62
Hu et al (2020) refer to this as the cross-lingual transfer gap. Hu et al (2020) はこれを言語間移動ギャップと呼ぶ。 0.68
A score above 100 indicates that a better zero-shot performance than that of training. 100点以上のスコアは、トレーニングよりもゼロショットのパフォーマンスが良いことを示している。 0.60
References Naveen Arivazhagan, Ankur Bapna, Orhan Firat, Dmitry Lepikhin, Melvin Johnson, Maxim Krikun, Mia Xu Chen, Yuan Cao, George Foster, Colin Cherry, et al 2019. Naveen Arivazhagan氏、Ankur Bapna氏、Orhan Firat氏、Dmitry Lepikhin氏、Melvin Johnson氏、Maxim Krikun氏、Mia Xu Chen氏、Yuan Cao氏、George Foster氏、Colin Cherry氏など。
訳抜け防止モード: 参照: Naveen Arivazhagan, Ankur Bapna, Orhan Firat, Dmitry Lepikhin, Melvin Johnson, Maxim Krikun, Mia Xu Chen, Yuan Cao ジョージ・フォスター(George Foster)、コリン・チェリー(Colin Cherry)など。
0.85
Massively multilingual neural machine translation in the wild: Findings and challenges. 野生における多言語ニューラルマシン翻訳:発見と課題 0.67
arXiv preprint arXiv:1907.05019. arXiv preprint arXiv:1907.05019 0.71
Mikel Artetxe, Sebastian Ruder, and Dani Yogatama. Mikel Artetxe、Sebastian Ruder、Dani Yogatama。 0.65
2020. On the cross-lingual transferability of monolingual representations. 2020. 単言語表現の言語間伝達性について 0.69
In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 4623–4637, Online. The 58th Annual Meeting of the Association for Computational Linguistics, page 4623–4637, Online. 0.83
Association for Computational Linguistics. Chlo´e Braud, Maximin Coavoux, and Anders Søgaard. 計算言語学会会員。 Chlo ́e Braud, Maximin Coavoux, Anders Søgaard 0.62
2017. Cross-lingual RST discourse parsing. 2017. 対訳 RST discourse parsing 0.69
In Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics: Volume 1, Long Papers, pages 292–304, Valencia, Spain. the european chapter of the association for computational linguistics: volume 1, long papers, pages 292–304, valencia, spain (英語) 0.59
Association for Computational Linguistics. Shuyuan Cao, Iria da Cunha, and Mikel Iruskieta. 計算言語学会会員。 Shuyuan Cao、Iria da Cunha、Mikel Iruskieta。 0.58
2018. The rst spanish-chinese treebank. 2018. rstスパニッシュ・チャイニーズ・ツリーバンク。 0.69
In Proceedings of the Joint Workshop on Linguistic Annotation, Multiword Expressions and Constructions (LAW-MWECxG-2018), pages 156–166. In Proceedings of the Joint Workshop on Linguistic Annotation, Multiword Expressions and Constructions (LAW-MWECxG-2018), page 156–166。 0.92
Paula CF Cardoso, Erick G Maziero, Maria LC Jorge, Eloize MR Seno, Ariani Di Felippo, Lucia HM Rino, Maria das Gracas Volpe Nunes, and Thiago AS Pardo. Paula CF Cardoso, Erick G Maziero, Maria LC Jorge, Eloize MR Seno, Ariani Di Felippo, Lucia HM Rino, Maria das Gracas Volpe Nunes, Thiago AS Pardo
訳抜け防止モード: Paula CF Cardoso, Erick G Maziero, Maria LC Jorge Eloize MR Seno, Ariani Di Felippo, Lucia HM Rino マリア・ダ・グラカス・ヴォルペ・ヌネス(Maria das Gracas Volpe Nunes)、ティアゴ・アス・パルド(Thiago AS Pardo)。
0.86
2011. Cstnews-a discourse-annotated corpus for single and multi-document summarization of news texts in brazilian portuguese. 2011. cstnews-a discourse-annotated corpus for single and multi-document summarization of news text in brazil portuguese 0.83
In Proceedings of the 3rd RST Brazilian Meeting, pages 88–105. 第3回 RST Brazil Meeting において、88-105頁。 0.73
Lynn Carlson and Daniel Marcu. リン・カールソンとダニエル・マルク 0.57
2001. Discourse tagging reference manual. 2001. 談話タグ付け参照マニュアル。 0.73
ISI Technical Report ISI-TR545, 54:56. ISI技術報告 ISI-TR545, 54:56 0.69
Mingda Chen, Zewei Chu, and Kevin Gimpel. Mingda Chen、Zewei Chu、Kevin Gimpel。 0.67
2019a. Evaluation benchmarks and learning criteria for In Prodiscourse-aware sentence representations. 2019年。 In Prodiscourse-Aware文表現の評価ベンチマークと学習基準 0.77
ceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pages 649–662. The 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), page 649–662。 0.88
Sihao Chen, Daniel Khashabi, Wenpeng Yin, Chris Callison-Burch, and Dan Roth. Sihao Chen, Daniel Khashabi, Wenpeng Yin, Chris Callison-Burch, Dan Roth 0.79
2019b. Seeing things from a different angle: Discovering diverse In Proceedings of the perspectives about claims. 2019年。 異なる角度から物事を見る: クレームに関するさまざまな視点の成果を発見する。 0.71
2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 542–557. 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), page 542–557. 0.88
Sandra Collovini, Thiago I Carbonel, Juliana Thiesen Fuchs, Jorge C´esar Coelho, L´ucia Rino, and Renata Vieira. Sandra Collovini, Thiago I Carbonel, Juliana Thiesen Fuchs, Jorge C ́esar Coelho, L ́ucia Rino, Renata Vieira 0.88
2007. Summ-it: Um corpus anotado com informac¸ oes discursivas visandoa sumarizac¸ ao autom´atica. 2007. 原題:Um corpus anotado com informac . oes discursivas visandoa sumarizac . ao autom ́atica。 0.82
Proceedings of TIL. Alexis Conneau, Kartikay Khandelwal, Naman Goyal, Vishrav Chaudhary, Guillaume Wenzek, Francisco Guzm´an, Edouard Grave, Myle Ott, Luke Zettlemoyer, and Veselin Stoyanov. TILの略。 Alexis Conneau, Kartikay Khandelwal, Naman Goyal, Vishrav Chaudhary, Guillaume Wenzek, Francisco Guzm ́an, Edouard Grave, Myle Ott, Luke Zettlemoyer, Veselin Stoyanov 0.67
2020. Unsupervised cross-lingual representation learning at scale. 2020. 教師なし言語間表現学習の大規模化 0.66
In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 8440– 8451, Online. The 58th Annual Meeting of the Association for Computational Linguistics, page 8440–8451, Online. 0.78
Association for Computational Linguistics. Alexis Conneau and Guillaume Lample. 計算言語学会会員。 Alexis ConneauとGuillaume Lample。 0.61
2019. CrossIn Advances lingual language model pretraining. 2019. CrossIn Advances 言語モデルの事前トレーニング。 0.84
in Neural Information Processing Systems, pages 7059–7069. 神経情報処理システムでは7059-7069頁。 0.73
Alexis Conneau, Ruty Rinott, Guillaume Lample, Adina Williams, Samuel Bowman, Holger Schwenk, and Veselin Stoyanov. Alexis Conneau, Ruty Rinott, Guillaume Lample, Adina Williams, Samuel Bowman, Holger Schwenk, Veselin Stoyanov。 0.78
2018. XNLI: Evaluating cross-lingual sentence representations. 2018. xnli: 言語間表現の評価。 0.75
In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pages 2475–2485, Brussels, Belgium. 2018 Conference on Empirical Methods in Natural Language Processing, page 2475–2485, Brussels, Belgium
訳抜け防止モード: 自然言語処理における実証的手法に関する2018年会議のまとめ 2475-2485頁、ブリュッセル、ベルギー。
0.78
Association for Computational Linguistics. Iria Da Cunha, Juan-Manuel Torres-Moreno, and Gerardo Sierra. 計算言語学会会員。 Iria Da Cunha、Juan-Manuel Torres-Moreno、Gerardo Sierra。 0.65
2011. On the development of the rst spanish treebank. 2011. スペインン・ツリーバンクの開発について 0.73
In Proceedings of the 5th Linguistic Annotation Workshop, pages 1–10. The Proceedings of the 5th Linguistic Annotation Workshop, page 1–10。 0.89
Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova 0.76
2019. Bert: Pre-training of deep bidirectional transformers for language understanding. 2019. Bert: 言語理解のための双方向トランスフォーマーの事前トレーニング。 0.82
In Proceedings of the 2019 Conference of 2019年国際会議の議事録において 0.68
英語(論文から抽出)日本語訳スコア
the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 4171–4186. The North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), page 4171–4186. 0.88
Junjie Hu, Sebastian Ruder, Aditya Siddhant, Graham Neubig, Orhan Firat, and Melvin Johnson. Junjie Hu, Sebastian Ruder, Aditya Siddhant, Graham Neubig, Orhan Firat, Melvin Johnson 0.70
2020. Xtreme: A massively multilingual multitask benchmark for evaluating cross-lingual generalisation. 2020. xtreme: 言語間一般化を評価するための多言語マルチタスクベンチマーク。 0.76
In International Conference on Machine Learning, pages 4411–4421. 機械学習に関する国際会議』4411-4421頁。 0.78
PMLR. Haoyang Huang, Yaobo Liang, Nan Duan, Ming Gong, Linjun Shou, Daxin Jiang, and Ming Zhou. PMLR。 Haoyang Huang, Yaobo Liang, Nan Duan, Ming Gong, Linjun Shou, Daxin Jiang, Ming Zhou 0.75
2019. Unicoder: A universal language encoder by preIn Protraining with multiple cross-lingual tasks. 2019. Unicoder: 複数の言語間タスクによるpreIn Protrainingによるユニバーサル言語エンコーダ。 0.86
ceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pages 2485–2494. The 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), page 2485–2494。 0.88
Mikel Iruskieta, Mara Jesus Aranzabe, Arantza Diaz de Ilarraza, Itziar Gonzalez, Mikel Lersundi, and Oier Lopez de la Calle. Mikel Iruskieta, Mara Jesus Aranzabe, Arantza Diaz de Ilarraza, Itziar Gonzalez, Mikel Lersundi, Oier Lopez de la Calle 0.75
2013. The rst basque treebank: an online search interface to check rhetorical relations. 2013. rst basque treebank: 修辞的関係をチェックするオンライン検索インターフェース。 0.80
In 4th Workshop” RST and Discourse Studies”, Brasil, October, pages 21–23. In 4th Workshop” RST and Discourse Studies”, Brasil, October, page 21–23。 0.88
Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov。 0.80
2019. Roberta: A robustly optimized bert pretraining approach. 2019. roberta: 堅牢に最適化されたbertプリトレーニングアプローチ。 0.73
arXiv preprint arXiv:1907.11692. arXiv preprint arXiv:1907.11692 0.72
Wanqiu Long, Xinyi Cai, James Reid, Bonnie Webber, and Deyi Xiong. Wanqiu Long、Xinyi Cai、James Reid、Bonnie Webber、Deyi Xiong。 0.70
2020. Shallow discourse annotaIn Proceedings of The tion for chinese ted talks. 2020. 浅い談話は、中国tedトークの故意の議事録である。 0.72
12th Language Resources and Evaluation Conference, pages 1025–1032. 第12回言語資源評価会議、1025-1032頁。 0.67
William C. Mann and Sandra A. Thompson. ウィリアム・c・マンとサンドラ・a・トンプソン。 0.54
1988. Rhetorical structure theory: Toward a functional theory of text organization. 1988. 修辞構造理論:テキスト組織の機能理論に向けて 0.80
Text & Talk, 8(3):243 – 281. Text & Talk, 8(3):243 – 281。 0.88
Allen Nie, Erin Bennett, and Noah Goodman. アレン・ニー、エリン・ベネット、ノア・グッドマン。 0.44
2019. Dissent: Learning sentence representations from exIn Proceedings of the plicit discourse relations. 2019. Dissent: exIn Proceedings of the plicit Discourse relations から文表現を学ぶ。 0.82
57th Annual Meeting of the Association for Computational Linguistics, pages 4497–4510. 57th Annual Meeting of the Association for Computational Linguistics, page 4497–4510。 0.91
Giedre Valunaite Oleskeviciene, Deniz Zeyrek, Viktorija Mazeikiene, and Murathan Kurfalı. Giedre Valunaite Oleskeviciene, Deniz Zeyrek, Viktorija Mazeikiene, Murathan Kurfalı 0.63
2018. Observations on the annotation of discourse relational devices in ted talk transcripts in lithuanian. 2018. リチュア語におけるTEDトークテキスト中の談話関係装置のアノテーションに関する観察 0.78
In Proceedings of the workshop on annotation in digital humanities co-located with ESSLLI, volume 2155, pages 53–58. The Proceedings of the Workshop on Annotation in digital humanities with ESSLLI, volume 2155, page 53-58。 0.79
Murathan Kurfalı and Robert ¨Ostling. ムラサン・クルファルとロバート・オストリング。 0.47
2019. Zero-shot transfer for implicit discourse relation classification. 2019. 暗黙的対話関係分類のためのゼロショット転送 0.76
In Proceedings of the 20th Annual SIGdial Meeting on Discourse and Dialogue, pages 226–231. 第20回sigdial meeting on discourse and dialogue(英語版)第226-231頁。 0.66
Thiago Alexandre Salgueiro Pardo and Eloize Rossi Marques Seno. Thiago Alexandre Salgueiro Pardo and Eloize Rossi Marques Seno 0.72
2005. Rhetalho: um corpus de referˆencia anotado retoricamente. 2005. Rhetalho: um corpus de refer'encia anotado retoricamente 0.84
Anais do V Encontro de Corpora, pages 24–25. Anais do V Encontro de Corpora、24-25頁。 0.78
Anne Lauscher, Vinit Ravishankar, Ivan Vuli´c, and Goran Glavaˇs. アンネ・ラウシャー、ヴィニト・ラヴィシャンカル、イヴァン・ヴリ、ゴラン・グラヴェシュ。 0.47
2020. From zero to hero: On the limitations of zero-shot language transfer with multilingual transformers. 2020. from zero to hero: on the limit of zero-shot language transfer with multilingual transformers (英語) 0.85
In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 4483–4499. The Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), page 4483–4499。 0.84
Patrick Lewis, Barlas Oguz, Ruty Rinott, Sebastian Riedel, and Holger Schwenk. Patrick Lewis、Barlas Oguz、Ruty Rinott、Sebastian Riedel、Holger Schwenk。 0.69
2020. MLQA: Evaluating cross-lingual extractive question answering. 2020. MLQA: 言語横断的抽出質問応答の評価。 0.80
In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 7315– 7330, Online. The 58th Annual Meeting of the Association for Computational Linguistics, page 7315–7330, Online. 0.78
Association for Computational Linguistics. Yaobo Liang, Nan Duan, Yeyun Gong, Ning Wu, Fenfei Guo, Weizhen Qi, Ming Gong, Linjun Shou, Daxin Jiang, Guihong Cao, et al 2020. 計算言語学会会員。 Yaobo Liang, Nan Duan, Yeyun Gong, Ning Wu, Fenfei Guo, Weizhen Qi, Ming Gong, Linjun Shou, Daxin Jiang, Guihong Cao, et al 2020 0.65
Xglue: A new benchmark datasetfor cross-lingual pre-training, understanding and generation. xglue: 言語間事前トレーニング、理解、生成のための新しいベンチマークデータセット。 0.79
In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 6008–6018. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), page 6008–6018。 0.84
Patrick Littell, David R Mortensen, Ke Lin, Katherine Kairis, Carlisle Turner, and Lori Levin. Patrick Littell, David R Mortensen, Ke Lin, Katherine Kairis, Carlisle Turner, Lori Levin 0.74
2017. Uriel and lang2vec: Representing languages as typological, geographical, and phylogenetic vectors. 2017. Uriel と lang2vec: 言語をタイプ的、地理的、系統的ベクトルとして表現する。 0.72
In Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics: Volume 2, Short Papers, pages 8–14. the european chapter of the association for computational linguistics: volume 2, short papers, pages 8–14 の15回目の会議の議事録。 0.85
Matthew Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee, and Luke Zettlemoyer. マシュー・ピーターズ、マーク・ノイマン、モヒト・アイイヤー、マット・ガードナー、クリストファー・クラーク、ケントン・リー、ルーク・ゼトルモイヤー。 0.60
2018. Deep contextualized word repIn Proceedings of the 2018 Conferresentations. 2018. 2018年コンフェレンテーションの深い文脈化された言葉の再現手順。 0.67
ence of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers), pages 2227–2237, New Orleans, Louisiana. The North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers), page 2227–2237, New Orleans, Louisiana 0.77
Association for Computational Linguistics. Telmo Pires, Eva Schlinger, and Dan Garrette. 計算言語学会会員。 Telmo Pires、Eva Schlinger、Dan Garrette。 0.60
2019. How multilingual is multilingual bert? 2019. マルチリンガル・バートはどのくらい多言語的か? 0.67
In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 4996–5001. 第57回計算言語学会年次大会(4996-5001頁)の発刊。 0.56
Dina Pisarevskaya, Margarita Ananyeva, Maria Kobozeva, Alexander Nasedkin, Sofia Nikiforova, Irina Pavlova, and Alexey Shelepov. Dina Pisarevskaya、Margarita Ananyeva、Maria Kobozeva、Alexander Nasedkin、Sofia Nikiforova、Irina Pavlova、Alexey Shelepov。 0.69
2017. Towards building a discourse-annotated corpus of russian. 2017. ロシア語の談話対応コーパスの構築に向けて 0.74
In Proceedings of the International Conference on Computational Linguistics and Intellectual Technologies” Dialogue. 計算言語学と知的技術に関する国際会議」の開催にあたって 0.67
Rashmi Prasad, Eleni Miltsakaki, Nikhil Dinesh, Alan Lee, Aravind Joshi, Livio Robaldo, and Bonnie L Webber. Rashmi Prasad, Eleni Miltsakaki, Nikhil Dinesh, Alan Lee, Aravind Joshi, Livio Robaldo, Bonnie L Webber 0.74
2007. The penn discourse treebank 2.0 annotation manual. 2007. penn discourse treebank 2.0 アノテーションマニュアル。 0.84
Xipeng Qiu, Tianxiang Sun, Yige Xu, Yunfan Shao, Ning Dai, and Xuanjing Huang. Xipeng Qiu, Tianxiang Sun, Yige Xu, Yunfan Shao, Ning Dai, Xuanjing Huang 0.70
2020. Pre-trained models for natural language processing: A survey. 2020. 自然言語処理のための事前学習モデル:調査 0.80
Science China Technological Sciences, pages 1–26. 専門は中国科学技術研究科、1-26頁。 0.45
英語(論文から抽出)日本語訳スコア
Pranav Rajpurkar, Jian Zhang, Konstantin Lopyrev, and Percy Liang. Pranav Rajpurkar、Jian Zhang、Konstantin Lopyrev、Percy Liang。 0.63
2016. Squad: 100,000+ questions for machine comprehension of text. 2016. Squad: 機械によるテキスト理解のための10万以上の質問。 0.72
In Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, pages 2383–2392. 2016年自然言語処理における経験的手法に関する会議の議事録2383-2392頁。 0.71
Jianhua Yuan, Yanyan Zhao, Jingfang Xu, and Bing Qin. Jianhua Yuan、Yanyan Zhao、Jingfang Xu、Bing Qin。 0.66
2019. Exploring answer stance detection with In Proceedings of recurrent conditional attention. 2019. In Proceedings of Recurrent Conditional attention を用いた応答姿勢検出の探索 0.81
the AAAI Conference on Artificial Intelligence, volume 33, pages 7426–7433. AAAI Conference on Artificial Intelligence, Volume 33, page 7426–7433. 0.88
Deniz Zeyrek, Am´alia Mendes, Yulia Grishina, Murathan Kurfalı, Samuel Gibbon, and Maciej Ogrodniczuk. Deniz Zeyrek, Am ́alia Mendes, Yulia Grishina, Murathan Kurfalı, Samuel Gibbon, Maciej Ogrodniczuk 0.76
2019. Ted multilingual discourse bank (tedmdb): a parallel corpus annotated in the pdtb style. 2019. Ted Multilingual Discourse Bank (tedmdb): pdtbスタイルで注釈付けされた並列コーパス。 0.81
Language Resources and Evaluation, pages 1–27. 言語資源と評価』、1-27頁。 0.65
Victor Sanh, Lysandre Debut, Victor Sanh, Lysandre Debut 0.71
Julien Chaumond, Thomas Wolf, and Hugging Face. ジュリアン・チャウモンド、トーマス・ウルフ、ハグリング・フェイス。 0.49
2019. Distilbert, a distilled version of bert: smaller, faster, cheaper and lighter. 2019. ディチルバート(ditilbert)は、より小さく、速く、安く、より軽量の蒸留酒である。 0.70
arXiv preprint arXiv:1910.01108. arXiv preprint arXiv:1910.01108。 0.63
Manfred Stede. Manfred Stede 0.58
2004. The potsdam commentary corpus. 2004. ポツダムのコラム。 0.55
In Proceedings of the Workshop on Discourse Annotation, pages 96–102. Proceedings of the Workshop on Discourse Annotation』96-102頁。 0.78
Sara Tonelli and Elena Cabrio. サラ・トネッリとエレナ・カブリオ。 0.57
2012. Hunting for entailing pairs in the penn discourse treebank. 2012. ペンディスコースツリーバンクでペアを収容するための狩り。 0.75
In Proceedings of COLING 2012, pages 2653–2668. Proceedings of Coling 2012』2653-2668頁。 0.61
Jannis Vamvas and Rico Sennrich. Jannis Vamvas と Rico Sennrich 0.68
2020. X-Stance: A multilingual multi-target dataset for stance detection. 2020. X-Stance: スタンス検出のための多言語マルチターゲットデータセット。 0.81
In Proceedings of the 5th Swiss Text Analytics Conference (SwissText) & 16th Conference on Natural Language Processing (KONVENS), Zurich, Switzerland. 第5回swiss text analytics conference (swisstext) および第16回自然言語処理会議 (konvens) において、スイスのチューリッヒで開催された。 0.78
Alex Wang, Amanpreet Singh, Julian Michael, Felix Hill, Omer Levy, and Samuel R Bowman. Alex Wang、Amanpreet Singh、Julian Michael、Felix Hill、Omer Levy、Samuel R Bowman。 0.73
2019. Glue: A multi-task benchmark and analysis platform In 7th Interfor natural language understanding. 2019. Glue: マルチタスクのベンチマークと分析プラットフォーム In 7th Interfor 自然言語理解プラットフォーム。 0.81
national Conference on Learning Representations, ICLR 2019. 英語) national conference on learning representations, iclr 2019 0.76
Bonnie Webber, Rashmi Prasad, Alan Lee, and Aravind Joshi. Bonnie Webber、Rashmi Prasad、Alan Lee、Aravind Joshi。 0.63
2016. A discourse-annotated corpus of conjoined vps. 2016. 共役 vps の談話注釈付きコーパス。 0.75
In Proceedings of the 10th Linguistic Annotation Workshop held in conjunction with ACL 2016 (LAW-X 2016), pages 22–31. 第10回言語アノテーションワークショップProceedings of the 10th Linguistic Annotation Workshop held in together with ACL 2016 (LAW-X 2016), page 22–31。 0.76
Adina Williams, Nikita Nangia, and Samuel Bowman. アディナ・ウィリアムズ、ニキータ・ナンギア、サミュエル・ボウマン。 0.51
2018. A broad-coverage challenge corpus for sentence understanding through inference. 2018. 推論による文理解のための広範にわたるチャレンジコーパス 0.73
In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers), pages 1112–1122. the association for computational linguistics: human language technologies, volume 1 (long papers, pages 1112–1122) 2018年北アメリカ支部の議事録。 0.70
Thomas Wolf, L Debut, V Sanh, J Chaumond, C Delangue, A Moi, P Cistac, T Rault, R Louf, M Funtowicz, et al 2019. Thomas Wolf, L Debut, V Sanh, J Chaumond, C Delangue, A Moi, P Cistac, T Rault, R Louf, M Funtowicz, et al 2019 0.81
Huggingface’s transformers: State-of-the-art natural language processing. Huggingfaceのトランスフォーマー:最先端の自然言語処理。 0.74
ArXiv, abs/1910.03771. ArXiv, abs/1910.03771。 0.60
Shijie Wu and Mark Dredze. シージー・ウーとマーク・ドレッゼ。 0.30
2019. Beto, bentz, becas: The surprising cross-lingual effectiveness of In Proceedings of the 2019 Conference on bert. 2019. Beto, bentz, becas: 2019 Conference on bertのIn Proceedingsの驚くべき言語間効果。 0.78
Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pages 833–844. 第9回自然言語処理国際共同会議 (emnlp-ijcnlp) による自然言語処理の実証的手法 0.65
Nianwen Xue, Hwee Tou Ng, Sameer Pradhan, Attapol Rutherford, Bonnie Webber, Chuan Wang, and Hongmin Wang. Nianwen Xue, Hwee Tou Ng, Sameer Pradhan, Attapol Rutherford, Bonnie Webber, Chuan Wang, Hongmin Wang
訳抜け防止モード: Nianwen Xue, Hwee Tou Ng, Sameer Pradhan, Attapol Rutherford Bonnie Webber氏、Chuan Wang氏、Hongmin Wang氏。
0.80
2016. Conll 2016 shared task on multilingual shallow discourse parsing. 2016. Conll 2016は多言語浅層談話解析のタスクを共有した。 0.71
In Proceedings of the CoNLL-16 shared task, pages 1–19. Proceedings of the CoNLL-16 shared task, page 1–19。 0.87
英語(論文から抽出)日本語訳スコア
A Task-wise Results Model en mBERT 66.7 distilmBERT 54.1 XLM-mlm 60.6 XLM-tlm 65.5 63.8 XLM-100 69.8 XLMR-b XLMR-l 72.9 タスクワイドな結果 モデル en mBERT 66.7 distilmBERT 54.1 XLM-mlm 60.6 XLM-tlm 65.5 63.8 XLM-100 69.8 XLMR-b XLMR-l 72.9 0.60
de 29.2 16.3 25.5 26.0 24.3 37.6 44.8 de 29.2 16.3 25.5 26.0 24.3 37.6 44.8 0.46
es 39.3 25.7 33.2 35.2 34.6 44.7 46.8 es 39.3 25.7 33.2 35.2 34.6 44.7 46.8 0.46
eu 31.1 21.4 14.1* 13.3* 26.2 39.4 47.0 eu 31.1 21.4 14.1* 13.3* 26.2 39.4 47.0 0.52
pt 58.6 44.5 40.4* 42.0* 55.2 61.9 65.6 pt 58.6 44.5 40.4* 42.0* 55.2 61.9 65.6 0.52
ru 48.0 32.2 39.8 39.9 40.0 56.2 59.3 ru 48.0 32.2 39.8 39.9 40.0 56.2 59.3 0.46
zh 50.7 36.5 39.4 41.3 39.8 56.7 57.3 zh 50.7 36.5 39.4 41.3 39.8 56.7 57.3 0.46
AVG 42.8 29.4 32.1 33.0 36.7 49.4 53.5 AVG 42.8 29.4 32.1 33.0 36.7 49.4 53.5 0.46
Table 4: RST zero-shot results (Accuracy) for each language. 表4: 各言語に対するRTTゼロショット結果(精度)。 0.69
* denotes that the language is not one of the training languages of the respective sentence encoder. * 言語は各文エンコーダの訓練言語の1つではないことを示す。 0.75
en Model mBERT 53.6 distilmBERT 53.1 XLM-mlm 54.9 53.3 XLM-tlm XLM-100 54.6 61.8 XLMR-b XLMR-l 65.4 en Model mBERT 53.6 distilmBERT 53.1 XLM-mlm 54.9 53.3 XLM-tlm XLM-100 54.6 61.8 XLMR-b XLMR-l 65.4 0.49
de 42.7 42.7 44.9 45.9 41.9 49.5 53.4 de 42.7 42.7 44.9 45.9 41.9 49.5 53.4 0.46
lt 39.2 30.0 19.5* 20.1* 41.6 49.6 49.4 lt 39.2 30.0 19.5* 20.1* 41.6 49.6 49.4 0.52
pl 33.9 34.7 20.6* 21.3* 32.5 40.4 42.8 pl 33.9 34.7 20.6* 21.3* 32.5 40.4 42.8 0.52
pt 46.7 41.1 28.9* 26.8* 44.5 53.5 59.5 pt 46.7 41.1 28.9* 26.8* 44.5 53.5 59.5 0.52
ru 33.1 32.6 33.8 37.1 34.2 42.7 48.9 ru 33.1 32.6 33.8 37.1 34.2 42.7 48.9 0.46
tr 40.3 29.4 43.5 41.9 35.9 54.4 53.8 tr 40.3 29.4 43.5 41.9 35.9 54.4 53.8 0.46
zh 43.5 35.4 40.5 43.6 40.4 51.4 58.1 zh 43.5 35.4 40.5 43.6 40.4 51.4 58.1 0.46
AVG 39.9 35.1 33.1 33.8 38.7 48.8 52.3 AVG 39.9 35.1 33.1 33.8 38.7 48.8 52.3 0.46
Table 5: PDTB zero-shot results (F1) for each language. 表5: 各言語に対するPDTBゼロショット結果(F1)。 0.80
* denotes that the language is not one of the training languages of the respective sentence encoder. * 言語は各文エンコーダの訓練言語の1つではないことを示す。 0.75
de Model mBERT 69.3 distilmBERT 67.7 67.3 XLM-mlm XLM-tlm 71.2 71.8 XLM-100 72.3 XLMR-b XLMR-l 79.3 de Model mBERT 69.3 distilmBERT 67.7 67.3 XLM-mlm XLM-tlm 71.2 71.8 XLM-100 72.3 XLMR-b XLMR-l 79.3 0.49
it 63.2 59.5 56.2* 59.6* 64.0 69.9 78.9 it 63.2 59.5 56.2* 59.6* 64.0 69.9 78.9 0.52
AVG 58.7 48.3 51.4 60.9 62.9 68.2 79.6 AVG 58.7 48.3 51.4 60.9 62.9 68.2 79.6 0.46
en 60.2 49.8 52.6 60.4 62.3 65.8 80.9 en 60.2 49.8 52.6 60.4 62.3 65.8 80.9 0.46
fr 60.7 48.7 55.0 62.5 64.8 70.4 79.0 fr 60.7 48.7 55.0 62.5 64.8 70.4 79.0 0.46
zh 50.8 35.2 41.8 61.1 60.6 66.7 79.5 zh 50.8 35.2 41.8 61.1 60.6 66.7 79.5 0.46
Table 6: X-stance zero-shot results (F1) for each language. 表6: 各言語に対するXスタンスゼロショット結果(F1)。 0.74
* denotes that the language is not one of the training languages of the respective sentence encoder. * 言語は各文エンコーダの訓練言語の1つではないことを示す。 0.75
en Model 82.3 mBERT distilmBERT 77.9 81.9 XLM-mlm 84.2 XLM-tlm 83.1 XLM-100 XLMR-b 82.8 88.8 XLMR-l en Model 82.3 mBERT distilmBERT 77.9 81.9 XLM-mlm 84.2 XLM-tlm 83.1 XLM-100 XLMR-b 82.8 XLMR-l 0.52
AVG 66.1 59.2 68.4 70.9 67.3 73.0 79.0 AVG 66.1 59.2 68.4 70.9 67.3 73.0 79.0 0.46
el 68.2 61.4 73.3 74.3 72.4 75.3 81.8 el 68.2 61.4 73.3 74.3 72.4 75.3 81.8 0.46
vi 70.9 59.2 70.3 72.8 72.7 74.6 79.5 vi 70.9 59.2 70.3 72.8 72.7 74.6 79.5 0.46
fr 75.3 69.9 75.2 77.9 75.5 76.9 82.7 fr 75.3 69.9 75.2 77.9 75.5 76.9 82.7 0.46
bg 69.4 63.9 73.7 76.5 72.6 77.3 83.0 bg 69.4 63.9 73.7 76.5 72.6 77.3 83.0 0.46
ru 69.8 63.6 72.0 75.3 71.3 75.2 79.3 ru 69.8 63.6 72.0 75.3 71.3 75.2 79.3 0.46
sw 51.3 46.6 64.9 67.4 58.4 66.4 71.6 sw 51.3 46.6 64.9 67.4 58.4 66.4 71.6 0.46
de 72.1 65.7 73.0 76.2 73.3 75.7 82.9 de 72.1 65.7 73.0 76.2 73.3 75.7 82.9 0.46
th 54.7 39.1 49.2 53.9 39.7 71.6 77.0 th 54.7 39.1 49.2 53.9 39.7 71.6 77.0 0.46
tr 62.2 57.3 67.3 70.8 68.2 72.4 78.7 tr 62.2 57.3 67.3 70.8 68.2 72.4 78.7 0.46
ur 58.8 54.1 62.8 62.7 62.0 65.2 71.5 ur 58.8 54.1 62.8 62.7 62.0 65.2 71.5 0.46
zh 69.7 62.4 67.3 69.3 67.0 73.0 79.3 zh 69.7 62.4 67.3 69.3 67.0 73.0 79.3 0.46
ar 65.7 60.3 68.5 71.1 67.9 71.0 78.6 ar 65.7 60.3 68.5 71.1 67.9 71.0 78.6 0.46
es 75.9 70.1 75.3 78.3 76.6 78.2 84.5 es 75.9 70.1 75.3 78.3 76.6 78.2 84.5 0.46
hi 60.6 54.7 64.4 66.5 64.7 68.6 76.0 hi 60.6 54.7 64.4 66.5 64.7 68.6 76.0 0.46
Table 7: XNLI zero-shot results (Accuracy) for each language 表7: 各言語に対するXNLIゼロショット結果(精度) 0.89
英語(論文から抽出)日本語訳スコア
en Model mBERT 84.8/72.9 distilmBERT 78.0/65.9 77.2/64.5 XLM-mlm 82.5/70.4 XLM-tlm 84.6/73.4 XLM-100 XLMR-b 83.3/72.4 XLMR-l 86.8/75.5 Model mBERT 71.4/54.9 distilmBERT 58.9/40.2 64.1/47.0 XLM 72.6/55.3 XLM-tlm XLM-100 73.7/57.6 73.3/56.9 XLMR-b XLMR-l 79.4/62.9 エン Model mBERT 84.8/72.9 distilmBERT 78.0/65.9 77.2/64.5 XLM-mlm 82.5/70.4 XLM-tlm 84.6/73.4 XLM-100 XLMR-b 83.3/72.4 XLMR-l 86.8/75.5 Model mBERT 71.4/54.9 distilmBERT 58.9/40.2 64.1/47.0 XLM 72.6/55.3 XLM-tlm XLM-100 73.7/57.3/56.9 XLMR-b XLMR-l 79.62.9 0.40
ru ar 62.6/46.0 44.6/28.3 59.9/43.2 68.1/51.6 67.6/50.3 65.0/47.1 74.1/55.6 ル ar 62.6/46.0 44.6/28.3 59.9/43.2 68.1/51.6 67.6/50.3 65.0/47.1 74.1/55.6 0.56
th 43.3/34.4 20.9/13.9 24.9/12.4 33.3/21.9 22.4/13.6 67.1/55.5 73.7/62.6 ! 43.3/34.4 20.9/13.9 24.9/12.4 33.3/21.9 22.4/13.6 67.1/55.5 73.7/62.6 0.39
de 72.5/56.8 57.6/41.0 66.0/50.4 73.7/57.6 73.6/58.3 73.4/57.6 79.5/62.6 デ 72.5/56.8 57.6/41.0 66.0/50.4 73.7/57.6 73.6/58.3 73.4/57.6 79.5/62.6 0.38
tr 54.8/40.8 37.9/21.8 50.2/34.6 65.0/47.5 66.7/49.9 67.5/50.4 74.7/58.5 tr 54.8/40.8 37.9/21.8 50.2/34.6 65.0/47.5 66.7/49.9 67.5/50.4 74.7/58.5 0.52
el 64.4/47.1 37.6/21.2 57.8/39.5 69.5/51.2 63.9/45.1 71.9/54.5 79.8/61.4 エル 64.4/47.1 37.6/21.2 57.8/39.5 69.5/51.2 63.9/45.1 71.9/54.5 79.8/61.4 0.39
vi 68.1/48.9 47.5/28.2 60.3/41.3 71.8/51.3 73.9/54.8 73.0/53.4 79.4/59.4 vi 68.1/48.9 47.5/28.2 60.3/41.3 71.8/51.3 73.9/54.8 73.0/53.4 79.4/59.4 0.52
es 75.3/56.3 60.5/40.0 67.7/49.8 77.1/59.2 77.3/59.1 75.5/57.1 82.0/62.3 es 75.3/56.3 60.5/40.0 67.7/49.8 77.1/59.2 77.3/59.1 75.5/57.1 82.0/62.3 0.52
zh 58.3/48.2 46.9/33.8 39.8/30.1 53.4/43.8 54.1/44.5 51.6/41.7 55.5/46.7 ZH 58.3/48.2 46.9/33.8 39.8/30.1 53.4/43.8 54.1/44.5 51.6/41.7 55.5/46.7 0.34
hi 58.6/45.1 34.9/20.5 47.5/33.0 65.6/50.2 60.2/44.5 68.3/50.9 75.4/58.6 こんにちは 58.6/45.1 34.9/20.5 47.5/33.0 65.6/50.2 60.2/44.5 68.3/50.9 75.4/58.6 0.42
AVG 62.9/47.8 44.7/28.9 53.8/38.1 65.0/48.9 63.3/47.8 68.7/52.5 75.4/59.1 AVG 62.9/47.8 44.7/28.9 53.8/38.1 65.0/48.9 63.3/47.8 68.7/52.5 75.4/59.1 0.52
Table 8: XQuAD results (F1/Exact-match) for each language 表 8: 各言語に対するXQuAD結果(F1/Exact-match) 0.74
                         ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。