論文の概要、ライセンス

# (参考訳) XtremeDistilTransfor mers:タスク非依存蒸留のためのタスク転送 [全文訳有]

XtremeDistilTransfor mers: Task Transfer for Task-agnostic Distillation ( http://arxiv.org/abs/2106.04563v1 )

ライセンス: CC BY 4.0
Subhabrata Mukherjee, Ahmed Hassan Awadallah, Jianfeng Gao(参考訳) 深層および大規模事前学習モデルは、様々な自然言語処理タスクの最先端技術である一方、その巨大なサイズは、リソース制約された設定における実用的な利用に重大な課題をもたらす。 知識蒸留における最近の研究は、これらのモデルを圧縮するタスク固有の方法だけでなく、タスクに依存しない手法も提案している。 本研究では,タスク依存型蒸留フレームワークxtremedistiltransfor mersを開発し,任意のタスクや言語に適用可能な,小さな普遍モデルを学ぶためのタスク特化手法の利点を生かした。 そこで本研究では, 蒸留における複数のソースタスク, 拡張資源, モデルアーキテクチャの伝達可能性について検討する。 我々は,言語理解評価(GLUE)ベンチマーク,SQuAD質問応答データセット,41言語からなる多言語NERデータセットなど,複数のタスクにおけるモデル性能を評価する。

While deep and large pre-trained models are the state-of-the-art for various natural language processing tasks, their huge size poses significant challenges for practical uses in resource constrained settings. Recent works in knowledge distillation propose task-agnostic as well as task-specific methods to compress these models, with task-specific ones often yielding higher compression rate. In this work, we develop a new task-agnostic distillation framework XtremeDistilTransfor mers that leverages the advantage of task-specific methods for learning a small universal model that can be applied to arbitrary tasks and languages. To this end, we study the transferability of several source tasks, augmentation resources and model architecture for distillation. We evaluate our model performance on multiple tasks, including the General Language Understanding Evaluation (GLUE) benchmark, SQuAD question answering dataset and a massive multi-lingual NER dataset with 41 languages.
公開日: Tue, 8 Jun 2021 17:49:33 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
XtremeDistilTransfor mers: Task Transfer for Task-agnostic Distillation XtremeDistilTransfor mers:タスク非依存蒸留のためのタスク転送 0.63
Subhabrata Mukherjee subhabrata mukherjee (複数形 subhabratas) 0.27
Ahmed Hassan Awadallah Ahmed Hassan Awadallah 0.85
Jianfeng Gao {submukhe, hassanam, jfgao}@microsoft.com ジャンファンガオ {submukhe, hassanam, jfgao}@microsoft.com 0.74
Microsoft Research microsoft research 0.76
1 2 0 2 n u J 1 2 0 2 n u J 0.85
8 ] L C . s c [ 8 ]LC。 sc [ 0.60
1 v 3 6 5 4 0 1 v 3 6 5 4 0 0.85
. 6 0 1 2 : v i X r a . 6 0 1 2 : v i X r a 0.85
Abstract While deep and large pre-trained models are the state-of-the-art for various natural language processing tasks, their huge size poses significant challenges for practical uses in resource constrained settings. 概要 深層および大規模事前学習モデルは、様々な自然言語処理タスクの最先端技術である一方、その巨大なサイズは、リソース制約された設定における実用的な利用に重大な課題をもたらす。 0.51
Recent works in knowledge distillation propose task-agnostic as well as task-specific methods to compress these models, with task-specific ones often yielding higher compression rate. 知識蒸留における最近の研究は、これらのモデルを圧縮するタスク固有の方法だけでなく、タスクに依存しない手法も提案している。
訳抜け防止モード: 知識蒸留における最近の課題-------------------特定の方法 これらのモデルをタスクで圧縮する - 特定のモデルは、しばしばより高い圧縮率をもたらす。
0.64
In this work, we develop a new task-agnostic distillation framework XtremeDistilTransfor mers that leverages the advantage of task-specific methods for learning a small universal model that can be applied to arbitrary tasks and languages. 本研究では,タスク依存型蒸留フレームワークxtremedistiltransfor mersを開発し,任意のタスクや言語に適用可能な,小さな普遍モデルを学ぶためのタスク特化手法の利点を生かした。 0.75
To this end, we study the transferability of several source tasks, augmentation resources and model architecture for distillation. そこで本研究では, 蒸留における複数のソースタスク, 拡張資源, モデルアーキテクチャの伝達可能性について検討する。 0.63
We evaluate our model performance on multiple tasks, including the General Language Understanding Evaluation (GLUE) benchmark, SQuAD question answering dataset and a massive multi-lingual NER dataset with 41 languages. 我々は,言語理解評価(GLUE)ベンチマーク,SQuAD質問応答データセット,41言語からなる多言語NERデータセットなど,複数のタスクにおけるモデル性能を評価する。 0.87
1 Introduction Large-scale pre-trained models have become the standard starting point for various natural language processing tasks (Devlin et al , 2019a). はじめに 大規模事前学習モデルは、様々な自然言語処理タスク(Devlin et al , 2019a)の標準出発点となっている。 0.65
Several NLP tasks have achieved significant progress utilizing these pre-trained models reaching previously unattainable performance (Clark et al , 2020; Liu et al , 2019b). いくつかのNLPタスクは、これらの事前訓練されたモデルを利用して、以前に達成不可能な性能に達する(Clark et al , 2020; Liu et al , 2019b)。 0.59
The size of these models have been also steadily growing to hundreds of millions (Devlin et al , 2019a; Yang et al , 2019) to billions of parameters (Raffel et al , 2019; Brown et al , 2020). これらのモデルのサイズも着実に増加しており(Devlin et al , 2019a; Yang et al , 2019)、数十億のパラメータ(Raffel et al , 2019; Brown et al , 2020)に成長している。 0.88
Code available at: 利用可能なコードは: 0.75
https://github.com/m icrosoft/xtreme-dist il-transformers Task-agnostic checkpoints available at: https://huggingface. co/microsoft/xtremed istil-l6-h256-uncase d https://github.com/m icrosoft/xtreme-dist il-transformers task-agnostic checkpoints available at https://huggingface. co/microsoft/xtremed istil-l6-h256-uncase d 0.34
https://huggingface. co/microsoft/xtremed istil-l6-h384-uncase d https://huggingface. co/microsoft/xtremed istil-l6-h384-uncase d 0.24
https://huggingface. co/microsoft/xtremed istil-l12-h384-uncas ed https://huggingface. co/microsoft/xtremed istil-l12-h384-uncas ed 0.24
The huge size poses significant challenges for downstream applications in terms of energy consumption and cost of inference (Strubell et al , 2019). この巨大なサイズは、エネルギー消費と推論コストの観点から下流のアプリケーションに重大な課題をもたらす(Strubell et al , 2019)。 0.74
As such, it could be a deterrent to using them in practice limiting their usage in onthe edge scenarios and under constrained computational training or inference budgets. したがって、オンザエッジシナリオや制約付き計算トレーニングや推論予算の下での使用を制限することで、それらの使用を抑止する可能性がある。 0.80
Several research directions have considered compressing large-scale models including work on pruning (Gordon et al , 2020), quantization (Han et al , 2016) and distillation (Sanh, 2019). いくつかの研究方向は、プルーニング(Gordon et al , 2020)、量子化(Han et al , 2016)、蒸留(Sanh, 2019)などの大規模モデルを圧縮することを検討している。 0.67
Knowledge distillation, in particular, has shown strong results in pre-trained transformerbased language model compression. 特に知識蒸留は、事前訓練されたトランスフォーマーベースの言語モデル圧縮の強い結果を示している。 0.63
With knowledge distillation, we train a student network (with smaller capacity) to mimic the full output distribution of the teacher network (Hinton et al , 2015). 知識蒸留では,教員ネットワークの完全な出力分布を再現するために(少ない容量で)学生ネットワークを訓練する(hinton et al, 2015)。 0.76
Knowledge distillation has been applied to pretrained language model compression in two different settings: (1) before task-specific fine tuning (i.e. 知識蒸留は、(1)タスク固有の微調整前(すなわち、)の2つの異なる設定で事前訓練された言語モデル圧縮に適用されている。 0.58
task-agnostic distillation) or (2) after taskspecific fine tuning (i.e. タスク非依存蒸留)または(2)タスク特異的微調整後の(すなわち) 0.59
task-specific distillation). Task-agnostic distillation (Sanh, 2019; Sun et al , 2019, 2020) has the advantage that the model needs to be distilled only once and can be reused for fine-tuning on multiple down-stream tasks. タスク特化蒸留)。 タスク非依存蒸留 (Sanh, 2019; Sun et al , 2019, 2020) は、モデルを一度だけ蒸留する必要があるという利点があり、複数の下流タスクを微調整するために再利用することができる。 0.67
It also allows us to achieve speedup in both fine-tuning and inference. また、微調整と推論の両方でスピードアップを実現できます。 0.64
On the other hand, taskspecific distillation (Tang et al , 2019; Jiao et al , 2019; Mukherjee and Hassan Awadallah, 2020) has been shown to achieve significantly higher compression rate and inference speedup (Fu et al , 2020; Mukherjee and Hassan Awadallah, 2020). 一方、タスク特異的蒸留(Tang et al , 2019, Jiao et al , 2019, Mukherjee and Hassan Awadallah, 2020)では、圧縮速度と推論速度が著しく向上することが示されている(Fu et al , 2020, Mukherjee and Hassan Awadallah, 2020)。 0.82
In this work, we first study the transferability of pre-trained models across several source tasks to select the optimal one for transfer. 本研究では,まず,複数のソースタスクにまたがる事前学習モデルの転送可能性について検討し,転送に最適なモデルを選択する。 0.66
We then aim to create universally distilled models that can be used with any downstream task while leveraging the benefits of the techniques and augmentation resources developed for the source transfer task. 次に、ソース転送タスクのために開発された技術と拡張リソースの利点を活用しながら、ダウンストリームタスクで使用できる普遍蒸留モデルを作成することを目的とする。 0.72
We 私たち 0.65
英語(論文から抽出)日本語訳スコア
and augmentation resources show that distilled models that use task-specific data transfer to varying degrees and their transferability depends on choices of the source task, data augmentation strategy and distillation techniques. 資源の増強や 異なる程度までタスク固有のデータ転送を使用する蒸留モデルとその転移性は、ソースタスクの選択、データ拡張戦略、蒸留技術に依存する。 0.76
Contributions: More specifically, this work makes the following contributions: (a) Studies the transferability of several source tasks taskagnostic knowledge distillation. コントリビューション: より具体的には、この研究は以下の貢献をしている: (a) タスクに依存しない知識蒸留の伝達可能性の研究。 0.62
(b) Develops a distillation framework to learn a massively compressed student model leveraging deep hidden representations and attention states from multiple layers of the teacher model with progressive knowledge transfer. (b)教師モデルの複数の層から深い隠れた表現と注意状態を利用して,高度に圧縮された学生モデルを学ぶための蒸留フレームワークを開発する。 0.81
(c) Extensive experiments on several datasets in GLUE benchmark and for massive multilingual NER demonstrate the effectiveness of task and language transfer. (c)GLUEベンチマークおよび大規模多言語NERにおける複数のデータセットに対する大規模な実験により,タスクと言語伝達の有効性が示された。
訳抜け防止モード: (c)GLUEベンチマークにおける複数のデータセットの大規模な実験 そして、多言語NERはタスクと言語転送の有効性を示す。
0.74
Finally, we will release the taskagnostic checkpoints for the distilled models. 最後に、蒸留モデルのタスクに依存しないチェックポイントをリリースします。 0.57
for 2 Exploring Tasks for Transfer ですから 2 転送タスクの探索 0.64
2.1 Role of Tasks for Distillation 2.1 蒸留作業の役割 0.83
Task-specific distillation assumes the presence of human labeled data to fine-tune the teacher for the underlying task and provide the student with corresponding logits for learning. 課題特化蒸留は、人間ラベル付きデータの存在を前提として、基礎となるタスクを教師に微調整し、学習用ロジットを提供する。
訳抜け防止モード: 課題-人間ラベル付きデータの存在を前提とした特定蒸留 教師に基礎となる課題を調整し 生徒に学習のロジットを与える。
0.75
Such techniques have shown massive compression (e g , 7.5x compression in LRC-BERT (Fu et al , 2020) and 35x compression in XtremeDistil (Mukherjee and Hassan Awadallah, 2020)) without performance loss. このような技術は、大きな圧縮(例えば、RC-BERT (Fu et al , 2020) における7.5倍の圧縮)と XtremeDistil (Mukherjee と Hassan Awadallah, 2020) における35倍の圧縮)を性能損失なく示している。 0.71
An obvious disadvantage is the need to distil for each and every task which is resource-intensive. 明らかな欠点は、リソース集約的なタスクごとに分割する必要があることです。
訳抜け防止モード: 明らかな欠点は、その必要性である to distil for each and every task that are resource - intensive.
0.79
In contrast, task-agnostic methods rely on objectives like masked language modeling (MLM) and representation transfer over unlabeled data. 対照的に、タスク非依存の手法は、マスク付き言語モデリング(MLM)やラベルなしデータへの表現転送のような目的に依存している。 0.49
These do not require human labels allowing them to learn from massive amounts of text. これらは、大量のテキストから学ぶことができる人間のラベルを必要としない。 0.72
This allows the model to retain general information applicable to arbitrary tasks, but results in much less compression (e g , 2x1 in MiniLM (Wang et al , 2020), (Sanh, 2019) and TinyBERT (Jiao et al , 2019)). これにより、任意のタスクに適用可能な一般的な情報を保持することができるが、結果、MiniLM (Wang et al , 2020), (Sanh, 2019), TinyBERT (Jiao et al , 2019)の圧縮がはるかに少ない。
訳抜け防止モード: これにより、任意のタスクに適用可能な一般的な情報を保持することができる。 しかし、圧縮がずっと少ない(例えば、MiniLMの2x1(Wang et al, 2020))。 (Sanh, 2019 ) と TinyBERT (Jiao et al, 2019 )。
0.77
This begs the question of whether we can use more specific tasks, other than language modeling, that can harness human labels to provide task-specific logits and representations, while also transferring well to arbitrary tasks. これは、人間のラベルを利用してタスク固有のロジットと表現を提供しながら、任意のタスクにうまく移行できる言語モデリング以外の、より具体的なタスクを使用できるかどうかという問題である。 0.61
This would allow us to leverage the relative strength of both これにより、両方の相対的な強度を利用することができます。 0.55
1Considering model checkpoints with the least performance loss with respect to the big pre-trained language model. 1 大きな事前訓練された言語モデルに対して、最小性能のモデルチェックポイントを考慮。 0.78
of the above families of techniques to obtain high compression rate of task-specific methods as well as wide applicability of task-agnostic ones. 課題特定手法の高圧縮率とタスク非依存手法の適用性を両立させる技術群について検討した。 0.63
2.2 Transferability of Tasks 2.2 タスクの転送可能性 0.59
In order to leverage task-specific distillation techniques, we need to select a source task that transfers well to other tasks such that: a model distilled for the source task can obtain a good performance on fine-tuning with labeled data from arbitrary target tasks. タスク固有の蒸留技術を利用するには、次のように他のタスクによく転送するソースタスクを選択する必要がある。
訳抜け防止モード: タスク-特定の蒸留技術を利用するには、他のタスクによく転送されるソースタスクを選択する必要がある。 任意のターゲットタスクからラベル付きデータをチューニングする。
0.52
We perform the following analysis with the pre-trained teacher model with the assumption that the benefits will be transferred to the student model. 我々は,学生モデルにメリットが移されるという前提のもと,事前学習した教師モデルを用いて以下の分析を行う。 0.78
A recent work (Chen et al , 2020a) studies the notion of task transferability for BERT in the context of lottery ticket hypothesis (Frankle and Carbin, 2019). 最近の研究(Chen et al , 2020a)では、抽選チケット仮説(Frankle and Carbin, 2019)の文脈でBERTのタスク転送可能性の概念が研究されている。 0.65
Specifically, the authors study if subnetworks obtained for one task obtained by network pruning transfer to other tasks and if there are universal subnetworks that train well for many tasks. 具体的には,ネットワークプルーニングによって得られたタスクを他のタスクに転送し,多くのタスクをうまく訓練するユニバーサルサブネットワークが存在するかどうかを検討する。 0.77
The authors observe that while masked language modeling (MLM) is the most universal task, there are other candidate tasks like natural language inference and question-answering that allow us to transfer meaningful representations to other tasks. 著者らは、マスク付き言語モデリング(MLM)が最も普遍的なタスクである一方で、他のタスクに意味のある表現を転送できる自然言語推論や質問応答のような他の候補タスクがあると考えている。 0.73
Task transfer. Consider a pre-trained neural network model (e g , BERT) f (x; θ) with encoder parameters θ ∈ Rd1 . タスク転送。 エンコーダパラメータ θ ∈ Rd1 を持つ事前学習されたニューラルネットワークモデル (eg , BERT) f (x; θ) を考える。 0.73
Given a source task S with ground-truth labeled data DS = {x, y}, we first fine-tune the pre-trained model f (x; θ, γS ) by adding task-specific classification parameters γS ∈ Rd2 . 基底構造ラベル付きデータ DS = {x, y} を持つソースタスク S が与えられたとき、まずタスク固有の分類パラメータ γS ∈ Rd2 を追加して、事前訓練されたモデル f (x; θ, γS ) を微調整する。 0.65
We now extract the encoder f (x; θS ) where the parameters θS ∈ Rd1 have been adapted to the source task (θ → θS ). 現在、パラメータ θS ∈ Rd1 が元のタスク (θ → θS ) に適応しているエンコーダ f (x; θS ) を抽出する。 0.77
Now, given a target task T with labeled data DT , we further fine-tune the encoder f (x; θS, γT ) where γT ∈ Rd3 represents task-specific parameters for the target task. 現在、ラベル付きデータDT を持つ対象タスク T が与えられた場合、さらに γT ∈ Rd3 が対象タスクのタスク固有のパラメータを表すエンコーダ f (x; θS, γT ) を微調整する。 0.77
Selection criteria for the best source task. 最適なソースタスクの選択基準。 0.66
Given a set of source S and target T tasks, consider eval(s ∈ S → t ∈ T ) to be the performance of a pre-trained language model that is adapted from s to t, measured with some evaluation metric (e g , accuracy, F1). ソース s とターゲット t のタスクの集合が与えられたとき、eval(s ∈ s → t ∈ t ) を s から t に適応した事前学習された言語モデルの性能と考えて、いくつかの評価指標 (例えば、精度、f1) で測定する。 0.75
We define the best source transfer task as argmaxs∈S ing the best transfer performance obtained on an average on transferring a pre-trained model from the source to a set of different target tasks. 本研究は、学習済みのモデルをソースから異なるターゲットタスクのセットに転送する際の平均で得られる最良の転送性能について、最適なソース転送タスクをargmaxs・Sと定義する。 0.71
Pt∈T eval(s → t) depict- Pt~T eval(s → t)図面 0.79
|T | 1 While this definition simplifies the transfer |T | 1 この定義は転送を単純化しますが 0.78
英語(論文から抽出)日本語訳スコア
Table 1: Transfer performance on fine-tuning BERT on labeled data for several source tasks in the rows (e g , MNLI), extracting the encoder (e g , MNLI-BERT) and further fine-tuning on labeled data for several target tasks in the columns. 表1:行内の複数のソースタスクに対するラベル付きデータ(例えば、MNLI)上の細調整BERTの転送性能、エンコーダ(例えば、MNLI-BERT)の抽出、列内の複数のターゲットタスクに対するラベル付きデータへの微調整。 0.80
We observe MNLI to obtain the best performance for task transfer on an average. 我々は、mnliを観測し、平均でタスク転送の最高の性能を得る。 0.65
MRPC MNLI RTE MRPC MNLI RTE 0.85
QQP QNLI SST-2 QQP QNLI SST-2 0.76
SQuADv1 Avg SQuADv1 Avg 0.88
#Labels BERT MNLI-BERT QNLI-BERT SST2-BERT SQuADv1-BERT #ラベル BERT MNLI-BERT QNLI-BERT SST2-BERT SQuadv1-BERT 0.62
3.7K 393K 2.5K 364K 3.7K 393K2.5K364K 0.47
108K 83.8 88.2 87.0 81.6 86.3 108K 83.8 88.2 87.0 81.6 86.3 0.61
84.4 66.8 84.2 84.8 84.7 84.6 84.4 66.8 84.2 84.8 84.7 84.6 0.54
79.1 73.3 66.1 69.7 79.1 73.3 66.1 69.7 0.45
91.2 91.1 91.0 91.1 87.1 91.2 91.1 91.0 91.1 87.1 0.52
91.4 91.1 91.6 91.3 91.6 91.4 91.1 91.6 91.3 91.6 0.52
67K 92.2 93.6 93.0 93.4 92.9 67K 92.2 93.6 93.0 93.4 92.9 0.61
87K - 88.3 87K - 88.3 0.74
85.4 87.2 88.1 87.6 88.3 85.4 87.2 88.1 87.6 88.3 0.52
87.8 87.0 85.1 85.4 87.8 87.0 85.1 85.4 0.45
ternary problem ignoring task difficulty (e g , MNLI is harder than binary SST), domain overlap (SQuAD and QNLI are both question-answering datasets), task setup (e g , span extraction in SQuAD and pairwise-classification in MNLI) and variable amount of training labels per task, we defer a more controlled study of this problem as future work. タスクの難易度(例えば、MNLIはバイナリSSTよりも難しい)、ドメインオーバーラップ(SQuADとQNLIは問合せ用データセットである)、タスク設定(例えば、SQuADのスパン抽出とMNLIのペアワイズ分類)、タスク毎のトレーニングラベルの変動量などを無視して、この問題のより制御された研究を将来の作業として提案する。 0.74
Candidate tasks for transfer. 転送の候補となるタスク。 0.66
We consider a subset of source tasks from lottery ticket hypothesis for BERT (Chen et al , 2020a) for which transfer performance is at least as high as same-task performance on atleast two target tasks. 本稿では,BERT (Chen et al , 2020a) の抽選チケット仮説に基づく,最低2つの目標タスクにおける転送性能が,少なくとも同タスクのパフォーマンスであるソースタスクのサブセットについて検討する。
訳抜け防止モード: BERT ( Chen et al, 2020a ) の抽選チケット仮説からの出典タスクのサブセットを考える。 転送性能は少なくとも2つの目標タスクにおけるタスクパフォーマンスと同程度である。
0.78
We ignore MLM since the pre-trained encoder (BERT) is intrinsically trained with MLM objective that provides no additional information in our transfer setup. 我々は、事前訓練されたエンコーダ(BERT)が、転送設定に付加的な情報を提供するMLM目標で本質的に訓練されているため、MLMを無視する。 0.53
Transfer evaluation. Table 1 shows the performance of pre-trained BERT-base with task transfer, where each row depicts a source task S and each column represents the target task T . 転送評価。 表1は、各行がソースタスクSを描写し、各列がターゲットタスクTを表現した、タスク転送による事前訓練されたBERTベースのパフォーマンスを示す。 0.65
We observe that MNLI as the source task, followed by QNLI, has the best performance on an average on transferring to several target tasks, especially those with limited training labels for fine-tuning. 我々は、MNLIをソースタスクとし、QNLIは複数の目標タスク、特に微調整のための限られたトレーニングラベルを持つタスクへの転送において、平均して最高のパフォーマンスを有することを観察した。 0.57
Similar improvements with MNLI for tasks like RTE (textual entailment) and MRPC (paraphrase) have been reported in recent work like RoBERTa (Liu et al , 2019b). RTE(textual Entailment)やMRPC(paraphrase)といったタスクに対するMNLIの同様の改善は、RoBERTa(Liu et al , 2019b)のような最近の研究で報告されている。 0.72
Therefore, we adopt MNLI as the source task for transfer distillation and evaluate its effectiveness for several target tasks and languages. そこで我々は,MNLIを蒸留の原点として採用し,その有効性をいくつかの目標課題や言語で評価する。 0.61
2.3 Transfer Set for Knowledge Distillation 2.3 知識蒸留用トランスファーセット 0.80
Task-agnostic methods can learn from large unlabeled general-purpose text using self-supervision objectives like MLM. タスク非依存の手法は、MLMのような自己超越目標を用いて、大きなラベルのない汎用テキストから学習することができる。 0.36
Task-specific distillation, on the other hand, rely on large-scale task-specific transfer data that is often difficult to obtain for many tasks. 一方、タスク特化蒸留は大規模タスク特化トランスファーデータに依存しており、多くのタスクでは入手が困難であることが多い。 0.62
Prior works show large-scale task- 先行研究は大規模課題を示す- 0.45
specific transfer data to be instrumental in minimizing the performance gap of the teacher and student (Turc et al , 2019; Mukherjee and Hassan Awadallah, 2020). 具体的な転送データは、教師と学生のパフォーマンスギャップを最小限に抑えるのに役立つ(Turc et al , 2019; Mukherjee and Hassan Awadallah, 2020)。 0.79
However, these works primarily explore instance-classification tasks like sentiment classification (e g , IMDB and SST2) or topic classification (e g , AG News and Dbpedia) with readily available in-domain transfer data. しかし、これらの研究は主に、感情分類(例:IMDB、SST2)やトピック分類(例:AG News、Dbpedia)のようなインスタンス分類タスクを、ドメイン内の転送データで簡単に利用できるようにする。
訳抜け防止モード: しかしながら、これらの作業は主にインスタンス-感情分類のような分類タスク(例)を探索する。 IMDB と SST2 ) またはトピック分類(AG News など) ドメイン転送データで簡単に利用できる。
0.78
For example, sentiment classification in IMDB can benefit from large amounts of unlabeled user reviews from the forum. 例えば、imdbの感情分類は、フォーラムから大量のラベルのないユーザーレビューの恩恵を受けることができる。 0.69
However, this is difficult to obtain for pair-wise classification tasks like NLI. しかし、NLIのようなペアワイズ分類タスクでは入手が困難である。 0.64
Additionally, NLI being a ternary classification task (entail / contradict / neutral) requires a transfer set with a similar label distribution for effective transfer. さらに、NLI は三次分類タスク (entail / contradict / neutral) であり、効果的な転送のために同様のラベル分布を持つ転送セットを必要とする。 0.68
To address these issues, we explore techniques to automatically generate largescale task-specific transfer sets leveraging a very large bank of web sentences from Common Crawl in Section 4.1. これらの課題に対処するために,第4.1節のCommon Crawlから非常に大きなウェブ文のバンクを利用した大規模タスク特化トランスファーセットの自動生成手法を検討する。 0.65
3 Distillation Framework 3 蒸留フレームワーク 0.66
Overview. Given a pre-trained model fine-tuned on the source task as teacher, our objective is to distil its knowledge in a compressed (both in terms of width and depth) student. 概要。 教師としてソースタスクを微調整した事前学習モデルを考えると,その知識を(幅と深さの両面から)圧縮した学生に使い捨てることが目的である。 0.69
Given a wide teacher and a narrow student, we employ embedding factorization to align their widths for knowledge transfer. 広義の教師と狭義の学生を対象とし,知識伝達の幅を合わせるために埋め込み分解を用いる。 0.66
Given a deep teacher and a shallow student, we align all the layers of the student to the topmost layers of the teacher. 深い教師と浅い生徒が与えられたので、私たちは生徒のすべての層を教師の一番上の層に合わせます。 0.74
To this end, we transfer both the hidden representations as well as attention states from multiple layers of the teacher to the student with progressive knowledge transfer. この目的のために、教師の複数の階層から、隠された表現と注意状態の両方をプログレッシブな知識伝達を持つ学生に転送する。 0.66
The above techniques in combination allow us to transfer knowledge from any teacher to any student of arbitrary architecture. 上記のテクニックを組み合わせることで、任意のアーキテクチャの生徒に知識を伝達することができます。 0.76
Finally, XtremeDistilTransfor mers supports for both task and language transfer (refer to Section 4.4) in contrast to many prior work. 最後に、xtremedistiltransfor mersは、多くの以前の仕事とは対照的に、タスクと言語の両方の転送をサポートする。 0.62
Table 2 contrasts XtremeDis- Table 2がXtremeDisと対比 0.68
英語(論文から抽出)日本語訳スコア
Table 2: Contrasting XtremeDistilTransfor mers with state-of-the-art task-agnostic distilled models. 表2: XtremeDistilTransfor mersと最先端のタスク非依存蒸留モデルとの対比。 0.52
XtremeDistilTransfor mers leverages embedding factorization, hidden representations and attention states of the teacher from multiple layers with progressive knowledge transfer for distillation while accommodating arbitrary student architecture and languages. xtremedistiltransfor mersは、任意の学生のアーキテクチャや言語に適応しながら、蒸留のための進歩的な知識伝達を伴う複数の層から教師の埋め込み因子化、隠れた表現、注意状態を活用する。 0.54
Embedding Factorization Representation Hidden 埋め込み因子化表現 隠れ 0.70
Attention MultiState layer 注意マルチステート 層 0.72
Progressive Transfer プログレッシブトランスファー 0.58
Student-arch. Multilingual -agnostic 生徒長。 Multilingual-Agnosti c 0.66
DistilBERT TinyBERT MiniLM ! DistilBERT TinyBERT MiniLM! 0.85
MobileBERT XtremeDistilTransfor mers ! MobileBERT XtremeDistilTransfor mers! 0.84
! ! ! ! ! ! ! ! ! ! ! ! 0.85
! ! ! ! ! ! ! ! ! ! ! ! 0.85
! ! ! ! ! ! ! ! ! ! ! ! 0.85
tilTransformers against existing distillation techniques, namely, DistilBERT (Sanh, 2019), TinyBERT (Jiao et al , 2019), MiniLM (Wang et al , 2020) and MobileBERT (Sun et al , 2020). tilTransformersは、既存の蒸留技術であるDistilBERT (Sanh, 2019), TinyBERT (Jiao et al , 2019), MiniLM (Wang et al , 2020), MobileBERT (Sun et al , 2020)に対抗している。 0.81
Input Representation. XtremeDistilTransfor mers uses the tokenizer and special tokens as used in the teacher model. 入力表現。 XtremeDistilTransfor mersは、教師モデルで使用されるトークンと特別なトークンを使用する。 0.64
For instance, it uses Wordpiece tokenization (Wu et al , 2016) with a fixed vocabulary V (e g , 30k tokens) for distilling BERT and adds special symbols “[CLS]” and “[SEP]” to mark the beginning and end of a text sequence respectively. 例えば、BERTを蒸留するためにWordpieceトークン化(Wu et al , 2016)と固定語彙V(eg , 30kトークン)を使用し、それぞれテキストシーケンスの開始と終了をマークするために特別なシンボル“[CLS]”と“[SEP]”を追加する。 0.75
Teacher model. Given pre-trained models with variable performance across tasks, we want to choose the best teacher for the best source transfer task (i.e. 教師モデル。 タスク間のパフォーマンスが可変である事前トレーニングされたモデルを考えると、最高のソース転送タスク(すなわち、ソース転送タスク)に最適な教師を選びたいです。
訳抜け防止モード: 教師モデル。 タスク間で異なるパフォーマンスを持つ事前訓練されたモデルを考えると、私たちは望んでいます 最高のソース転送タスク(つまり
0.71
MNLI). We experiment with base and large versions of BERT (Devlin et al , 2019b) and Electra (Clark et al , 2020) as teachers. MNLI)。 BERT (Devlin et al , 2019b) と Electra (Clark et al , 2020) を教師として実験した。 0.72
Table 3 shows a comparison of their performance and parameters on MNLI. 表3は、MNLIのパフォーマンスとパラメータの比較を示す。 0.76
Given the same parameter complexity, we find Electra to be the best on MNLI. 同じパラメータの複雑さを考えると、ElectraはMNLIで最高である。 0.66
Table 3: Performance of fine-tuning pre-trained teacher models of different sizes on the MNLI task. 表3:MNLIタスク上の異なるサイズの微調整済み教師モデルの性能。 0.76
Model Params (MM) Accuracy モデル Params (MM) の精度 0.87
BERT-Base Electra-Base BERT-Large Electra-Large BERTベース BERTベース BERTラージ エレクトララージ 0.52
109 109 335 335 109 109 335 335 0.85
84.24 88.21 87.11 90.73 84.24 88.21 87.11 90.73 0.45
Student model. We compare the performance of state-of-the-art distilled models in terms of parameters, compression and performance gap (after distillation) with respect to the teacher (reported in Table 4). 学生モデル。 本研究では, 現状の蒸留モデルの性能を, 教師に対するパラメータ, 圧縮, 性能ギャップ(蒸留後の)で比較する(表4に記載)。 0.78
We observe MiniLM (Wang et al , 2020) to have the closest performance to the teacher BERT. We observed MiniLM (Wang et al , 2020) to to to the teacher BERT。
訳抜け防止モード: 我々はMiniLM(Wang et al, 2020)を観察する。 先生のBERTに最も近いパフォーマンスを得る。
0.70
Correspondingly, we choose miniature versions of MiniLM (23 MM and 14 MM parameters) これに対応して、MiniLM(23 MMおよび14 MMパラメータ)のミニチュア版を選択する。 0.74
as candidate students. We investigate different student initialization strategies (including initialization with a task-agnostic distilled model) and show that their performance can be improved further in the XtremeDistilTransfor mers framework. 学生候補として。 異なる学生初期化戦略(タスク非依存蒸留モデルによる初期化を含む)を調査し、xtremedistiltransfor mersフレームワークでその性能をさらに向上できることを示す。 0.71
We also study the trade-off between different architectural aspects (parameters, layers, attention heads and hidden dimension) against its performance. また,その性能に対する異なるアーキテクチャ面(パラメータ,レイヤ,注意ヘッド,隠れた次元)のトレードオフについても検討した。 0.62
In the following section, superscript T always represents the teacher and S denotes the student. 次の節では、スーパースクリプトTは常に教師を表し、Sは生徒を表す。 0.68
Table 4: Comparing distilled models from prior work based on average GLUE score, parameters (MM) and performance gap with respect to the teacher. 表4: 平均接着剤スコア、パラメータ(mm)、および教師に対するパフォーマンスギャップに基づく先行作業からの蒸留モデルの比較。 0.75
Models GLUE Params %Gap モデル グルー Params %Gap 0.71
BERT-Base DistilBERT BERT-Truncated TinyBERT MiniLM BERTベース distilbert bert-truncated tinybert minilm 0.53
81.5 75.2 76.2 79.1 80.4 81.5 75.2 76.2 79.1 80.4 0.52
109 66 66 66 66 109 66 66 66 66 0.85
- 7.73 6.50 2.94 1.35 - 7.73 6.50 2.94 1.35 0.65
3.1 Word Embedding Factorization 3.1 単語埋め込み因子化 0.61
Our student and teacher model consist of the word embedding layer with embedding matrices WS ∈ R|V|×dS , where dS < dT depicting a thin student and a wide teacher. 学生と教師のモデルは, 埋め込み行列 WS ∈ R|V|×dS の単語埋め込み層から成り, dS < dT は薄い学生と広い教師を描いている。 0.77
and WT ∈ R|V|×dT WT ∈ R|V|×dT 0.67
A large number of parameters reside in the word embeddings of pre-trained models. 多数のパラメータが事前訓練されたモデルの単語埋め込みに存在する。 0.79
For instance, multilingual BERT with WordPiece vocabulary of V = 110K tokens and embedding dimension of D = 768 contains 92M M word embedding parameters. 例えば、WordPiece vocabulary of V = 110K tokens and embedding dimension of D = 768 の多言語BERTは、92Mワードの埋め込みパラメータを含む。 0.84
We use a dimensionality reduction algorithm, namely, Singular Value Decomposition (SVD) to project the teacher word embeddings of dimension R|V|×dT to a lower dimensional space R|V|×dS . 我々は次元の削減アルゴリズム、すなわちSingular Value Decomposition (SVD) を用いて、R|V|×dT の教師語埋め込みを低次元空間 R|V|×dS に投影する。 0.76
Given the teacher word embedding matrix of dimension R|V|×dT , SVD finds the best dSdimensional representation that minimizes sum of R|V|×dT の教師語埋め込み行列が与えられたとき、SVD は和を最小化する最良の dS 次元表現を見つける。 0.64
英語(論文から抽出)日本語訳スコア
squares of the projections (of rows) to the subspace. 部分空間への射影(行の)の正方形。 0.61
3.2 Hidden Layer Representations 3.2隠れレイヤ表現 0.64
The student and teacher models consist of LS and LT repeated transformer blocks, where LS < LT . 生徒と教師のモデルはLSとLTの繰り返しトランスフォーマーブロックで構成されており、LS < LT である。 0.71
Considering an input sequence of n tokens x = {x1, x2, · · · xn}, the token embedding W is added to the position P E and segment SE embeddings as zi(xi) = W (xi) + P E(i) + SE(i). n 個のトークン x = {x1, x2, · · · xn} の入力列を考えると、トークンの埋め込み W は位置 P E に加算され、セグメント SE の埋め込みは zi(xi) = W (xi) + P E(i) + SE(i) となる。 0.84
The input to the network is given by H0 = [z1, z2, · · · z|x|]. ネットワークへの入力は H0 = [z1, z2, · · · z|x|] で与えられる。 0.87
In case of the student, the token embedding is obtained from the SVD-decomposed token embedding of the teacher model as WS , whereas the position and segment embeddings are learnable embeddings of dimension dS . 学生の場合は、教師モデルのSVD分解トークン埋め込みからWSとしてトークン埋め込みを得るが、位置とセグメント埋め込みは次元dSの学習可能な埋め込みである。 0.61
Transformer blocks repeatedly compute hidden state representations from the output of the previous layer, where hidden states from the lth layer of the teacher and student are given by, トランスフォーマーブロックは、教師と生徒のlth層からの隠れた状態が与えられる前層の出力から、隠れた状態表現を繰り返し計算する。 0.69
l,1, hT l = T ransf ormerT HT l,2,··· , hT l = [hT HT l = T ransf ormerS HS l,2,··· , hS l = [hS HS l,1,hT l = T ransf ormerT HT l,2,·· , hT l = [hT HT l = T ransf ormerS HS l,2,·· , hS l = [hS HS] 0.84
l−1), l ∈ [1, ···LT ] l (HT l,|x|], l ∈ [1, 2, ···LT ] l (HS l−1), l ∈ [1, ··· LS] l,|x|], l ∈ [1, 2, ···LS ] l−1, l ∈ [1, ··LT ] l (HT l,|x|], l ∈ [1, 2, ··LT ] l (HS l−1), l ∈ [1, ·· LS] l,|x|], l ∈ [1, 2, ···LS ] l 0.98
l,1, hS (1) l,1,hS (1) 0.80
(2) (3) (4) (2) (3) (4) 0.85
3.3 Multi-head Self-attention 3.3 マルチヘッド自己注意 0.51
Transformers view the input representation as a set of key-value pairs {K, V} of dimension same as input sequence length |x|. 変換器は入力表現を入力シーケンス長 |x| と同じ次元のキー-値対 {K, V} の集合と見なす。 0.82
Each of the key and values are obtained from hidden state representations of the encoder. それぞれのキーと値はエンコーダの隠された状態表現から得られる。 0.80
Transformers compute the weighted sum of the values, where the weight for each value is obtained by dot-product of the query with the key values as Attention(Q, K, V) = sof tmax(QKT In the context of multi-head attention with several attention heads, the above is computed as follows. トランスフォーマーは値の重み付け和を計算し、キー値が attention(q, k, v) = sof tmax(qkt) となるクエリのドット積によって各値の重みが得られ、複数の注意ヘッドを持つマルチヘッド注意の文脈で、上記を次のように計算する。 0.74
Consider Al,a, a ∈ [1, 2, · · · AH], where AH is the number of attention heads of the teacher and student. Al,a, a ∈ [1, 2, · · · · AH] を考えると、AH は教師と学生の注意点の数である。 0.74
Consider the query, key and values obtained by Ql,a = Hl−1WQl,a, Kl,a = Hl−1W k Ql,a = Hl−1WQl,a,Kl,a = Hl−1Wk で得られるクエリ、キーおよび値を考える。 0.85
l,a, Vl,a = Hl−1W V l,a. l,a,Vl,a = Hl−1W Vl,a。 0.90
√n )V. Each multi-head attention state of dimension 通称V。 次元の多面的注意状態 0.48
|x| × |x| from the lth layer is given by: lth層から |x| × |x| が与えられる。 0.75
Al,a(Ql,a,Kl,a,Vl,a) = sof tmax(Ql,aKT l,a√n Al,a(Ql,a,Kl,a,Vl,a) = sof tmax(Ql,aKT l,a)n 0.90
)Vl,a (5) Since our teacher and student are both transformers with similar multi-head attention mechanism, we obtain the corresponding attention states: )Vl,a (5) 教師と生徒はともに同一のマルチヘッド注意機構を持つトランスフォーマであるので,対応する注意状態を得る。 0.75
AT l,a, l ∈ [1, 2, ···LT ], a ∈ [1, 2,·· ·AH] l,a, l ∈ [1, 2, ···LS ], a ∈ [1, 2, ···AH] AS l,a, l ∈ [1, 2, ····lt ], a ∈ [1, 2,····ah] l,a, l ∈ [1, 2, ····ls ], a ∈ [1, 2, ····ah] で 0.92
(6) (7) 3.4 Multi-task Multi-layer Distillation (6) (7) 3.4 マルチタスク多層蒸留 0.82
Multi-layer hidden state transfer. We leverage deep representations from multiple layers of the teacher that capture different forms of features to aid the student in learning. 多層隠れ状態転送。 教師の複数の層からの深い表現を活用して、様々な特徴を捉え、生徒の学習を支援する。 0.71
In order to align multiple layers of the student to those of the teacher as a form of mimic learning, we train the student with the following multi-layer representation loss objective. 模擬学習の一形態として,学生の複数の層を教師の層に整列させるため,以下の多層表現損失目標を用いて学生を訓練する。 0.78
Given a deep teacher with LT layers and a shallow student with LS layers, where LT > LS , we align the last LS layers of each model. LT > LS の深層と LS の浅層を持つ浅層教師が与えられた場合,各モデルの最後の LS 層を整列する。 0.78
Given a wide teacher and narrow student with corresponding dimensions dT > dS , we perform a linear transformation to upscale and align the corresponding hidden state representations of the student such that eHS(x) = W f · HS (x) + bf , where W f ∈ RdT ×dS is the transformation matrix, bf ∈ RdT is the bias. 対応する次元 dT > dS の広い教師と狭義の学生が与えられたとき、eHS(x) = W f · HS(x) + bf となるような学生の隠れ状態表現を上向きに調整する線形変換を行い、Wf ∈ RdT ×dS は変換行列、bf ∈ RdT はバイアスとなる。 0.77
layerloss = − layerloss = − 0.85
l′=LT l=LSX l′=LT l=LSX 0.53
l=1 l′=(LT −LS ) l=1 l′=(LT −LS ) 0.69
|x|X i=1 S ||fHl x|x i=1 S |fhl 0.65
(xi) − HT 2 · LS · |x| (xi) − HT 2 · LS · |x| 1.00
l′ (xi)||2 (8) l′(xi)||2 (8) 0.81
Multi-layer attention transfer. 多層アテンション転送。 0.55
We also leverage the self-attention signals from the different teacher layers to guide the student. また,異なる教師層からの自己着信信号を利用して生徒を指導する。 0.72
Similar to previous loss objective, we align the attention states of the last LS layers of the teacher and student from multiple attention heads with the following objective: 従来の損失目標と同様に,教師と生徒の最後のls層の注目状態と,以下の目標とを一致させる。 0.60
attnloss = − attnloss = − 0.85
l′=LT l=LSX l′=LT l=LSX 0.53
l=1 l′=(LT −LS ) l=1 l′=(LT −LS ) 0.69
|AH|X |x|X a=1 |AH|X x|x a=1 0.53
i=1 ||AS l′ ,a(xi)||2 i=1 |as l′,a(xi)||2 0.72
l,a(xi) − AT 2 · LS · |AH| · |x| (9) l,a(xi) − AT 2 · LS · |AH| · |x| (9) 0.97
Task-specific logit transfer. タスク固有のロジット転送。 0.48
Given hidden state representations from last layer LS and LT of the student and teacher, we can obtain the taskspecific logits for source transfer task (e g , MNLI) from: 学生と教師の最後の層LSとLTから隠された状態表現を与えられた場合、ソース転送タスク(例えば、MNLI)のタスク固有のロジットを以下から取得できる。 0.77
zS (x) = HS zT (x) = HT zS (x) = HS zT (x) = HT 0.85
LS (x) · W S LT (x) · W T LS (x) · W S LT (x) · W T 0.85
(10) (11) (10) (11) 0.85
英語(論文から抽出)日本語訳スコア
where W S ∈ RdS×C , W T ∈ RdT ×C , and C is the number of classes. ここで W S ∈ RdS×C , W T ∈ RdT ×C , C は類の数である。 0.79
The prior computations of multi-layer hidden state and attention loss are performed over large amounts of unlabeled transfer data from the source task. 複数層隠れ状態と注意損失の事前計算は、ソースタスクから大量のラベルなし転送データに対して行われる。 0.72
To explicitly adapt these models to the source task, we leverage some amount of source-task-specific labeled data to align the logits of the teacher and student. これらのモデルをソースタスクに明示的に適応するために、教師と学生のロジットを調整するために、ソースタスク固有のラベル付きデータをある程度活用する。 0.64
To this end, we minimize the following task-specific logit loss: この目的のために、以下のタスク固有のロジット損失を最小限にする。 0.53
logitloss = − logitloss = − 0.85
1 2||zS (x) − zT (x)||2 1 2|zs (x) − zt (x)||2 0.83
(12) Finally, we fine-tune the student on task-specific (12) 最後に、学生にタスク特化を施す 0.77
labeled data with the cross-entropy loss: クロスエントロピー損失を伴うラベル付きデータ 0.73
celoss = − celoss = − 0.85
CX c=1 I(x, c) log sof tmax(zS CX c=1。 I(x, c) log sof tmax(zS) 0.74
c (x)) c (複数形 cs) 0.71
(13) where I(x, c) is a binary indicator (0 or 1) if class label c is the correct classification for x and zSc (x) is the predicted logit corresponding to class c. Progressive knowledge transfer. (13) i(x, c) が二進指標 (0 または 1) であれば、クラスラベル c が x の正しい分類であり、zsc (x) がクラス c に対応する予測ロジットである。 0.80
Multi-layer joint optimization of the above loss functions bears the risk of error propagation from lower layers impacting the knowledge transfer from upper layers. 上記の損失関数の多層共同最適化は、上層からの知識伝達に影響を与える下層からの誤り伝播のリスクを負う。 0.80
Recent works (Sun et al , 2020; Mukherjee and Hassan Awadallah, 2020) demonstrate the benefit of progressive knowledge transfer by gradual freezing and unfreezing of neural network layers for mitigation. 最近の研究(sun et al , 2020; mukherjee and hassan awadallah, 2020)は、ニューラルネットワーク層を徐々に凍結し、緩和のために凍結することで進歩的な知識伝達の利点を実証している。 0.63
We adopt a similar principle in our work with the training recipe in Algorithm 1. アルゴリズム1のトレーニングレシピでも同様の原則を採用しています。 0.67
Instead of jointly optimizing all the loss functions, we first minimize the multi-layer representation and attention loss to align the last LS layers of the teacher and student. すべての損失関数を協調的に最適化する代わりに、まず、教師と学生の最後のLS層を合わせるために、多層表現と注意損失を最小化する。 0.71
Then we freeze the student encoder, learn task-specific parameters by optimizing task-specific logit loss and cross-entropy loss. 次に、学生エンコーダを凍結し、タスク固有ロジット損失とクロスエントロピー損失を最適化することによりタスク固有パラメータを学習する。 0.54
For any loss function, we freeze the parameters learned from the previous stage, learn new parameters (e g , softmax for task-specific loss) introduced by a new loss function, and finally perform end-to-end fine-tuning based on crossentropy loss. 損失関数の場合、前段から学んだパラメータを凍結し、新しい損失関数によって導入された新しいパラメータ(タスク固有の損失に対するsoftmaxなど)を学習し、最終的にクロスエントロピー損失に基づくエンドツーエンドの微調整を行う。 0.77
Error propagation from lower layers is mitigated by freezing lower part of the network while learning additional task-specific parameters. 下位層からのエラー伝搬は、追加のタスク固有のパラメータを学習しながら、ネットワークの下部を凍結することで軽減される。 0.63
4 Experiments We first explore several augmentation resources for knowledge transfer. 4つの実験 まず,知識伝達のための拡張リソースについて検討する。 0.60
Then we compare distillation performance and compression rate of 次に蒸留性能と圧縮速度を比較する。 0.75
Algorithm 1 Progressive knowledge transfer. アルゴリズム1 プログレッシブ・ナレッジ・トランスファー。 0.51
Input: (a) Transformer teacher model (e g , BERT) finetuned on hard labels on task S (e g , MNLI). 入力: (a) タスクS(eg, MNLI)のハードラベルに微調整されたトランスフォーマー教師モデル(eg, BERT)。 0.73
(b) Initial pre-trained student model (e g , MiniLM) 1. (b)初期事前学習した学生モデル(例:minilm)1。 0.78
Optimize student params θ = {HS l,a} l=1···LS 学生パラムs θ = {HS l,a} l=1···LS を最適化する 0.60
l=1,{AS l }LS l=1,{AS l }LS 0.92
Freeze θ and optimize task-specific parameters W S θ を凍結し、タスク固有パラメータ W S を最適化する 0.62
optimizing losses in Eqn. eqnにおける損失の最適化 0.66
8 and 9 2. optimizing logit loss in Eqn. 8および9。Eqnにおけるロジット損失の最適化。 0.64
12 with soft labels 3. 12,ソフトラベル3。 0.63
Update θ and W S optimizing logit loss in Eqn. Eqn におけるロジット損失を最適化する θ と W S を更新する。 0.56
12 with soft labels 4. optimizing cross-entropy loss in Eqn. 12 ソフトラベル4. eqn におけるクロスエントロピー損失の最適化 0.72
13 with hard labels 5. 13,硬いラベル5。 0.64
Update θ and W S optimizing cross-entropy loss in Eqn. Eqnにおけるクロスエントロピー損失を最適化するθとWSを更新する。 0.59
13 with hard labels 硬いラベルを持つ13 0.79
Freeze θ and optimize task-specific parameters W S θ を凍結し、タスク固有パラメータ W S を最適化する 0.62
a=1···AH XtremeDistilTransfor mers with existing models on GLUE (Wang et al , 2018), SQuAD (Rajpurkar et al , 2016) and massive multilingual NER on 41 languages in WikiAnn (Pan et al , 2017). a=1···AH XtremeDistilTransfor mers は GLUE (Wang et al , 2018), SQuAD (Rajpurkar et al , 2016), WikiAnn (Pan et al , 2017) の41言語上での大規模多言語 NER など,既存のモデルを持つ。 0.60
All experiments are performed on 4 Tesla V-100 GPUs. すべての実験はTesla V-100 GPUで実施されている。 0.61
Table 5: Performance of XtremeDistilTransfor mers on MNLI with different augmentation resources as unlabeled transfer set with Electra-base-discrim inator teacher and pre-initialized MiniLM student (parameters in millions). 表5: XtremeDistilTransfor mers on MNLI with different augmentation resources as unlabeled transfer set with Electra-base-discrim inator teacher and pre-initialized MiniLM student (parameters in million)。 0.86
Model Electra Xtreme DistilTransf. モデル エレクトラ Xtreme DistilTransf 0.66
Params Aug. Data Params Aug. データ 0.92
#Samples Acc #Samples Acc 0.85
109 22 - - 109 22 - - 0.85
88.12 MNLI SNLI PAWS ParaNMT SentAug 88.12 MNLI SNLI PAWS ParaNMT SentAug 0.72
392K 82.56 550K 82.57 695K 82.58 5.4MM 83.70 4.3MM 84.52 392K 82.56 550K 82.57 695K 82.58 5.4MM 83.70 4.3MM 84.52 0.43
4.1 Unlabeled Augmentation Data 4.1 ラベルなし増補データ 0.64
Given the best source transfer task as MNLI, we choose the best teacher from Table 3 as Electra and the best student from Table 4 as MiniLM for initializing the student model in XtremeDistilTransfor mers . MNLIとして最高のソース転送タスクが与えられたら、Electraとしてテーブル3から最高の教師、MiniLMとしてテーブル4から最高の生徒を選び、XtremeDistilTransfor mersで学生モデルを初期化する。 0.75
We explore the following augmentation resources; (a) MNLI (Williams et al , 2018): We use training data as the transfer set, ignoring the labels. a) MNLI (Williams et al , 2018): トレーニングデータを転送セットとして使用し、ラベルを無視します。 0.50
(b) SNLI (Bowman et al , 2015) is similar to MNLI with human-written English sentence-pairs categorized in three classes (entail / contradict / neutral). (b)SNLI(Bowman et al , 2015)は、MNLIと類似しており、3つのクラス(詳細/矛盾/中立)に分類される。 0.79
(c) PAWS (Zhang et al , 2019): This contains human labeled pairs generated from both word swapping and back translation which feature the importance of modeling structure, context, and word order for identifying paraphrases. (c) PAWS (Zhang et al , 2019): パラフレーズを識別するためのモデリング構造、コンテキスト、単語順序の重要性を特徴とする単語スワッピングとバック翻訳の両方から生成される人間のラベル付きペアを含む。 0.82
(d) ParaNMT (Wieting and Gimpel, 2018) consists of a large number of English-English senten- (d)ParaNMT(Wieting and Gimpel, 2018)は多くの英英文センテンからなる。 0.74
英語(論文から抽出)日本語訳スコア
Table 6: Comparing the performance of distilled models DistilBERT (Sanh, 2019), TinyBERT (Jiao et al , 2019), MiniLM (Wang et al , 2020) and XtremeDistilTransfor mers on the development set for several GLUE tasks. 表6: 蒸留モデル DistilBERT (Sanh, 2019), TinyBERT (Jiao et al , 2019), MiniLM (Wang et al , 2020), XtremeDistilTransfor mers のパフォーマンスを比較する。
訳抜け防止モード: 表6 : DistilBERT (Sanh, 2019) 蒸留モデルの性能比較 TinyBERT (Jiao et al, 2019 ), MiniLM (Wang et al, 2020 ) XtremeDistilTransfor mersはいくつかのGLUEタスクの開発セットである。
0.71
R denotes reported published results and HF denotes the performance obtained with our HuggingFace implementations. Rは報告された結果を示し、HFはHuggingFaceの実装で得られたパフォーマンスを示します。 0.58
Models BERT (R) BERT-Trun (R) DistilBERT (R) TinyBERT (R) MiniLM (R) MiniLM (R) モデル BERT (R) BERT-Trun (R) DistilBERT (R) TinyBERT (R) MiniLM (R) MiniLM (R) 0.84
BERT (HF) MiniLM (HF) XtremeDistilTransf. BERT (HF) MiniLM (HF) XtremeDistilTransf 0.72
(HF) XtremeDistilTransf. (HF)XtremeDistilTran sf 0.64
(HF) Params Speedup MNLI QNLI QQP RTE (HF) パラム speedup mnli qnli qqp rte 0.59
SST MRPC SQuADv2 Avg SST MRPC SQuADv2 Avg 0.87
109 66 66 66 66 22 109 66 66 66 66 22 0.85
109 22 22 14 109 22 22 14 0.85
1x 2x 2x 2x 2x 5.3x 1x 2x 2x 2x 2x 5.3x 0.55
1x 5.3x 5.3x 9.4x 1x 5.3x 5.3x 9.4x 0.39
84.5 81.2 82.2 83.5 84.0 82.8 84.5 81.2 82.2 83.5 84.0 82.8 0.43
84.4 82.7 84.5 81.8 84.4 82.7 84.5 81.8 0.45
91.7 87.9 89.2 90.5 91.0 90.3 91.7 87.9 89.2 90.5 91.0 90.3 0.43
91.4 89.4 90.2 86.9 91.4 89.4 90.2 86.9 0.45
91.3 90.4 88.5 90.6 91.0 90.6 91.3 90.4 88.5 90.6 91.0 90.6 0.43
91.2 90.3 90.4 89.5 91.2 90.3 90.4 89.5 0.45
68.6 65.5 59.9 72.2 71.5 68.9 68.6 65.5 59.9 72.2 71.5 68.9 0.43
66.8 64.3 77.3 74.4 66.8 64.3 77.3 74.4 0.45
93.2 90.8 91.3 91.6 92.0 91.3 93.2 90.8 91.3 91.6 92.0 91.3 0.43
93.2 90.8 91.6 89.9 93.2 90.8 91.6 89.9 0.45
87.3 82.7 87.5 88.4 88.4 86.6 87.3 82.7 87.5 88.4 88.4 86.6 0.43
83.8 84.1 89.0 86.5 83.8 84.1 89.0 86.5 0.45
76.8 69.9 70.7 73.1 76.4 72.9 76.8 69.9 70.7 73.1 76.4 72.9 0.43
74.8 71.5 74.4 63.0 74.8 71.5 74.4 63.0 0.45
84.8 81.2 81.3 84.3 84.9 83.3 84.8 81.2 81.3 84.3 84.9 83.3 0.43
83.7 81.9 85.3 81.7 83.7 81.9 85.3 81.7 0.45
tial paraphrase pairs automatically generated using Neural Machine Translation to translate the Czech side of a large Czech-English parallel corpus. チェコ語と英語の大規模なパラレルコーパスのチェコ語側を翻訳するために、Neural Machine Translationを使用して自動生成される。
訳抜け防止モード: tialparaphraseペアの自動生成 巨大なチェコ語と英語の並列コーパスのチェコ側の翻訳にニューラルマシン翻訳を使用する。
0.71
(e) SentAugment (Du et al , 2020) uses state-ofthe-art sentence embeddings to encode the information in a very large bank of sentences from CommonCrawl which can thereafter be used to retrieve in-domain unannotated sentences for any language understanding task. (e) SentAugment (Du et al , 2020)は、ClomCrawlから非常に大きな文バンクに情報をエンコードするために最先端の文埋め込みを使用し、その後、言語理解タスクのためにドメイン内の未注釈文を検索するために使用することができる。 0.61
We leverage the SentAugment Sentence Encoder (SASE) with sentencepiece tokenization to encode all the sentences in our MNLI training corpus. 我々は,SASE(SentAugment Sentence Encoder)と文のトークン化を利用して,MNLI学習コーパスのすべての文を符号化する。
訳抜け防止モード: 我々は文ピーストークン化によるSASE(SentAugment Sentence Encoder)を利用する MNLIトレーニングコーパスのすべての文をエンコードします。
0.75
Given a pair of NLI sentences (s1, s2), we leverage existing code2 for fast K-nearest neighbor search (K = 10) to retrieve similar sentences for {si j=1 from pre-trained FAISS3 indexes built over the CommonCrawl data. 一対の NLI 文 (s1, s2) を与えられた場合、既存の code2 を利用して高速 K-アネレス近傍探索 (K = 10) を行い、CommonCrawl データ上に構築された事前訓練された FAISS3 インデックスから {si j=1 の類似した文を検索する。 0.62
The unlabeled transfer set now consists of all the nearest neighbor pairs {si ラベルなし転送セットは現在、最も近い隣のペア {si 0.64
1, sj Table 5 shows the distillation performance with different augmentation resources as unlabeled transfer set. 1, sj表5は, 添加資源の異なる蒸留性能をラベルなし転送セットとして示す。 0.79
We observe SentAug to perform the best for the MNLI task for two reasons. 我々は,2つの理由から,SentAugがMNLIタスクのために最善を尽くすのを観察する。 0.59
(a) Amount of transfer data: Given paraphrasical tasks like PAWS and ParaNMT, we observe ParaNMT to perform better given large-scale transfer data. (a) 転送データの量: PAWS や ParaNMT のような言い換えのタスクが与えられた場合、ParaNMT はより優れた大規模な転送データを実行する。 0.68
Similarly, among textual entailment tasks MNLI, SNLI and SentAug (derived from MNLI), SentAug performs better given its scale. 同様に、テキストエンテーメントタスクMNLI、SNLI、SentAug(MNLIから派生したもの)の中で、SentAugはそのスケールを考慮すればパフォーマンスが向上する。
訳抜け防止モード: 同様に、テキストエンテーメントタスクMNLI、SNLI、SentAug(MNLIから派生)の中でも同様である。 SentAugのスケールは向上している。
0.63
(b) Label distribution of source and transfer data. b) ソース及び転送データのラベル分布。 0.72
PAWS and ParaNMT being paraphrasical tasks work with binary labels (e g , paraphrases or not); whereas, NLI tasks work with ternary labels (e g , entail, contradict, or neutral). PAWSとParaNMTはバイナリラベル(例えば、パラフレーズかそうでないか)で機能するが、NLIタスクは3つのラベル(例、エンテリ、矛盾、中立性)で機能する。
訳抜け防止モード: PAWSとParaNMTはパラフレーズ的タスクであり、バイナリラベル(例えば、パラフレーズか、そうでないか)で動作する NLIタスクは3つのラベル(例: Entail, contradict, neutral )で動作する。
0.69
2}. 1}K i=1 and {sj 2} 2}. 1}K i=1 と {sj 2} 0.87
K 2https://github.com/ facebookresearch/Sen tAugment 3https://github.com/ facebookresearch/fai ss K 2https://github.com/ facebookresearch/Sen tAugment 3https://github.com/ facebookresearch/fai ss 0.59
4.2 Distillation Performance in GLUE 4.2 GLUEにおける蒸留性能 0.64
Given a model distilled from MNLI, we extract the encoder f (x; θS ), add task-specific parameters γT and fine-tune f (x; θS, γT ) on labeled data for several tasks with results in Table 6. MNLIから抽出したモデルが与えられた場合、表6で結果のラベル付きデータに、エンコーダ f (x; θS ) を抽出し、タスク固有のパラメータ γT とファインチューン f (x; θS, γT ) を付加する。 0.75
We report results from both published works and our results built on top of HuggingFace (HF) (Wolf et al , 2020). 本報告では,HugingFace (HF) 上に構築した論文と成果について報告する(Wolf et al , 2020)。 0.70
We observe XtremeDistilTransfor mers to obtain the best performance on an average closely followed by MiniLM and TinyBERT. 我々は、XtremeDistilTransfor mersを観測し、MiniLMとTinyBERTに追従して、平均で最高の性能を得る。 0.71
Since the performance of pre-trained models vary with careful calibrations, in our implementations with HF default hyper-parameters (marked as HF in Table 6), we observe XtremeDistilTransfor mers initialized with MiniLM to outperform MiniLM by 4.3% given same hyper-parameters and random seeds, and outperform BERT by 2% with 5.3x inference speedup. 事前学習モデルの性能は慎重な校正によって異なり、HFデフォルトのハイパーパラメータ(表6ではHFと表記される)の実装では、MiniLMで初期化されたXtremeDistilTransfor merがMiniLMを4.3%上回り、BERTを2%上回り、推論速度は5.3倍である。 0.75
In a similar setup, the most compressed version of XtremeDistilTransfor mers with 14M M parameters performs within 2.4% of BERT with 9.4x inference speedup. 同様の設定では、14Mのパラメータを持つXtremeDistilTransfor mersの最も圧縮されたバージョンは、BERTの2.4%以内に9.4倍の推論速度で動作している。 0.55
4.3 What is more important for distillation, 4.3 蒸留において重要なこと 0.77
bigger or better teacher? Table 7 shows the performance of XtremeDistilTransfor mers distilled from teachers of different sizes and pre-training schemes. 大きくて良い先生? 表7は、異なるサイズの教師と事前学習スキームから蒸留したXtremeDistilTransfor mersのパフォーマンスを示している。 0.63
Refer to Table 3 for teacher performances on MNLI. MNLIの教師のパフォーマンスについては、テーブル3を参照してください。 0.54
We observe that a better teacher (e g , Electra-base > BERTbase, and Electra-large > BERT-large) leads to a better student. より優れた教師(例えば、Electra-base > BERTbase、Electra-large > BERT-large)がより良い学生につながることを観察する。 0.77
However, we also observe teacher model complexity to play a significant role in distillation. また, 蒸留において重要な役割を果たす教師モデルの複雑さも観察した。 0.75
For instance, although BERT-large is better than Electra-base, we observe a slight degradation in distillation performance when distilled from BERT-large with 3x parameters compared to 例えば, BERT-large は Electra-base より優れているが, BERT-large から3倍のパラメータで蒸留した場合, 蒸留性能はわずかに低下する。 0.72
英語(論文から抽出)日本語訳スコア
Table 7: Performance comparison on distilling XtremeDistilTransfor mers of varying capacity with teacher models of different sizes. 表7: 様々な容量のXtremeDistilTransfor merと異なるサイズの教師モデルのパフォーマンスの比較。 0.77
#TD. and #Tea. 略称td。 そして#Tea。 0.59
denote XtremeDistilTransfor mers and teacher model parameters in millions. xtremedistiltransfor mer と teacher model parameters を数百万で表す。 0.76
#TD. Teacher #Tea. 略称td。 教師 通称「ティー」。 0.56
Speedup MRPC MNLI RTE QQP QNLI MRPC MNLI RTE QQP QNLIの高速化 0.81
SST-2 Avg 22 Electra Base 22 BERT Base 22 Electra Large 22 BERT Large 14 Electra Base SST-2 Avg 22 electra Base 22 BERT Base 22 Electra Large 22 BERT Large 14 Electra Base 0.77
109 109 335 335 109 109 109 335 335 109 0.85
5.3x 5.3x 10.6x 10.6x 9.4x 5.3x 5.3x 10.6x 10.6x 9.4x 0.34
89.0 88.7 87.8 86.5 86.5 89.0 88.7 87.8 86.5 86.5 0.44
84.5 84.2 83.8 83.3 81.8 84.5 84.2 83.8 83.3 81.8 0.44
77.3 75.5 77.6 76.9 74.4 77.3 75.5 77.6 76.9 74.4 0.44
90.4 90.5 90.5 90.5 89.5 90.4 90.5 90.5 90.5 89.5 0.44
90.2 90.4 89.8 89.7 86.9 90.2 90.4 89.8 89.7 86.9 0.44
91.6 92.3 91.2 91.1 89.9 91.6 92.3 91.2 91.1 89.9 0.44
87.2 86.9 86.8 86.3 84.8 87.2 86.9 86.8 86.3 84.8 0.44
Electra-base — given the student model of same capacity. electra-base – 同じ能力の学生モデルが与えられた。 0.75
We conjecture this to be an artifact of model capacity as it becomes increasingly difficult for a shallow student to mimic a much bigger and deeper teacher. 我々はこれをモデル能力の人工物と推察し、浅い生徒がより大きくより深い教師を模倣することがますます困難になる。 0.77
Table 8: Massive multilingual NER average F1 scores across 41 languages. 表8: 41言語にまたがる多言語NERの平均F1スコア。 0.85
XtremeDistilTransfor mers is distilled from MNLI-EN and adapted for multilingual NER. XtremeDistilTransfor mersはMNLI-ENから蒸留され、多言語NERに適合する。 0.60
#Compres. 略称#Compres。 0.58
denotes compression factor with respect to mBert and Params is number of parameters in millions. mBert に対する圧縮係数を示し、Params は数百万のパラメータ数である。 0.75
4.4 Transfer Distillation for Massive 4.4 大量移行蒸留 0.79
Multilingual Named Entity Recognition 多言語名エンティティ認識 0.85
We experiment with XtremeDistilTransfor mers distilled from a monolingual task (MNLI-English) and adapt it for the multilingual setting to perform joint named entity recognition (NER) on 41 languages. 我々はモノリンガルタスク(MNLI- English)から蒸留したXtremeDistilTransfor mersを実験し、それを多言語設定に適応させて41言語で共振器認識(NER)を行う。 0.76
Consider XtremeDistilTransfor mers encoder with hidden layers {Hl} ∈ R|x|×d, attention states {Al,a} ∈ R|x|×|x| and word embeddings W ∈ R|V|×d, where |x|, d and |V| denote sequence length, embedding dimension and vocabulary size. 隠れた層 {Hl} ∈ R|x|×d を持つ XtremeDistilTransfor mers エンコーダ、注意状態 {Al,a} ∈ R|x|×|x| および単語埋め込み W ∈ R|V|×d を考える。 0.75
The only factor dependent on the vocabulary size is the word embedding matrix W. In principle, we can retain learned hidden layers {Hl} and attention states {Al,a}, and only adapt word embeddings to transfer to other languages with different vocabulary. 原則として、学習された隠れ層 {hl} と注意状態 {al,a} を保持することができ、単語埋め込みを異なる語彙を持つ他の言語にしか適用できない。
訳抜け防止モード: 語彙サイズに依存する唯一の要因は単語埋め込み行列Wである。 学習した隠蔽層 { Hl } とアテンション状態 { Al, a },かつ,単語の埋め込みのみを適応させる 異なる語彙を持つ他の言語に 移行するのです
0.76
To this end, we leverage word embeddings from multilingual BERT for target adaptation. この目的のために,多言語BERTからの単語埋め込みをターゲット適応に活用する。 0.61
Specifically, we use word embedding factorization using Singular Value Decomposition (SVD) (as outlined → R|V|×dS in Section 3.1) to project R|V|×dT from the mBERT word embedding space to that of XtremeDistilTransfor mers , where dT and dS represent the embedding dimension of the teacher and student. 具体的には、特異値分解 (single value decomposition, svd) を用いた単語埋め込み分解 (svd) を用いて、mbert ワード埋め込み空間から xtremedistiltransfor mers への r|v|×dt を投影し、dt と ds は教師と生徒の埋め込み次元を表す。 0.61
Now, we switch word embedding parameters in XtremeDistilTransfor mers (distilled from English) with the SVD-decomposed mBERT word embeddings while retaining prior encoder parameters ({Hl}, {Al,a}) and further distil it on the multilingual WikiAnn data from 41 languages in WikiAnn (Pan et al , 2017). 現在,XtremeDistilTransfo rmers の単語埋め込みパラメータを SVD で分解した mBERT 単語埋め込みに切り替えるとともに,先行エンコーダパラメータ ({Hl}, {Al,a}) を保持し,さらに WikiAnn (Pan et al , 2017) の41言語から得られた多言語 WikiAnn データにも適用する。 0.82
Table 8 compares the performance of XtremeDistilTransfor mers against multilingual models MMNER (Rahimi 表8はXtremeDistilTransfor merの性能を多言語モデルMMNER(Rahimi)と比較する 0.84
Models Params #Compres. モデル パラム 略称#Compres。 0.57
F1 mBERT-Single mBERT MMNER XtremeDistil XtremeDistilTransf. F1 mBERT-Single mBERT MMNER XtremeDistil XtremeDistilTransf 0.84
XtremeDistilTransf. XtremeDistilTransf 0.50
109*41 179 28*41 28 22 14 109*41 179 28*41 28 22 14 0.85
1 0.2 6.4 8.1 12.8 1 0.2 6.4 8.1 12.8 0.50
90.76 91.86 89.20 88.64 89.38 88.18 90.76 91.86 89.20 88.64 89.38 88.18 0.43
et al , 2019) and XtremeDistil (Mukherjee and Hassan Awadallah, 2020). et al , 2019) と xtremedistil (mukherjee and hassan awadallah, 2020) である。 0.80
We observe the most compressed version of XtremeDistilTransfor mers with 14 million parameters to obtain a similar performance to XtremeDistil but with 2x additional compression and within 4% F1 of mBERT. 我々は、XtremeDistilTransfor mersの最も圧縮されたバージョンを1400万のパラメータで観察し、XtremeDistilと同様のパフォーマンスを得るが、2倍圧縮され、mBERTの4% F1以内である。 0.62
Note that, in contrast to XtremeDistil, we transfer encoder parameters from a monolingual distilled model. XtremeDistilとは対照的に、単言語蒸留モデルからエンコーダパラメータを転送する。 0.61
With progressive knowledge transfer, we further freeze the word embedding parameters and fine-tune the encoder parameters on downstream task. プログレッシブな知識伝達により、単語の埋め込みパラメータを凍結し、下流タスクでエンコーダパラメータを微調整する。 0.73
4.5 Ablation Study 4.5 アブレーション研究 0.69
Table 9 shows ablation results on removing different components from XtremeDistilTransfor mers for multilingual NER. 表9は多言語ner用xtremedistiltransfor mersの異なる成分を除去するためのアブレーション結果を示す。 0.63
We observe performance degradation on removing multi-layer attention and hidden state losses from distillation objective (a and b). 蒸留目的(a,b)から多層注意と隠れ状態損失を取り除く際の性能劣化を観察する。 0.78
When we remove both multi-layer components in (b), we use hidden-states from only last layer of the teacher. b)で両方のマルチレイヤコンポーネントを削除するとき、教師の最後の層から隠れた状態を使う。 0.73
This also demonstrates the benefit of multi-layer distillation. これは多層蒸留の利点も示している。 0.66
We observe significant degradation without embedding factorization using SVD (c) i.e. SVD (c) を組み込むことなく, 顕著な劣化を観察した。 0.63
the student uses monolingual (English) word embeddings and vocabulary. 生徒は単言語(英語)の単語埋め込みと語彙を使用する。 0.73
Without progressive transfer, and fine-tuning model end-to-end result in some degradation (d). プログレッシブトランスファーや微調整モデルがなければ、いくつかの劣化(d)が起こる。 0.56
Finally, we observe that distilling a student model from scratch (i.e. 最後に、学生モデルをスクラッチから蒸留すること(すなわち、)を観察する。 0.65
randomly initialized) without ランダムに初期化される) 0.54
英語(論文から抽出)日本語訳スコア
transferring multilingual word embeddings or encoder parameters (e) result in significant performance loss, thereby, demonstrating the benefit of transfer distillation. 多言語単語の埋め込みやエンコーダパラメータ(e)の転送は、大きな性能損失をもたらすため、転送蒸留の利点を示す。 0.77
Table 1 in Appendix shows the variation in performance of XtremeDistilTransfor mers with different architecture (number of attention heads, hidden layers and embedding dimension), compression and performance gap against multilingual BERT — with the smallest version obtaining 87x encoder compression (or, 1 million encoder parameters) with 9% F1 gap against mBERT for NER on 41 languages. Appendixのテーブル1では、異なるアーキテクチャ(アテンションヘッド数、隠されたレイヤ数、埋め込み次元)を持つXtremeDistilTransfor mersのパフォーマンスの変化、マルチリンガルBERTに対する圧縮とパフォーマンスギャップ、最小バージョンでは87xエンコーダ圧縮(または100万エンコーダパラメータ)、99%のF1ギャップ、41言語でのNERに対するmBERTに対するパフォーマンスギャップが示されている。 0.74
Table 9: Ablation of XtremeDistilTransfor mers (22MM params) on WikiAnn for NER on 41 languages. 表9: XtremeDistilTransfor mers (22MM params) の WikiAnn での 41 言語での NER 対応。 0.85
Distillation Features All: w/ multi-layer attn. 蒸留の特徴 すべて:w/多層 attn。 0.77
& hidden state, embed. 隠された状態、埋め込み。 0.66
factor. w/ freezing ファクター。 w/ 凍結 0.56
(a) w/o multi-layer attn. (a)w/o多層 attn 0.79
(b) w/o multi-layer attn., w/o hidden state (c) w/o embed. (b)w/o多層 attn.,w/o隠蔽状態(c)w/o埋め込み。 0.71
factor. (monoling. ファクター。 (モノ) 0.47
vocab.) vocab (複数形 vocabs) 0.55
(d) w/ embed. (d)w/embed。 0.84
factor & w/o freezing (e) init. factor & w/o frozen (e) init. 0.92
from scratch scratch (複数形 scratchs) 0.23
F1 89.38 87.86 87.61 78.90 87.76 83.40 F1 89.38 87.86 87.61 78.90 87.76 83.40 0.60
5 Related Work Distillation. 5 関連作業 蒸留。 0.68
Prior works on task-specific distillation (Liu et al , 2019a; Zhu et al , 2019; Tang et al , 2019; Turc et al , 2019) leverage soft logits from teachers for distilling students. タスク固有の蒸留(Liu et al , 2019a; Zhu et al , 2019; Tang et al , 2019; Turc et al , 2019)は、学生の蒸留のために教師のソフトロジットを活用する。 0.79
(Sun et al , 2019; Sanh, 2019; Aguilar et al , 2019) leverage teacher representations as additional signals. (Sun et al , 2019; Sanh, 2019; Aguilar et al , 2019)は教師表現を付加的な信号として活用する。 0.85
These methods are often constrained by embedding dimension, width and depth of models. これらの方法は、しばしばモデルの埋め込み次元、幅、深さによって制限される。 0.62
Some recent works leverage embedding (Sun et al , 2020) and shared word (Zhao et al , 2019) projection to address these limitations. いくつかの最近の研究は、組み込み(Sun et al , 2020)と共有ワード(Zhao et al , 2019)を使ってこれらの制限に対処している。
訳抜け防止モード: 組み込みを利用する最近の作品(sun et al, 2020) 共有語(zhao et al, 2019)の投影 これらの制限に対処するためです
0.77
Task-agnostic methods like (Jiao et al , 2019; Wang et al , 2020; Sun et al , 2020) leverage hidden states and attention states from teachers but not task-specific logits (refer to Table 2 for a contrast). jiao et al , 2019; wang et al , 2020; sun et al , 2020)のようなタスクに依存しないメソッドは、教師から隠された状態と注意状態を活用するが、タスク固有のロジットは利用しない。 0.69
Finally, another line of work in model compression use quantization (Gong et al , 2014), low-precision training and network pruning (Han et al , 2016) to reduce the memory footprint. 最後に、モデル圧縮利用量子化(Gong et al , 2014)、低精度トレーニングとネットワークプルーニング(Han et al , 2016)における別の作業は、メモリフットプリントを減らすことである。 0.80
Augmentation. Unsupervised contrastive learning techniques like SimCLR (Chen et al , 2020b,c) leverage semantic equivalence of images to train models to differentiate between images and perturbed versions while obtaining parity with fully- 拡張。 SimCLR(Chen et al , 2020b,c)のような教師なしのコントラスト学習技術は、画像の意味的等価性を利用して、画像と摂動バージョンを区別し、完全パリティを得られるようにモデルを訓練する。
訳抜け防止モード: 拡張。 SimCLR( Chen et al, 2020b)のような教師なしのコントラスト学習技術 c) 画像の意味的等価性を利用してモデルを訓練する 画像と摂動バージョンを区別し、完全でパリティを得る
0.64
supervised models. Similarly UDA (Xie et al , 2019) leverages consistency learning between texts and backtranslations to improve few-shot text classification. 監督モデル。 同様に、UDA (Xie et al , 2019) はテキストとバック翻訳間の一貫性学習を活用して、少数ショットテキスト分類を改善する。 0.59
Finally, self-training and pretraining with SentAugment (Du et al , 2020) improves text classification with task-specific augmentation. 最後に、SentAugment(Du et al , 2020)による自己学習と事前訓練により、タスク固有の拡張によるテキスト分類が改善される。 0.52
6 Conclusions We develop a novel distillation framework XtremeDistilTransfor mers to leverage the advantages of task-specific distillation for high compression as well as wide applicability of task-agnostic ones. 結論6 我々は, タスク特化蒸留の利点を生かした新規蒸留フレームワークであるxtremedistiltransfor mersを開発した。 0.53
We study transferability of tasks for pretrained models and demonstrate NLI to be a great source task to obtain a better teacher that transfers well across several tasks. 事前学習したモデルのタスクの転送可能性を調査し、nliが優れたソースタスクであることを実証し、複数のタスクにまたがる優れた教師を得る。 0.62
This, in turn, is used to distil a better student obtaining significant improvements over state-of-the-art task-agnostic distilled models over several tasks. これは、いくつかのタスクに対して最先端のタスク非依存の蒸留モデルよりも大幅な改善を得るためのより良い学生を退学させるために使われる。 0.44
Finally, we demonstrate techniques to obtain large-scale taskspecific augmentation data from the web to facilitate this knowledge transfer. 最後に、この知識伝達を容易にするために、webから大規模タスク特化データを取得する手法を示す。 0.60
7 Appendix 7 Appendix 0.85
Hyper-parameters. ハイパーパラメータ。 0.66
XtremeDistilTransfor mers is built over HuggingFace with most of the default hyper-parameters. xtremedistiltransfor mersはhughingface上に構築されており、デフォルトのハイパーパラメータがほとんどである。 0.52
Please refer to the ReadMe for the attached code for details. 詳細は、添付コードのReadMeを参照してください。 0.68
References Gustavo Aguilar, Yuan Ling, Yu Zhang, Benjamin Yao, Xing Fan, and Edward Guo. 参考文献 Gustavo Aguilar、Yuan Ling、Yu Zhang、Benjamin Yao、Xing Fan、Edward Guo。 0.68
2019. Knowledge distillation from internal representations. 2019. 内部表現からの知識蒸留。 0.82
Samuel R. Bowman, Gabor Angeli, Christopher Potts, and Christopher D. Manning. サミュエル・R・ボウマン、ガボル・アンジェリ、クリストファー・ポッツ、クリストファー・D・マニング。 0.36
2015. A large annotated corpus for learning natural language inference. 2015. 自然言語推論を学ぶための大きな注釈付きコーパス。 0.79
In Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing (EMNLP). 自然言語処理における経験的手法に関する2015年会議(EMNLP)の開催報告 0.77
Association for Computational Linguistics. Tom B Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al 2020. 計算言語学会会員。 Tom B Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al 2020 0.67
Language models are few-shot learners. 言語モデルはわずかな学習者です。 0.69
arXiv preprint arXiv:2005.14165. arXiv preprint arXiv:2005.14165。 0.64
Tianlong Chen, Jonathan Frankle, Shiyu Chang, Sijia Liu, Yang Zhang, Zhangyang Wang, and Michael Carbin. Tianlong Chen、Jonathan Frankle、Shiyu Chang、Sijia Liu、Yang Zhang、Zhangyang Wang、Michael Carbin。 0.68
2020a. The lottery ticket hypothesis for pre– trained bert networks. 2020a 事前訓練されたバートネットワークに対する宝くじの仮説。 0.67
Ting Chen, Simon Kornblith, Mohammad Norouzi, and Geoffrey Hinton. Ting Chen、Simon Kornblith、Mohammad Norouzi、Geoffrey Hinton。 0.63
2020b. A simple framework 2020年。 シンプルな枠組み 0.72
英語(論文から抽出)日本語訳スコア
Table 10: Variation in performance of XtremeDistilTransfor mers with different architecture (in terms of number of hidden layers (#Layer), attention heads (#Attn) and hidden dimension (#Dim) and parameter compression (#Enc Compress.) 表10:異なるアーキテクチャのXtremeDistilTransfor merのパフォーマンスの変化(隠れたレイヤの数(#Layer)、アテンションヘッド(#Attn)、隠れたディメンション(#Dim)、パラメータ圧縮(#Enc Compress)。 0.65
with respect to mBERT and corresponding performance gap (F1 Gap%) for massive multilingual NER on 41 languages. mBERTとそれに対応するパフォーマンスギャップ(F1 Gap%)に関して、41の言語で大規模な多言語NERを行う。 0.65
#Enc. and #Word Emb. #Enc。 と#Word Emb。 0.75
denote the number of encoder and word embedding parameters (in millions, rounded to nearest integer). エンコーダと単語の埋め込みパラメータの数を表す(数百万で、最も近い整数に丸められている)。 0.70
# Layer # Attn # Dim #層 #attn #ディム 0.65
F1 #Enc. #Word Emb. F1 #Enc。 ワードEmb。 0.69
#Enc F1 Compres. #enc F1 コンプレス 0.61
Gap(%) 2 6 6 2 4 6 4 4 4 6 6 12 Gap(%) 2 6 6 2 4 6 4 4 4 6 6 12 0.85
2 12 12 4 2 2 4 12 12 4 12 12 2 12 12 4 2 2 4 12 12 4 12 12 0.85
128 192 216 256 128 128 256 312 312 256 384 768 128 192 216 256 128 128 256 312 312 256 384 768 0.85
82.05 83.29 83.40 84.30 84.43 85.44 86.26 86.69 86.74 86.82 88.00 92.70 82.05 83.29 83.40 84.30 84.43 85.44 86.26 86.69 86.74 86.82 88.00 92.70 0.41
1 8 9 2 1 2 3 5 5 5 11 87 1 8 9 2 1 2 3 5 5 5 11 87 0.85
15 23 26 31 15 15 31 37 37 31 46 92 15 23 26 31 15 15 31 37 37 31 46 92 0.85
87 11 10 44 87 44 29 17 17 17 8 1 87 11 10 44 87 44 29 17 17 17 8 1 0.85
11.49 10.15 10.03 9.06 8.92 7.83 6.95 6.48 6.43 6.34 5.07 11.49 10.15 10.03 9.06 8.92 7.83 6.95 6.48 6.43 6.34 5.07 0.42
0 for contrastive learning of visual representations. 0 視覚表現の対照的な学習です 0.79
In Proceedings of the 37th International Conference on Machine Learning, volume 119 of Proceedings of Machine Learning Research, pages 1597–1607. 第37回"Proceedings of Machine Learning Research, Volume 119 of Proceedings of Machine Learning Research, page 1597–1607"に収録。 0.74
PMLR. Jingfei Du, Edouard Grave, Beliz Gunel, Vishrav Chaudhary, Onur Celebi, Michael Auli, Ves Stoyanov, and Alexis Conneau. PMLR。 Jingfei Du, Edouard Grave, Beliz Gunel, Vishrav Chaudhary, Onur Celebi, Michael Auli, Ves Stoyanov, Alexis Conneau 0.75
2020. Self-training improves pre-training for natural language understanding. 2020. 自己学習は自然言語理解のための事前学習を改善する。 0.65
Xiuyi Chen, Fandong Meng, Peng Li, Feilong Chen, Shuang Xu, Bo Xu, and Jie Zhou. Xiuyi Chen, Fandong Meng, Peng Li, Feilong Chen, Shuang Xu, Bo Xu, Jie Zhou 0.72
2020c. Bridging the gap between prior and posterior knowledge selection for knowledge-grounded dialogue generation. 2020年。 対話生成のための事前知識選択と後続知識選択のギャップを埋める。 0.76
In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 3426–3437, Online. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), page 3426–3437, Online. 0.88
Association for Computational Linguistics. Jonathan Frankle and Michael Carbin. 計算言語学会会員。 ジョナサン・フランクルとマイケル・カービン 0.58
2019. The lottery ticket hypothesis: Finding sparse, trainable neural networks. 2019. 宝くじ仮説: ばらばらで訓練可能なニューラルネットワークを見つけること。 0.72
In ICLR. OpenReview.net. ICLR。 OpenReview.net 0.68
Hao Fu, Shaojun Zhou, Qihong Yang, Junjie Tang, Guiquan Liu, Kaikui Liu, and Xiaolong Li. Hao Fu, Shaojun Zhou, Qihong Yang, Junjie Tang, Guiquan Liu, Kaikui Liu, Xiaolong Li 0.72
2020. Lrc-bert: Latent-representatio n contrastive knowledge distillation for natural language understanding. 2020. Lrc-bert: 自然言語理解のための潜在表現的知識蒸留。 0.76
Kevin Clark, Minh-Thang Luong, Quoc V. Le, and Christopher D. Manning. Kevin Clark、Minh-Thang Luong、Quoc V. Le、Christopher D. Manning。 0.85
2020. ELECTRA: pretraining text encoders as discriminators rather than generators. 2020. ELECTRA: テキストエンコーダをジェネレータではなく識別器としてトレーニングする。 0.70
In 8th International Conference on Learning Representations, ICLR 2020, Addis Ababa, Ethiopia, April 26-30, 2020. 第8回学習表現国際会議, ICLR 2020, Addis Ababa, Ethiopia, April 26-30, 2020 0.80
OpenReview.net. OpenReview.net 0.83
Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova 0.76
2019a. BERT: pre-training of deep bidirectional transformers for language understanding. 2019年。 BERT: 言語理解のための双方向トランスフォーマーの事前トレーニング。 0.74
In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, NAACL-HLT 2019, Minneapolis, MN, USA, June 2-7, 2019, Volume 1 (Long and Short Papers), pages 4171–4186. The 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, NAACL-HLT 2019, Minneapolis, MN, USA, June 2-7, 2019, Volume 1 (Long and Short Papers), page 4171–4186。 0.87
Yunchao Gong, Liu Liu, Ming Yang, and Lubomir D. Bourdev. Yunchao Gong, Liu Liu, Ming Yang, Lubomir D. Bourdev 0.70
2014. Compressing deep convolutional networks using vector quantization. 2014. ベクトル量子化を用いた深層畳み込みネットワークの圧縮 0.80
CoRR, abs/1412.6115. CoRR, abs/1412.6115。 0.58
Mitchell A. Gordon, Kevin Duh, and Nicholas Andrews. ミッチェル・A・ゴードン、ケヴィン・ダウ、ニコラス・アンドリュース。 0.50
2020. Compressing bert: Studying the effects of weight pruning on transfer learning. 2020. bert圧縮: 重みの刈り取りが転校学習に及ぼす影響を研究する。 0.81
Song Han, Huizi Mao, and William J. Dally. Song Han、Huizi Mao、William J. Dally。 0.77
2016. Deep compression: Compressing deep neural networks with pruning, trained quantization and huffman coding. 2016. ディープ圧縮: プルーニング、トレーニングされた量子化、ハフマン符号化でディープニューラルネットワークを圧縮する。 0.73
ICLR. Geoffrey E. Hinton, Oriol Vinyals, and Jeffrey Dean. ICLR ジェフリー・e・ヒントン、オリオール・ヴィニールズ、ジェフリー・ディーン。 0.48
2015. Distilling the knowledge in a neural network. 2015. ニューラルネットワークで知識を蒸留する。 0.75
CoRR, abs/1503.02531. CoRR, abs/1503.02531。 0.57
Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova 0.76
2019b. BERT: Pre-training of deep bidirectional transformers for language understanding. 2019年。 BERT: 言語理解のための双方向トランスフォーマーの事前トレーニング。 0.71
In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 4171–4186, Minneapolis, Minnesota. The 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), page 4171–4186, Minneapolis, Minnesota 0.77
Association for Computational Linguistics. Xiaoqi Jiao, Yichun Yin, Lifeng Shang, Xin Jiang, Xiao Chen, Linlin Li, Fang Wang, and Qun Liu. 計算言語学会会員。 Xiaoqi Jiao, Yichun Yin, Lifeng Shang, Xin Jiang, Xiao Chen, Linlin Li, Fang Wang, Qun Liu 0.62
2019. Tinybert: Distilling bert for natural language understanding. 2019. tinybert: 自然言語理解のためのbertの蒸留。 0.79
Xiaodong Liu, Pengcheng He, Weizhu Chen, and Jianfeng Gao. Xiaodong Liu、Pengcheng He、Weizhu Chen、Jianfeng Gao。 0.70
2019a. Improving multi-task deep neural networks via knowledge distillation for natural language understanding. 2019年。 自然言語理解のための知識蒸留によるマルチタスクディープニューラルネットワークの改善 0.75
CoRR, abs/1904.09482. CoRR, abs/1904.09482。 0.61
英語(論文から抽出)日本語訳スコア
Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov。 0.80
2019b. Roberta: A robustly optimized BERT pretraining approach. 2019年。 Roberta: 堅牢に最適化されたBERT事前トレーニングアプローチです。 0.62
CoRR, abs/1907.11692. CoRR、abs/1907.11692。 0.54
Subhabrata Mukherjee and Ahmed Hassan Awadallah. Subhabrata MukherjeeとAhmed Hassan Awadallah。 0.74
2020. XtremeDistil: Multi-stage distillation for massive multilingual models. 2020. XtremeDistil: 大規模多言語モデルの多段階蒸留。 0.81
In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 2221–2234, Online. 58th Annual Meeting of the Association for Computational Linguistics, page 2221–2234, Online 0.68
Association for Computational Linguistics. Xiaoman Pan, Boliang Zhang, Jonathan May, Joel Nothman, Kevin Knight, and Heng Ji. 計算言語学会会員。 Xiaoman Pan, Boliang Zhang, Jonathan May, Joel Nothman, Kevin Knight, and Heng Ji 0.65
2017. Cross-lingual name tagging and linking for 282 languages. 2017. 282言語のための言語間タギングとリンク。 0.80
In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1946–1958, Vancouver, Canada. 第55回計算言語学会年次大会(Volume 1: Long Papers)において、1946-1958年、カナダのバンクーバーで開催。 0.64
Association for Computational Linguistics. Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Peter J. Liu. 計算言語学会会員。 Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu
訳抜け防止モード: 計算言語学会会員。 Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li ピーター・J・リュー(Peter J. Liu)。
0.72
2019. Exploring the limits of transfer learning with a unified text-to-text transformer. 2019. 統一テキスト-テキストトランスフォーマによるトランスファー学習の限界の検討 0.83
ArXiv, abs/1910.10683. ArXiv, abs/1910.10683。 0.60
Afshin Rahimi, Yuan Li, and Trevor Cohn. Afshin Rahimi、Yuan Li、Trevor Cohn。 0.61
2019. Massively multilingual transfer for NER. 2019. nerのための超多言語トランスファー。 0.71
In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 151–164, Florence, Italy. 第57回計算言語学会年次大会(英語版)において、151-164頁、イタリア・フィレンツェ。 0.61
Association for Computational Linguistics. Pranav Rajpurkar, Jian Zhang, Konstantin Lopyrev, and Percy Liang. 計算言語学会会員。 Pranav Rajpurkar、Jian Zhang、Konstantin Lopyrev、Percy Liang。 0.57
2016. SQuAD: 100,000+ questions for machine comprehension of text. 2016. SQuAD: 機械によるテキスト理解のための10万以上の質問。 0.73
In Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, pages 2383–2392, Austin, Texas. 2016 Conference on Empirical Methods in Natural Language Processing, page 2383–2392, Texas.
訳抜け防止モード: 自然言語処理における経験的手法に関する2016年会議のまとめ 2383–2392頁、テキサス州オースティン。
0.77
Association for Computational Linguistics. Emma Strubell, Ananya Ganesh, and Andrew McCallum. 計算言語学会会員。 Emma Strubell、Ananya Ganesh、Andrew McCallum。 0.61
2019. Energy and policy considerations for deep learning in NLP. 2019. NLPにおける深層学習のためのエネルギーと政策に関する考察 0.80
In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 3645–3650, Florence, Italy. 57th Annual Meeting of the Association for Computational Linguistics, pp. 3645–3650, イタリア・フィレンツェ。 0.74
Association for Computational Linguistics. Raphael Tang, Yao Lu, Linqing Liu, Lili Mou, Olga Vechtomova, and Jimmy Lin. 計算言語学会会員。 Raphael Tang, Yao Lu, Linqing Liu, Lili Mou, Olga Vechtomova, Jimmy Lin 0.61
2019. Distilling task-specific knowledge from BERT into simple neural networks. 2019. BERTから単純なニューラルネットワークにタスク固有の知識を蒸留する。 0.74
CoRR, abs/1903.12136. CoRR, abs/1903.12136。 0.59
Iulia Turc, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Iulia Turc、Ming-Wei Chang、Kenton Lee、Kristina Toutanova。 0.73
2019. Well-read students learn better: On the importance of pre-training compact models. 2019. よく読まれた生徒は、コンパクトモデルの事前学習の重要性について学ぶ。 0.71
Alex Wang, Amanpreet Singh, Julian Michael, Felix Hill, Omer Levy, and Samuel Bowman. Alex Wang、Amanpreet Singh、Julian Michael、Felix Hill、Omer Levy、Samuel Bowman。 0.72
2018. GLUE: A multi-task benchmark and analysis platform for natural language understanding. 2018. GLUE: 自然言語理解のためのマルチタスクベンチマークと分析プラットフォーム。 0.82
In Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP, pages 353–355, Brussels, Belgium. 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP, pages 353–355, Belgium
訳抜け防止モード: 2018年EMNLPワークショップ「BlackboxNLP」の開催報告 NLPのためのニューラルネットワークの解析と解釈 353-355頁、ブリュッセル、ベルギー。
0.78
Association for Computational Linguistics. Wenhui Wang, Furu Wei, Li Dong, Hangbo Bao, Nan Yang, and Ming Zhou. 計算言語学会会員。 Wenhui Wang, Furu Wei, Li Dong, Hangbo Bao, Nan Yang, Ming Zhou 0.60
2020. Minilm: Deep self-attention distillation for task-agnostic compression of pre-trained transformers. 2020. minilm: プレトレーニングトランスのタスク非依存圧縮のための深い自己固定蒸留法。 0.69
John Wieting and Kevin Gimpel. ジョン・ワイティングとケヴィン・ギンペル。 0.63
2018. ParaNMT-50M: Pushing the limits of paraphrastic sentence embeddings with millions of machine translations. 2018. ParaNMT-50M: 数百万の機械翻訳でパラフレーズ文の埋め込みを制限する。 0.81
In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 451–462, Melbourne, Australia. 第56回計算言語学会年次大会(Volume 1: Long Papers)において,451-462頁,メルボルン,オーストラリア 0.62
Association for Computational Linguistics. Adina Williams, Nikita Nangia, and Samuel Bowman. 計算言語学会会員。 アディナ・ウィリアムズ、ニキータ・ナンギア、サミュエル・ボウマン。 0.51
2018. A broad-coverage challenge corpus for sentence understanding through inference. 2018. 推論による文理解のための広範にわたるチャレンジコーパス 0.73
In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers), pages 1112–1122. the association for computational linguistics: human language technologies, volume 1 (long papers, pages 1112–1122) 2018年北アメリカ支部の議事録。 0.70
Association for Computational Linguistics. Thomas Wolf, Lysandre Debut, Victor Sanh, Julien Chaumond, Clement Delangue, Anthony Moi, Pierric Cistac, Tim Rault, Remi Louf, Morgan Funtowicz, Joe Davison, Sam Shleifer, Patrick von Platen, Clara Ma, Yacine Jernite, Julien Plu, Canwen Xu, Teven Le Scao, Sylvain Gugger, Mariama Drame, Quentin Lhoest, and Alexander Rush. 計算言語学会会員。 Thomas Wolf, Lysandre Debut, Victor Sanh, Julien Chaumond, Clement Delangue, Anthony Moi, Pierric Cistac, Tim Rault, Remi Louf, Morgan Funtowicz, Joe Davison, Sam Shleifer, Patrick von Platen, Clara Ma, Yacine Jernite, Julien Plu, Canwen Xu, Teven Le Scao, Sylvain Gugger, Mariama Drame, Quentin Lhoest, Alexander Rush 0.67
2020. Transformers: State-of-the-art natural language processing. 2020. Transformers: 最先端の自然言語処理。 0.82
In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations, pages 38–45, Online. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations, page 38–45, Online 0.84
Association for Computational Linguistics. Victor 計算言語学会会員。 ビクター 0.49
Sanh. a 2019. distilled サン。 あ 2019年 蒸留 0.60
tilbert, https://medium.com/h uggingface/distilber t-8cf3380435b5. tilbert, https://medium.com/h uggingface/distilber t-8cf3380435b5 0.40
version of バージョン ですから 0.66
Introducing disbert. Siqi Sun, Yu Cheng, Zhe Gan, and Jingjing Liu. 紹介 自由だ Siqi Sun、Yu Cheng、Zhe Gan、Jingjing Liu。 0.56
2019. Patient knowledge distillation for bert model compression. 2019. バートモデル圧縮のための患者知識蒸留 0.83
Zhiqing Sun, Hongkun Yu, Xiaodan Song, Renjie Liu, Yiming Yang, and Denny Zhou. Zhiqing Sun, Hongkun Yu, Xiaodan Song, Renjie Liu, Yiming Yang, Denny Zhou 0.68
2020. MobileBERT: a compact task-agnostic BERT for resource-limited devices. 2020. MobileBERT: リソース制限デバイス向けのコンパクトなタスク非依存BERT。 0.75
In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 2158–2170, Online. 58th Annual Meeting of the Association for Computational Linguistics, page 2158–2170, Online 0.69
Association for Computational Linguistics. Yonghui Wu, Mike Schuster, Zhifeng Chen, and Quoc V. Le et al 2016. 計算言語学会会員。 Yonghui Wu, Mike Schuster, Zhifeng Chen, Quoc V. Le et al 2016 0.64
Google’s neural machine translation system: Bridging the gap between human and machine translation. Googleのニューラルマシン翻訳システム: 人間と機械の翻訳のギャップを埋める。 0.71
CoRR, abs/1609.08144. CoRR, abs/1609.08144。 0.59
Qizhe Xie, Zihang Dai, Eduard Hovy, Minh-Thang Luong, and Quoc V. Le. Qizhe Xie, Zihang Dai, Eduard Hovy, Minh-Thang Luong, Quoc V. Le 0.83
2019. Unsupervised data augmentation for consistency training. 2019. 一貫性トレーニングのための教師なしデータ拡張。 0.67
Zhilin Yang, Zihang Dai, Yiming Yang, Jaime G. Carbonell, Ruslan Salakhutdinov, and Quoc V. Le. Zhilin Yang, Zihang Dai, Yiming Yang, Jaime G. Carbonell, Ruslan Salakhutdinov, Quoc V. Le 0.80
2019. 2019. 0.85
英語(論文から抽出)日本語訳スコア
Xlnet: Generalized autoregressive pretraining for language understanding. Xlnet: 言語理解のための汎用的な自己回帰事前トレーニング。 0.58
CoRR, abs/1906.08237. CoRR, abs/1906.08237。 0.59
Yuan Zhang, Jason Baldridge, and Luheng He. Yuan Zhang、Jason Baldridge、Luheng He。 0.64
2019. PAWS: Paraphrase adversaries from word scrambling. 2019. PAWS: 単語スクランブルからのパラフレーズの敵。 0.80
In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 1298–1308, Minneapolis, Minnesota. The 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), page 1298–1308, Minneapolis, Minnesota 0.77
Association for Computational Linguistics. Sanqiang Zhao, Raghav Gupta, Yang Song, and Denny Zhou. 計算言語学会会員。 Sanqiang Zhao, Raghav Gupta, Yang Song, Denny Zhou 0.58
2019. Extreme language model compression with optimal subwords and shared projections. 2019. 最適なサブワードと共有投影を伴う極端な言語モデル圧縮。 0.79
Wei Zhu, Xiaofeng Zhou, Keqiang Wang, Xun Luo, Xiepeng Li, Yuan Ni, and Guotong Xie. Wei Zhu, Xiaofeng Zhou, Keqiang Wang, Xun Luo, Xiepeng Li, Yuan Ni, Guotong Xie 0.70
2019. PANLP at MEDIQA 2019: Pre-trained language models, transfer learning and knowledge distillation. 2019. MEDIQA 2019: 事前訓練された言語モデル、移行学習、知識蒸留。 0.80
In Proceedings of the 18th BioNLP Workshop and Shared Task, pages 380–388, Florence, Italy. 第18回BioNLPワークショップと共有タスクの成果』380-388頁、イタリアのフィレンツェ。 0.76
Association for Computational Linguistics. 計算言語学会会員。 0.52
                         ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。