論文の概要、ライセンス

# (参考訳) 一人の教師は十分か? 複数の教師による事前学習型言語モデル蒸留 [全文訳有]

One Teacher is Enough? Pre-trained Language Model Distillation from Multiple Teachers ( http://arxiv.org/abs/2106.01023v1 )

ライセンス: CC BY 4.0
Chuhan Wu, Fangzhao Wu, Yongfeng Huang(参考訳) プレトレーニング言語モデル(PLM)はNLPにおいて大きな成功を収めている。 しかし、その巨大なモデルサイズは、多くの実用的なシステムでその応用を妨げる。 知識蒸留はPLMを圧縮する一般的な手法であり、大きな教師のPLMから小さな学生モデルを学ぶ。 しかし、一人の教師から学んだ知識は限定的であり、偏りもあるため、低品質の生徒モデルとなる。 本稿では,事前学習型言語モデル圧縮のためのマルチ教師ナレッジ蒸留フレームワークMT-BERTを提案する。 MT-BERT では,複数の教師 PLM を下流タスクで協調的に微調整するマルチ教師共同ファインタニング手法を設計する。 さらに,隠蔽状態とソフトラベルの両方において有用な知識を複数の教師PLMから学生モデルに伝達するために,多教師の隠蔽損失と多教師の蒸留損失を提案する。 PLMの圧縮におけるMT-BERTの有効性を3つのベンチマークデータセットで検証した。

Pre-trained language models (PLMs) achieve great success in NLP. However, their huge model sizes hinder their applications in many practical systems. Knowledge distillation is a popular technique to compress PLMs, which learns a small student model from a large teacher PLM. However, the knowledge learned from a single teacher may be limited and even biased, resulting in low-quality student model. In this paper, we propose a multi-teacher knowledge distillation framework named MT-BERT for pre-trained language model compression, which can train high-quality student model from multiple teacher PLMs. In MT-BERT we design a multi-teacher co-finetuning method to jointly finetune multiple teacher PLMs in downstream tasks with shared pooling and prediction layers to align their output space for better collaborative teaching. In addition, we propose a multi-teacher hidden loss and a multi-teacher distillation loss to transfer the useful knowledge in both hidden states and soft labels from multiple teacher PLMs to the student model. Experiments on three benchmark datasets validate the effectiveness of MT-BERT in compressing PLMs.
公開日: Wed, 2 Jun 2021 08:42:33 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Pre-trained Language Model Distillation from Multiple Teachers 複数の教師による事前学習型言語モデル蒸留 0.65
One Teacher is Enough? 一人の教師は十分か? 0.68
†Department of Electronic Engineering & BNRist, Tsinghua University, Beijing 100084, China 中国・北京・清華大学 電子工学・BNRist研究室 0.53
Chuhan Wu† Fangzhao Wu‡ Yongfeng Huang† ‡Microsoft Research Asia, Beijing 100080, China 中国、中国、中国、中国、中国、中国、中国、中国、中国、中国、中国、中国、中国、中国 0.29
{wuchuhan15, wufangzhao}@gmail.com, yfhuang@tsinghua.edu .cn wuchuhan15, wufangzhao}@gmail.com, yfhuang@tsinghua.edu .cn 0.76
1 2 0 2 n u J 1 2 0 2 n u J 0.85
2 ] L C . s c [ 2 ]LC。 sc [ 0.60
1 v 3 2 0 1 0 1 v 3 2 0 1 0 0.85
. 6 0 1 2 : v i X r a . 6 0 1 2 : v i X r a 0.85
Abstract Pre-trained language models (PLMs) achieve great success in NLP. 概要 プレトレーニング言語モデル(PLM)はNLPにおいて大きな成功を収めている。 0.55
However, their huge model sizes hinder their applications in many practical systems. しかし、その巨大なモデルサイズは、多くの実用的なシステムでその応用を妨げる。 0.61
Knowledge distillation is a popular technique to compress PLMs, which learns a small student model from a large teacher PLM. 知識蒸留はPLMを圧縮する一般的な手法であり、大きな教師のPLMから小さな学生モデルを学ぶ。 0.63
However, the knowledge learned from a single teacher may be limited and even biased, resulting in low-quality student model. しかし、一人の教師から学んだ知識は限定的であり、偏りもあるため、低品質の生徒モデルとなる。 0.65
In this paper, we propose a multi-teacher knowledge distillation framework named MTBERT for pre-trained language model compression, which can train high-quality student model from multiple teacher PLMs. 本稿では,複数の教師plmから高品質な生徒モデルを学習できる事前学習型言語モデル圧縮のためのマルチ教師知識蒸留フレームワークmtbertを提案する。 0.73
In MTBERT we design a multi-teacher co-finetuning method to jointly finetune multiple teacher PLMs in downstream tasks with shared pooling and prediction layers to align their output space for better collaborative teaching. MTBERT では,複数の教師 PLM を下流タスクで協調的に微調整するマルチ教師共同ファインタニング手法を設計し,共有プーリングと予測層を用いて協調的な学習を行う。 0.78
In addition, we propose a multi-teacher hidden loss and a multi-teacher distillation loss to transfer the useful knowledge in both hidden states and soft labels from multiple teacher PLMs to the student model. さらに,隠蔽状態とソフトラベルの両方において有用な知識を複数の教師PLMから学生モデルに伝達するために,多教師の隠蔽損失と多教師の蒸留損失を提案する。 0.78
Experiments on three benchmark datasets validate the effectiveness of MTBERT in compressing PLMs. 3つのベンチマークデータセットの実験は、PMMの圧縮におけるMTBERTの有効性を検証する。 0.59
1 Introduction Pre-trained language models (PLMs) such as BERT and RoBERTa have achieved notable success in various NLP tasks (Devlin et al , 2019; Yang et al , 2019; Liu et al , 2019). 1 はじめに BERTやRoBERTaといった事前学習言語モデル(PLM)は、様々なNLPタスク(Devlin et al , 2019; Yang et al , 2019; Liu et al , 2019)で顕著な成功を収めている。 0.75
However, many PLMs have a huge model size and computational complexity, making it difficult to deploy them to low-latency and high-concurrence online systems or devices with limited computational resources (Jiao et al , 2020; Wu et al , 2021). しかし、多くのPLMは巨大なモデルサイズと計算複雑性を持ち、低レイテンシで高コンカレンスなオンラインシステムや限られた計算資源を持つデバイスにデプロイすることは困難である(Jiao et al , 2020; Wu et al , 2021)。 0.73
Knowledge distillation is a widely used technique for compressing large-scale pre-trained language models (Sun et al , 2019; Wang et al , 2020). 知識蒸留は、大規模な事前訓練言語モデル(Sun et al , 2019; Wang et al , 2020)を圧縮するのに広く用いられる技術である。 0.72
For example, Sanh et al (2019) proposed Distil- 例えば、Sanh et al (2019) は Distil を提案した。 0.73
BERT to compress BERT by transferring knowledge from the soft labels predicted by the teacher model to student model with a distillation loss. BERTは,教師モデルによって予測されたソフトラベルから蒸留損失のある学生モデルへ知識を伝達することで,BERTを圧縮する。
訳抜け防止モード: BERT で BERT を圧縮する 教師モデルによって予測されたソフトラベルから 蒸留損失のある生徒モデルに 知識を移すこと。
0.81
Jiao et al (2020) proposed TinyBERT, which aligns the hidden states and the attention heatmaps between student and teacher models. jiao et al (2020) は、生徒と教師のモデル間の隠れた状態と注意熱マップを整合させるtinybertを提案した。 0.64
These methods usually learn the student model from a single teacher model (Gou et al , 2020). これらの手法は通常、単一教師モデル(Gou et al , 2020)から学生モデルを学ぶ。 0.82
However, the knowledge and supervision provided by a single teacher model may be insufficient to learn an accurate student model, and the student model may also inherit the bias in the teacher model (Bhardwaj et al , 2020). しかし、一人の教師モデルが提供する知識と監督は、正確な学生モデルを学ぶには不十分であり、生徒モデルは教師モデルにおけるバイアスを継承することもある(Bhardwaj et al , 2020)。 0.77
Fortunately, many different large PLMs such as BERT (Devlin et al , 2019), RoBERTa (Liu et al , 2019) and UniLM (Dong et al , 2019) are off-theshelf. 幸いにも、BERT (Devlin et al , 2019)、RoBERTa (Liu et al , 2019)、UniLM (Dong et al , 2019) など、多くの大きなPLMが市販されている。 0.77
These PLMs may encode complementary knowledge because they usually have different configurations and are trained on different corpus with different self-supervision tasks (Qiu et al , 2020). これらのPLMは、通常異なる構成を持ち、異なる自己監督タスクを持つ異なるコーパス(Qiu et al , 2020)で訓練されるため、補完的な知識を符号化することができる。 0.61
Thus, incorporating multiple pre-trained language models into knowledge distillation has the potential to learn better student models. したがって、複数の事前学習された言語モデルを知識蒸留に組み込むことで、より良い生徒モデルを学ぶことができる。 0.62
In this paper, we present a multi-teacher knowledge distillation method named MT-BERT for pretrained language model compression.1 In MTBERT, we propose a multi-teacher co-finetuning framework to jointly finetune multiple teacher models with a shared pooling and prediction module to align their output hidden states for better collaborative student teaching. 本稿では,事前訓練型言語モデル圧縮のためのMT-BERTという多教師知識蒸留手法を提案する。MTBERTでは,複数教師モデルと共有プーリングと予測モジュールを併用して,出力隠蔽状態を協調的に調整し,より優れた協調的な学生教育を実現するための多教師共ファインタニングフレームワークを提案する。 0.72
In addition, we propose a multi-teacher hidden loss and a multi-teacher distillation loss to transfer the useful knowledge in both hidden states and soft labels from multiple teacher models to student model. さらに,複数の教師モデルから学生モデルへ,隠蔽状態とソフトラベルの両方において有用な知識を伝達するために,多教師の隠蔽損失と多教師の蒸留損失を提案する。 0.77
Experiments on three benchmark datasets show MT-BERT can effectively improve the quality of student models for PLM compression and outperform many singleteacher knowledge distillation methods. MT-BERTはPLM圧縮のための学生モデルの品質を効果的に向上し、多くの単発知識蒸留法より優れていることを示す。
訳抜け防止モード: PLM圧縮のための学生モデルの品質を効果的に改善できるMT-BERTによる3つのベンチマークデータセットの実験 シングルティーラーの知識蒸留法よりも優れています
0.71
1We focus on task-specific knowledge distillation. 1 タスク固有の知識蒸留に焦点を当てる。 0.57
英語(論文から抽出)日本語訳スコア
2 MT-BERT Next, we introduce the details of our multi-teacher knowledge distillation method MT-BERT for pretrained language model compression.2 We first introduce the multi-teacher co-finetuning framework to jointly finetune multiple teacher models in downstream tasks, and then introduce the multi-teacher distillation framework to collaboratively teach the student with multiple teachers. 2 MT-BERT 次に,事前学習した言語モデル圧縮のためのマルチ教師知識蒸留法であるmt-bertの詳細について紹介する。2 では,まず,下流課題において複数の教師モデルを同時に微調整するマルチ教師共精細化フレームワークを導入し,次に,複数の教師と協調して生徒に指導を行うマルチ教師蒸留フレームワークについて紹介する。
訳抜け防止モード: 2 MT-BERT 次に,事前学習言語モデル圧縮のためのマルチ教師知識蒸留法MT - BERTの詳細を紹介する。 まず、下流タスクにおいて複数の教師モデルを協調的に微調整するマルチ教師共同ファインタニングフレームワークを紹介する。 そして、複数の教師と共同で生徒に教えるマルチ教師蒸留フレームワークを導入する。
0.71
2.1 Multi-Teacher Co-Finetuning Researchers have found that distilling the knowledge in the hidden states of a teacher model is important for effective student teaching (Sun et al , 2019; Jiao et al , 2020). 2.1 教師モデルの隠蔽状態における知識の蒸留が効果的な学生教育に重要であること(Sun et al , 2019; Jiao et al , 2020)。
訳抜け防止モード: 2.1 マルチ教師 co - 微調整研究者は 教師モデルの隠れた状態における知識の蒸留 効果的な学生教育に重要である(sun et al, 2019; jiao et al, 2020)。
0.78
However, since different teacher PLMs are separately pre-trained with different settings, finetuning them independently may lead to some inconsistency in their feature space, which is not optimal for transferring knowledge in the hidden states of multiple teachers. しかし、異なる教師のPLMは異なる設定で個別に事前訓練されているため、個別に微調整することは、複数の教師の隠れた状態における知識の伝達に最適でない特徴空間におけるいくつかの矛盾をもたらす可能性がある。 0.63
Thus, we design a multi-teacher co-finetuning framework to obtain some uniformity among the hidden states output by the last layer of different teacher models for better collaborative student teaching, as shown in Fig 1. そこで,図1に示すように,異なる教師モデルの最後の層から出力される隠れた状態間の一様性を得るために,マルチ教師協調調整フレームワークを設計した。 0.86
Assume there are N teacher models, and denote the hidden states output by the top layer of the i-th teacher as Hi. N の教師モデルが存在し、i 番目の教師の上位層が出力する隠れ状態が Hi であると仮定する。 0.76
We use a shared pooling3 layer to summarize each hidden matrix Hi into a unified text embedding, and then use a shared dense layer to convert it into a soft probability vector yi. 共有の pooling3 層を使って各隠れ行列 hi を統一されたテキスト埋め込みにまとめ、共有の密層を使ってそれをソフト確率ベクトル yi に変換する。 0.77
Finally, we jointly optimize the summation of the task-specific losses of all teacher models, i=1 CE(y, yi), where CE(·,·) stands for the cross-entropy loss and y is the ground-truth label. 最後に、すべての教師モデルのタスク固有の損失の和 i=1 ce(y, yi) を共同で最適化し、ここで ce(·,·) はクロスエントロピー損失を表し、y は接地ラベルである。
訳抜け防止モード: 最後に、タスクの総和(教師モデルの特定の損失)を共同で最適化する。 i=1 CE(y, yi ) ここで CE ( ·, · ) はクロス-エントロピー損失を表す。 そして y が土台です。
0.75
Since the pooling and prediction layers are shared among different teachers, the feature space of the output hidden states from different teacher PLMs can be aligned, which can help them collaborate better for student teaching. プーリング層と予測層は異なる教師間で共有されるため、異なる教師のPLMから出力された隠れ状態の特徴空間を整列させることができ、生徒の教育に役立てることができる。 0.73
i.e.,(cid:80)N i.e., (cid:80)N 0.74
2.2 Multi-Teacher Knowledge Distillation Next, we introduce our proposed multi-teacher knowledge distillation framework, which is shown in Fig 2. 2.2 マルチティーチング知識蒸留 次は、図2に示すようなマルチティーチング知識蒸留フレームワークを提案する。 0.75
Two loss functions are used for knowledge distillation, i.e., a multi-teacher hidden loss and a multi-teacher distillation loss. 2つの損失関数は知識蒸留、すなわち多教師の隠蔽損失と多教師の蒸留損失に使用される。 0.77
The multi-teacher hidden loss aims to transfer knowledge in the hidden states of multiple teachers. マルチ教師の隠れた喪失は、複数の教師の隠れた状態における知識の伝達を目的としている。
訳抜け防止モード: マルチ教師が隠れた損失を狙う 複数の教師の隠れた状態で 知識を伝達するのです
0.66
2Codes available at https://github.com/w uch15/MT-BERT 3In MT-BERT we use attentive pooling because it performs 2Codes available at https://github.com/w uch15/MT-BERT 3 MT-BERT MT-BERT 0.57
better than average pooling and “[CLS]” token embedding. 平均的なプールと“[CLS]”トークンの埋め込みよりもよい。 0.77
Figure 1: The multi-teacher co-finetuning framework. 図1:multi-teacher co-finetuning framework。 0.78
Assume there are N teacher PLMs, and each of them has T × K Transformer layers. N の教師 PLM が存在し、それぞれ T × K のトランスフォーマー層を持つと仮定する。 0.77
They collaboratively teach a student model with K layers, and each layer in the student model corresponds to T layers in teacher PLMs.4 Denote the hidden states output by the j-th layer of the student model as Hs j, and the corresponding hidden states output by the (T × j)-th layer of the i-th teacher model as Hi T j. 彼らは、学生モデルをK層で協調的に教え、学生モデルの各層は教師PLMのT層に対応する。4 学生モデルのj層によって出力される隠蔽状態はHs jとして、それに対応する隠蔽状態は、i層教師モデルの(T × j)層によって出力される。 0.79
Following (Sun et al , 2019), we apply the mean squared error (MSE) to the hidden states of corresponding layers in the student and teacher models to encourage the student model to have similar functions with teacher models. 続いて(sun et al , 2019)、学生モデルと教師モデルの対応するレイヤの隠れた状態に対して平均二乗誤差(mse)を適用し、生徒モデルに教師モデルと同じような機能を持たせるように促す。 0.75
The multi-teacher hidden loss LM T−Hid is formulated as follows: 多教師隠れ損失LM T−Hidは次のように定式化される。 0.57
LM T−Hid = LM T-Hid = 0.64
MSE(Hs j , WijHi MSE(Hs) j , WijHi 0.89
Tj), (1) N(cid:88) Tj)。 (1) n(cid:88) 0.79
T(cid:88) i=1 t(cid:88) i=1 0.70
j=1 where Wij is a learnable transformation matrix. j=1 Wijは学習可能な変換マトリックスです。 0.64
The multi-teacher distillation loss aims to transfer the knowledge in the soft labels output by multiple teachers to student. マルチティーチャー蒸留の損失は、複数の教師が出力するソフトラベルの知識を学生に移すことを目的としている。
訳抜け防止モード: マルチ教師の蒸留損失をめざして 複数の教師が出力するソフトラベルの知識を 学生に伝えること。
0.73
The predictions of different teachers on the same sample may have different correctness and confidence. 同じサンプル上の異なる教師の予測は、異なる正確性と自信を持つ可能性がある。 0.71
Thus, it may be suboptimal to simply ensemble (Fukuda et al , 2017; Liu et al , 2020) or choose (Yuan et al , 2020) soft labels without the help of task labels. したがって、単純なアンサンブル(Fukuda et al , 2017; Liu et al , 2020)や、タスクラベルの助けなしにソフトラベル(Yuan et al , 2020)を選択するのが最適である。 0.74
Since in taskspecific knowledge distillation the labels of training samples are available, we propose a distillation loss weighting method to assign different weights to different samples. タスク固有の知識蒸留では,トレーニングサンプルのラベルが利用可能であるため,異なるサンプルに異なる重みを割り当てる蒸留損失重み付け法を提案する。 0.82
The weights are based on the loss inferred from the predictions of corresponding teacher against the gold labels. 重みは、対応する教師の金のラベルに対する予測から推測される損失に基づいている。 0.71
More specifically, the multi-teacher distillation loss LM T−Dis is formulated as follows: LM T−Dis = 具体的には、マルチティーラー蒸留損失 LM T−Dis を次のように定式化する。 0.77
N(cid:88) CE(yi/t, ys/t) 1 + CE(y, yi) n(cid:88) CE(yi/t, ys/t) 1 + CE(y, yi) 0.85
(2) , i=1 4Here we assume that all teacher models have the same number of layers. (2) , i=1 4 教師モデルはみな同じ数のレイヤーを持っていると仮定する。 0.77
We will explore to generalize MT-BERT to scenarios where teacher models have different architectures in our future work. MT-BERTを教師モデルが将来的な作業で異なるアーキテクチャを持つシナリオに一般化することを検討する。 0.73
…Shared Pooling & DenseTask Loss𝒚𝒚3𝒚𝒚2𝒚𝒚1Teacher 1Teacher 2Teacher 3……Input Text 共有プール&DenseTask Lossyy3yy2yy1Teacher 1Teacher 2Teacher 3......入力テキスト 0.42
英語(論文から抽出)日本語訳スコア
Figure 2: The multi-teacher knowledge distillation framework in MT-BERT. 図2:MT-BERTの多教師知識蒸留フレームワーク。 0.80
where t is the temperature coefficient. ここで t は温度係数です 0.68
In this way, if a teacher’s prediction on a certain sample is more close to the ground-truth label, its corresponding distillation loss will gain higher weight. このように、あるサンプルに対する教師の予測が接地木ラベルに近くなると、それに対応する蒸留損失はより重くなる。 0.62
Following (Tang et al , 2019; Lu et al , 2020), we also incorporate gold labels to compute the taskspecific loss LT ask based on the predictions of the student model, i.e., LT ask = CE(y, ys). 続いて (tang et al , 2019; lu et al , 2020) では,学生モデルの予測,すなわち lt ask = ce(y, ys) に基づいてタスク固有損失 lt ask を計算するゴールドラベルも組み込んでいます。
訳抜け防止モード: 以下(Tang et al, 2019; Lu et al, 2020) 我々はまた、学生モデルの予測に基づいて、タスク固有の損失 LT を計算するためにゴールドラベルも組み込んだ。 つまり、LT ask = CE(y , ys ) である。
0.80
The final loss function L for learning the student model is a summation of the multi-teacher hidden loss, multiteacher distillation loss and the task-specific loss, which is formulated as follows: 学生モデルを学ぶための最終損失関数Lは、マルチティーチンガー隠れ損失、マルチティーチンガー蒸留損失、タスク固有の損失の和であり、次のように定式化される。 0.69
L = LM T−Hid + LM T−Dis + LT ask. L = LM T−Hid + LM T−Dis + LT ask。 0.87
(3) 3 Experiments 3.1 Datasets and Experimental Settings We conduct experiments on three benchmark datasets with different sizes. (3) 3 実験 3.1 データセットと実験設定 異なるサイズの3つのベンチマークデータセットで実験を行う。 0.85
The first one is SST2 (Socher et al , 2013), which is a benchmark for text sentiment classification. 1つ目はSST2(Socher et al , 2013)で、テキストの感情分類のベンチマークである。 0.75
The second one is RTE (Bentivogli et al , 2009), which is a widely used dataset for natural language inference. 2つ目は RTE (Bentivogli et al , 2009) で、自然言語推論のための広く使われているデータセットである。 0.84
The third one is the MIND dataset (Wu et al , 2020c), which is a large-scale public English news dataset.5 We perform the news topic classification task on this dataset. 3つ目はmindデータセット(wu et al , 2020c)で、これは大規模な英語ニュースデータセットである。5 このデータセットでニューストピック分類タスクを実行する。 0.71
The detailed statistics of the three datasets are shown in Table 1. 3つのデータセットの詳細な統計を表1に示す。 0.80
In our experiments, we use the pre-trained 12layer BERT, RoBERTa and UniLM (Bao et al , 2020)6 models as the teachers to distill a 6-layer 実験では,プレトレーニングした12層BERT,RoBERTa,UniLM(B ao et al , 2020)6モデルを用いて6層蒸留を行った。 0.74
5https://msnews.gith ub.io/ 6We used the UniLMv2 version. 5https://msnews.gith ub.io/ 6UniLMv2バージョンを使用しました。 0.46
Dataset SST-2 RTE MIND Dataset SST-2 RTE MIND 0.84
#Train #Dev 872 276 2.6k #Train #Dev 872 276 2.6k 0.86
67k 2.5k 102k 67k 2.5k 102k 0.52
#Test 1.8k 3.0k 26k #Test 1.8k 3.0k 26k 0.54
#Class 2 2 18 #クラス 2 2 18 0.80
Table 1: The statistics of the three datasets. 表1: 3つのデータセットの統計。 0.82
and a 4-layer student models respectively. 4層モデルと4層モデル。 0.62
We use the token embeddings and the first 4 or 6 Transformer layers of UniLM to initialize the parameters of the student model. トークン埋め込みと、UniLMの最初の4または6トランスフォーマーレイヤを使用して、学生モデルのパラメータを初期化します。 0.70
The pooling layer is implemented by an attention network (Yang et al , 2016; Wu et al , 2020a). プール層は注目ネットワークによって実装されている(Yang et al , 2016; Wu et al , 2020a)。 0.79
The temperature coefficient t is set to 1. 温度係数tを1に設定する。 0.67
The attention query dimension in the attentive pooling layer is 200. 注意プーリング層の注意クエリ次元は200である。 0.64
The optimizer we use is Adam (Bengio and LeCun, 2015). 私たちが使用しているオプティマイザはAdam(BengioとLeCun, 2015)です。 0.58
The teacher model learning rate is 2e-6 while the student model learning rate is 5e-6. 教師モデル学習率は2e-6であり、生徒モデル学習率は5e-6である。 0.69
The batch size is 64. バッチサイズは64。 0.53
Following (Jiao et al , 2020), we report the accuracy score on the SST-2 and RTE datasets. Jiao et al , 2020 に続いて,SST-2 および RTE データセットの精度スコアを報告する。 0.74
In addition, since the news topics in the MIND dataset are highly imbalanced, following (Wu et al , 2020b) we report both accuracy and macro-F1 scores. さらに,マインドデータセットのニューストピックは高度にバランスが取れないため(wu et al , 2020b),正確性とマクロf1スコアの両方を報告する。 0.69
Each experiment is independently repeated 5 times and the average scores are reported. 各実験は独立して5回繰り返され、平均スコアが報告される。 0.71
3.2 Performance Evaluation We compare the performance of MT-BERT with two groups of baselines. 3.2 性能評価 MT-BERTの性能とベースラインの2つのグループを比較した。 0.72
The first group includes the 12-layer version of the teacher models, i.e., BERT (Devlin et al , 2019), RoBERTa (Liu et al , 2019) and UniLM (Bao et al , 2020). 最初のグループには12層版の教師モデル、すなわちBERT (Devlin et al , 2019)、RoBERTa (Liu et al , 2019)、UniLM (Bao et al , 2020)が含まれる。 0.75
The second group includes the 6-layer and 4-layer student 第2群は6層および4層である。 0.66
TransformerTransform er………TransformerTransform er………Shared Pooling & DenseTransformerTran sformer…………TransformerTransform er………TransformerTransform er…………TransformerTransform er………Transformer………Transformer……Multi-teacher distillation lossMulti-teacher hidden lossTeacher 1Teacher 2Teacher 3Student𝑯𝑯1𝑠𝑠𝑯𝑯𝐾𝐾𝑠𝑠𝑯𝑯𝑇𝑇3𝑯𝑯𝑇𝑇𝐾𝐾3𝑯𝑯𝑇𝑇2𝑯𝑯𝑇𝑇𝐾𝐾2𝑯𝑯𝑇𝑇1𝑯𝑯𝑇𝑇𝐾𝐾1𝒚𝒚3𝒚𝒚2𝒚𝒚1𝒚𝒚𝑠𝑠Task loss… transformer......... transformertransform er.................. shared pooling & densetransformertran sformer............. .....transformertran sformer............. .....transformertran sformer............. .....transformer.... ........transformer. .................tra nsformer............ multi-teacher distillation lossmulti-teacher hidden lossteacher 2teacher 3studenthh1shhtk3hht k3hhtkk2hhtkk2hht1hh tkk1yyyyyyyyyyssstas klos... 0.08
英語(論文から抽出)日本語訳スコア
Methods BERT12 RoBERTa12 UniLM12 DistilBERT6 DistilBERT4 BERT-PKD6 BERT-PKD4 TinyBERT6 TinyBERT4 MT-BERT6 MT-BERT4 方法 BERT12 RoBERTa12 UniLM12 DistilBERT6 DistilBERT4 BERT-PKD6 BERT-PKD4 TinyBERT6 TinyBERT4 MT-BERT6 MT-BERT4 0.60
SST-2 (Acc.) SST-2 (Acc)。 0.85
92.8 94.8 95.1 92.5 91.4 92.0 89.4 93.1 92.6 94.6 93.9 92.8 94.8 95.1 92.5 91.4 92.0 89.4 93.1 92.6 94.6 93.9 0.42
RTE (Acc.) RTE (複数形 RTEs) 0.78
68.6 78.7 81.3 58.4 54.1 65.5 62.3 70.0 66.6 75.7 73.8 68.6 78.7 81.3 58.4 54.1 65.5 62.3 70.0 66.6 75.7 73.8 0.42
MIND (Acc./Macro-F) 73.6 73.9 74.6 72.5 72.1 72.7 72.4 73.4 73.0 74.0 73.8 MIND (Acc./Macro-F) 73.6 73.9 74.6 72.5 72.1 72.7 72.4 73.4 73.0 74.0 73.8 0.64
51.3 51.5 51.9 50.4 50.2 50.6 50.3 50.8 50.4 51.5 51.2 51.3 51.5 51.9 50.4 50.2 50.6 50.3 50.8 50.4 51.5 51.2 0.42
#Param 109M 109M 109M 67.0M 52.2M 67.0M 52.2M 67.0M 14.5M 67.0M 52.2M #パラム 109M 109M 109M 67.0M 52.2M 67.0M 52.2M 14.5M 67.0M 52.2M 0.50
Table 2: Results and parameters of different methods. 表2: 異なるメソッドの結果とパラメータ。 0.73
(a) SST-2 and RTE datasets. (a)SST-2およびRTEデータセット。 0.80
(b) MIND dataset. (b)マインドデータセット。 0.78
Figure 3: Comparison of MT-BERT and ensemblebased multi-teacher distillation methods. 図3:MT-BERTとアンサンブルベース多教師蒸留法の比較 0.77
models distilled by DistilBERT (Sanh et al , 2019), BERT-PKD (Sun et al , 2019) and TinyBERT (Jiao et al , 2020), respectively. DistilBERT (Sanh et al , 2019), BERT-PKD (Sun et al , 2019) および TinyBERT (Jiao et al , 2020) がそれぞれ蒸留した。 0.81
The results of different methods are summarized in Table 2.7 Referring to this table, we find MT-BERT can consistently outperform all the single-teacher knowledge distillation methods compared here. この表を参照して、異なる方法の結果を表2.7にまとめると、mt-bertはここで比較した全ての独学の知識蒸留法を一貫して上回ることができる。
訳抜け防止モード: 異なる方法の結果は表2.7にまとめられている。 MT - BERTは、ここで比較した教師の知識蒸留方法の全てを一貫して上回ります。
0.69
This is because the knowledge provided by a single teacher model may be insufficient, and incorporating the complementary knowledge encoded in multiple teacher models can help learn better student model. これは、単一教師モデルが提供する知識が不十分である可能性があり、複数の教師モデルに符号化された補完的な知識は、より良い学生モデルを学ぶのに役立つためである。 0.62
In addition, 7We take the original reported results of baseline methods on the SST-2 and RTE datasets, and we run their codes to obtain their results on the MIND dataset. また、 7) SST-2 および RTE データセットのベースライン手法の当初の報告結果と,MIND データセットで結果を得るためのコードを実行する。 0.57
Teachers SST-2 (Acc.) 教師 SST-2 (Acc)。 0.80
92.1 BERT 92.9 RoBERTa 93.3 UniLM 93.6 BERT+RoBERTa BERT+UniLM 93.9 RoBERTa+UniLM 94.3 All 94.6 92.1 BERT 92.9 RoBERTa 93.3 UniLM 93.6 BERT+RoBERTa BERT+UniLM 93.9 RoBERTa+UniLM 94.3 All 94.6 0.50
RTE (Acc.) RTE (複数形 RTEs) 0.78
65.8 68.9 70.6 71.2 73.7 74.9 75.7 65.8 68.9 70.6 71.2 73.7 74.9 75.7 0.43
MIND (Acc./Macro-F) 72.8 73.0 73.4 73.3 73.6 73.7 74.0 MIND (Acc./Macro-F) 72.8 73.0 73.4 73.3 73.6 73.7 74.0 0.64
50.6 50.7 50.9 50.9 51.1 51.3 51.5 50.6 50.7 50.9 50.9 51.1 51.3 51.5 0.43
Table 3: Different combinations of teacher models. 表3:教師モデルの異なる組み合わせ。 0.72
compared with the teacher models, MT-BERT has much fewer parameters and its performance is comparable or even better than these teacher models. MT-BERTは教師モデルと比較してパラメータがはるかに少なく、その性能は教師モデルと同等かそれ以上に優れている。 0.79
It shows that MT-BERT can effectively inherit the knowledge of multiple teacher models even if the model size is significantly compressed. MT-BERTは,モデルサイズが著しく圧縮された場合でも,複数の教師モデルの知識を効果的に継承できることを示す。 0.73
We also compare MT-BERT with several multiteacher knowledge distillation methods proposed in the computer vision field that ensemble the outputs of different teachers for student teaching (You et al , 2017; Liu et al , 2020). また,MT-BERTとコンピュータビジョン分野において提案されている複数のマルチテラー知識蒸留手法を比較し,学生教育のための異なる教師の成果をまとめる(You et al , 2017; Liu et al , 2020)。 0.75
The results are shown in Fig. 結果は図に示されています。 0.70
3. We find our MT-BERT performs better than these ensemble-based multi-teacher knowledge distillation methods. 3. MT-BERTは,これらのアンサンブルをベースとした多教師知識蒸留法よりも優れていた。 0.66
This is because these methods do not consider the correctness of the teacher model predictions on a specific sample and cannot transfer useful knowledge encoded in the intermediate layers, which may not be optimal for collaborative knowledge distillation from multiple teachers. これは,教師モデル予測の正しさを特定のサンプルで考慮せず,中間層に符号化された有用な知識を伝達できないためであり,複数の教師による協調的知識蒸留には最適ではない。 0.85
3.3 Effectiveness of Multiple Teachers Next, we study the effectiveness of using multiple teacher PLMs for knowledge distillation. 3.3 複数教員の有効性 次に, 知識蒸留における複数教員PLMの有効性について検討する。
訳抜け防止モード: 3.3 複数教員の有効性の検討 複数の教師 PLM を用いて知識蒸留を行う。
0.75
We compare the performance of the 6-layer student model distilled from different combinations of teacher models. 教師モデルの異なる組み合わせから蒸留した6層学習モデルの性能比較を行った。 0.84
The results are summarized in Table 3. 結果は表3にまとめられている。 0.82
It shows that using multiple teacher PLMs can achieve better performance than using a single one. 複数の教師PLMを使用することで,1つよりも優れた性能が得られることを示す。 0.68
This is because different teacher models can encode complementary knowledge and combining them together can provide better supervision for student model. これは、異なる教師モデルが補足的な知識をエンコードし、それらを組み合わせることで、生徒モデルのより優れた監督を提供できるためである。 0.56
In addition, combining all three teacher PLMs can further improve the performance of student model, which validates the effectiveness of MT-BERT in distilling knowledge from multiple teacher models. さらに,3つの教師plmを組み合わせることで,mt-bertが複数の教員モデルから知識を蒸留する効果を検証し,学生モデルの性能をさらに向上させることができる。 0.74
3.4 Ablation Study We study the effectiveness of the two important techniques in MT-BERT, i.e., the multi-teacher co-finetuning framework and the distillation loss 3.4 MT-BERTにおける2つの重要な技術,すなわち多教師共同ファインタニングフレームワークと蒸留損失の有効性について、アブレーション研究 0.78
SSTRTE91.092.093.094 .095.096.0SST Accuracy94.6094.2094 .0070.071.573.074.57 6.077.5RTE Accuracy75.7075.1074 .80Average EnsembleWeighted EnsembleMT-BERTAccur acyMacro-F72.072.573 .073.574.074.5Accura cy74.0073.7073.5049. 550.050.551.051.552. 0Macro-F51.5051.2050 .90Average EnsembleWeighted EnsembleMT-BERT SSTRTE91.092.096.096 .096.09ST Accuracy94.6094.2094 .0070.071.573.074.57 6.077.5RTE Accuracy75.7075.1074 .80Average EnsembleWeighted EnsembleMT-BERTAccur acyMacro-F72.072.573 .073.574.074.5Accura cy74.0073.7073.5049. 550.050.551.051.552. 0Macro-F51.5050.90Av erage EnsembleWeightedEnse mbleMT-BERT 0.10
英語(論文から抽出)日本語訳スコア
(a) SST-2 and RTE datasets. (a)SST-2およびRTEデータセット。 0.80
(a) SST-2 and RTE datasets. (a)SST-2およびRTEデータセット。 0.80
(b) MIND dataset. (b)マインドデータセット。 0.78
(b) MIND dataset. (b)マインドデータセット。 0.78
Figure 4: Effectiveness of multi-teacher co-finetuning and distillation loss weighting. 図4:マルチティーチャー共微調整と蒸留損失重み付けの有効性 0.73
Figure 5: Effectiveness of different loss functions. 図5: 異なる損失関数の有効性。 0.83
weighting method. We compare MT-BERT and its variants with one of these modules removed, as shown in Fig 4. 重み付け方法。 図4に示すように、MT-BERTとその変異体とこれらのモジュールの1つを比較します。 0.60
The student model has 6 layers. 学生モデルは6つの層があります。 0.70
We find the multi-teacher co-finetuning framework is very important. マルチ教師の共同ファインタニングフレームワークは非常に重要だと考えています。 0.54
This is because the hidden states of different teacher models can be in very different spaces, and jointly finetuning multiple teachers with shared pooling and prediction layers can align their output hidden spaces for better collaborative student teaching. これは、異なる教師モデルの隠れ状態が、非常に異なる空間にある可能性があるためであり、共有プーリングと予測レイヤーで複数の教師を協調的に微調整することで、より良い協調的な学生教育のために、出力隠れスペースを調整できるためである。 0.53
In addition, the distillation loss weighting method is also useful. また、蒸留損失加重法も有用である。 0.52
This is because the predictions of different teachers on the same sample may have different correctness, and focusing on the more reliable predictions is helpful for distilling accurate student models. これは、同じサンプル上の異なる教師の予測が、異なる正確性を持つ可能性があり、より信頼性の高い予測に焦点を当てることが、正確な学生モデルの蒸留に役立つためである。 0.64
We also verify the effectiveness of different loss functions in MT-BERT, which is shown in Fig 5. また、図5に示すMT-BERTの異なる損失関数の有効性についても検証する。 0.85
We find the task loss is very important. タスクの損失は非常に重要です。 0.61
It is because in our experiments the corpus for task-specific distillation are not large and the direct supervision from task labels is useful. なぜなら,本実験では,タスク固有蒸留コーパスがあまり大きくなく,タスクラベルからの直接監督が有用であるからである。 0.66
In addition, the distillation loss is also important. また、蒸留損失も重要である。 0.55
It indicates that transferring the knowledge in soft labels plays a critical role in knowledge distillation. ソフトラベルでの知識の伝達は、知識の蒸留において重要な役割を果たすことを示す。 0.64
Moreover, the hidden loss is also helpful. さらに、隠れた損失も役に立ちます。 0.78
It shows that hidden states of different teacher models can provide useful knowledge for student model learning. 異なる教師モデルの隠れた状態が,学生モデル学習に有用な知識を提供できることを示す。 0.84
4 Conclusion In this paper, we propose a multi-teacher knowledge distillation method named MT-BERT for pretrained language model compression, which can learn small but strong student model from multiple teacher PLMs in a collaborative way. 4 結論 本稿では,事前学習型言語モデル圧縮のためのMT-BERTと呼ばれるマルチ教師知識蒸留手法を提案する。
訳抜け防止モード: 4 結論 本稿では,事前学習型言語モデル圧縮のためのMT-BERTという多言語知識蒸留手法を提案する。 複数の教師のPLMから、小さなが強力な学生モデルを協調的に学習することができる。
0.69
We propose a multi-teacher co-finetuning framework to align the output hidden states of multiple teacher models for better collaborative student teaching. 本研究では,複数教師モデルの出力隠蔽状態を調整し,学生の協調学習を改善するための多教師共同ファインタニングフレームワークを提案する。 0.68
In addition, we design a multi-teacher hidden loss and a multi-teacher distillation loss to transfer the useful knowledge in both hidden states and prediction of multiple teacher models to student model. さらに,隠蔽状態と複数の教師モデルの予測の両方において有用な知識を学生モデルに伝達するために,多教師の隠蔽損失と多教師の蒸留損失を設計する。 0.79
The extensive experiments on three benchmark datasets show that MT-BERT can effectively improve the performance of pre-trained language model compression, and can outperform many single-teacher knowledge distillation methods. 3つのベンチマークデータセットに対する広範な実験により、MT-BERTは事前訓練された言語モデル圧縮の性能を効果的に向上し、多くの単教師の知識蒸留法より優れていることが示された。 0.55
Acknowledgments This work was supported by the National Natural Science Foundation of China under Grant numbers U1936208, U1936216, U1836204, and U1705261. 承認 この研究は、グラント番号U 1936208、U 1936216、U1836204、U1705261の下で中国自然科学財団によって支援された。 0.57
We thank Xing Xie, Tao Qi, Ruixuan Liu and Tao Di for their great comments and suggestions which are important for improving this work. 私たちはXing Xie, Tao Qi, Ruixuan Liu, Tao Diの素晴らしいコメントと提案に感謝しています。 0.58
SSTRTE91.092.093.094 .095.096.0SST Accuracy93.2094.1094 .6070.071.573.074.57 6.077.5RTE Accuracy73.4074.9075 .70MT-BERTw/o Distillation Loss Weightingw/o Multi-Teacher Co-finetuningAccurac yMacro-F72.072.573.0 73.574.074.5Accuracy 73.2073.6074.0049.55 0.050.551.051.552.0M acro-F50.7051.1051.5 0MT-BERTw/o Distillation Loss Weightingw/o Multi-Teacher Co-finetuningSSTRTE8 6.088.090.092.094.09 6.0SST Accuracy90.8093.4094 .3094.6055.060.065.0 70.075.080.0RTE Accuracy67.6073.9075 .4075.70MT-BERT- Hidden Loss- Distillation Loss- Task LossAccuracyMacro-F6 5.067.069.071.073.07 5.0Accuracy70.6072.9 073.7074.0042.044.04 6.048.050.052.054.0M acro-F47.1049.8051.2 051.50MT-BERT- Hidden Loss- Distillation Loss- Task Loss SSTRTE91.092.093.094 .095.096.0SST Accuracy93.2094.1094 .6070.071.573.074.57 6.077.5RTE Accuracy73.4074.9075 .70MT-BERTw/o Distillation Loss Weightingw/o Multi-Teacher Co-finetuningAccurac yMacro-F72.072.573.0 73.574.074.5Accuracy 73.2073.6074.0049.55 0.050.551.051.552.0M acro-F50.7051.1051.5 0MT-BERTw/o Distillation Loss Weightingw/o Multi-Teacher Co-finetuningSSTRTE8 6.088.090.092.094.09 6.0SST Accuracy90.8093.4094 .3094.6055.060.065.0 70.075.080.0RTE Accuracy67.6073.9075 .4075.70MT-BERT- Hidden Loss- Distillation Loss- Task LossAccuracyMacro-F6 5.067.069.071.073.07 5.0Accuracy70.6072.9 073.7074.0042.044.04 6.048.050.052.054.0M acro-F47.1049.8051.2 051.50MT-BERT- Hidden Loss- Distillation Loss- Task Loss 0.14
英語(論文から抽出)日本語訳スコア
References Hangbo Bao, Li Dong, Furu Wei, Wenhui Wang, Nan Yang, Xiaodong Liu, Yu Wang, Jianfeng Gao, Songhao Piao, Ming Zhou, et al 2020. Hangbo Bao, Li Dong, Furu Wei, Wenhui Wang, Nan Yang, Xiaodong Liu, Yu Wang, Jianfeng Gao, Songhao Piao, Ming Zhou, al 2020を参照。 0.81
Unilmv2: Pseudomasked language models for unified language model pre-training. Unilmv2: 統一言語モデルの事前トレーニングのための擬似言語モデル。 0.68
In ICML, pages 642–652. ICMLでは642-652頁。 0.78
PMLR. Yoshua Bengio and Yann LeCun. PMLR。 Yoshua BengioとYann LeCun。 0.77
2015. Adam: A 2015. Adam: A 0.85
method for stochastic optimization. 確率最適化の方法です 0.71
In ICLR. Luisa Bentivogli, Peter Clark, Ido Dagan, and Danilo Giampiccolo. ICLR。 Luisa Bentivogli, Peter Clark, Ido Dagan, Danilo Giampiccolo 0.58
2009. The fifth pascal recognizing textual entailment challenge. 2009. 第5のpascal recognition textual entailment challenge(英語) 0.76
In TAC. Rishabh Bhardwaj, Navonil Majumder, and Soujanya Investigating gender bias in BERT. TAC。 Rishabh Bhardwaj、Navonil Majumder、およびSoujanyaがBERTの性バイアスを調査している。 0.53
Poria. 2020. arXiv preprint arXiv:2009.05021. Poria 2020年 arXiv プレプリント arXiv:2009.05021 0.56
Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova 0.76
2019. Bert: Pre-training of deep bidirectional transformers for language understanding. 2019. Bert: 言語理解のための双方向トランスフォーマーの事前トレーニング。 0.82
In NAACL-HLT, pages 4171–4186. NAACL-HLT』 4171-4186頁。 0.58
Li Dong, Nan Yang, Wenhui Wang, Furu Wei, Xiaodong Liu, Yu Wang, Jianfeng Gao, Ming Zhou, and Hsiao-Wuen Hon. Li Dong, Nan Yang, Wenhui Wang, Furu Wei, Xiaodong Liu, Yu Wang, Jianfeng Gao, Ming Zhou, Hsiao-Wuen Hon 0.80
2019. Unified language model pre-training for natural language understandIn NeurIPS, pages 13042– ing and generation. 2019. 自然言語理解のための統一言語モデル ^ NeurIPS, page 13042– ing and generation。 0.87
13054. Takashi Fukuda, Masayuki Suzuki, Gakuto Kurata, Samuel Thomas, Jia Cui, and Bhuvana Ramabhadran. 13054. 福田孝、鈴木正之、倉田学藤、サミュエル・トーマス、ジークイ、ブーバナ・ラマダーラン。 0.69
2017. Efficient knowledge distillation from an ensemble of teachers. 2017. 教師集団による効率的な知識蒸留 0.74
In Interspeech, pages 3697– 3701. インタースペーチ』3697-3701頁。 0.52
Jianping Gou, Baosheng Yu, Stephen John Maybank, and Dacheng Tao. Jianping Gou、Baosheng Yu、Stephen John Maybank、Dacheng Tao。 0.69
2020. Knowledge distillation: A survey. 2020. 知識蒸留:調査。 0.72
arXiv preprint arXiv:2006.05525. arXiv preprint arXiv:2006.05525 0.71
Victor Sanh, Lysandre Debut, Julien Chaumond, and Thomas Wolf. Victor Sanh、Lysandre Debut、Julien Chaumond、Thomas Wolf。 0.69
2019. Distilbert, a distilled version of bert: smaller, faster, cheaper and lighter. 2019. ディチルバート(ditilbert)は、より小さく、速く、安く、より軽量の蒸留酒である。 0.70
arXiv preprint arXiv:1910.01108. arXiv preprint arXiv:1910.01108。 0.63
Richard Socher, Alex Perelygin, Jean Wu, Jason Chuang, Christopher D Manning, Andrew Y Ng, and Christopher Potts. Richard Socher、Alex Perelygin、Jean Wu、Jason Chuang、Christopher D Manning、Andrew Y Ng、Christopher Potts。 0.73
2013. Recursive deep models for semantic compositionality over a sentiment treebank. 2013. 感情木バンク上の意味的構成性の再帰的深部モデル 0.74
In EMNLP, pages 1631–1642. EMNLP 1631–1642頁。 0.65
Siqi Sun, Yu Cheng, Zhe Gan, and Jingjing Liu. Siqi Sun、Yu Cheng、Zhe Gan、Jingjing Liu。 0.65
2019. Patient knowledge distillation for bert model compression. 2019. バートモデル圧縮のための患者知識蒸留 0.83
In EMNLP-IJCNLP, pages 4314–4323. EMNLP-IJCNLPでは4314–4323頁。 0.59
Raphael Tang, Yao Lu, Linqing Liu, Lili Mou, Olga Vechtomova, and Jimmy Lin. Raphael Tang, Yao Lu, Linqing Liu, Lili Mou, Olga Vechtomova, Jimmy Lin 0.70
2019. Distilling taskspecific knowledge from bert into simple neural networks. 2019. タスク固有の知識をbertから単純なニューラルネットワークに蒸留する。 0.71
arXiv preprint arXiv:1903.12136. arXiv preprint arXiv:1903.12136 0.72
Wenhui Wang, Furu Wei, Li Dong, Hangbo Bao, Nan Yang, and Ming Zhou. Wenhui Wang, Furu Wei, Li Dong, Hangbo Bao, Nan Yang, Ming Zhou 0.67
2020. Minilm: Deep selfattention distillation for task-agnostic compression of pre-trained transformers. 2020. minilm: プレトレーニングトランスのタスク非依存圧縮のための深い自己付着蒸留法。 0.69
In NeurIPS. NeurIPSに登場。 0.80
Chuhan Wu, Fangzhao Wu, Tao Qi, Xiaohui Cui, and Yongfeng Huang. チュハン・ウー、ファンジャオ・ウー、タオ・チー、シャオウイ・クイ、ヨンフン・フアン。 0.26
2020a. Attentive pooling with In ACL, learnable norms for text representation. 2020a テキスト表現のための学習可能な規範であるin aclによる注意プール。 0.69
pages 2961–2970. 2961-2970頁。 0.50
Chuhan Wu, Fangzhao Wu, Tao Qi, and Yongfeng Improving attention mechanism arXiv preprint 注意機構の改善 arXiv プレプリント 0.23
Huang. 2020b. Huang 2020年。 0.63
with query-value interaction. クエリと値のインタラクション。 0.44
arXiv:2010.03766. 2010.03766。 0.31
Chuhan Wu, Fangzhao Wu, Yang Yu, Tao Qi, Yongfeng Huang, and Qi Liu. チュハン・ウー、ファンジャオ・ウー、ヤン・ユ、タオ・チー、ヨンフン・ウー、キ・リウ。 0.28
2021. Newsbert: Distilling pretrained language model for intelligent news application. 2021. Newsbert: インテリジェントニュースアプリケーションのための事前訓練済みの言語モデルを蒸留する。 0.75
arXiv preprint arXiv:2102.04887. arXiv preprint arXiv:2102.04887 0.71
Xiaoqi Jiao, Yichun Yin, Lifeng Shang, Xin Jiang, Xiao Chen, Linlin Li, Fang Wang, and Qun Liu. Xiaoqi Jiao, Yichun Yin, Lifeng Shang, Xin Jiang, Xiao Chen, Linlin Li, Fang Wang, Qun Liu 0.73
2020. Tinybert: Distilling BERT for natural lanIn EMNLP Findings, pages guage understanding. 2020. Tinybert: natural lanIn EMNLP Findings, Page guage understanding で BERT を蒸留します。 0.87
4163–4174. 4163–4174. 0.71
Fangzhao Wu, Ying Qiao, Jiun-Hung Chen, Chuhan Wu, Tao Qi, Jianxun Lian, Danyang Liu, Xing Xie, Jianfeng Gao, Winnie Wu, et al 2020c. Fangzhao Wu, Ying Qiao, Jiun-Hung Chen, Chuhan Wu, Tao Qi, Jianxun Lian, Danyang Liu, Xing Xie, Jianfeng Gao, Winnie Wu, et al 2020c 0.87
Mind: A large-scale dataset for news recommendation. mind: ニュースレコメンデーションのための大規模データセット。 0.73
In ACL, pages 3597–3606. ACL』3597-3606頁。 0.68
Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov。 0.80
2019. Roberta: A robustly optimized bert pretraining approach. 2019. roberta: 堅牢に最適化されたbertプリトレーニングアプローチ。 0.73
arXiv preprint arXiv:1907.11692. arXiv preprint arXiv:1907.11692 0.72
Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Russ R Salakhutdinov, and Quoc V Le. Zhilin Yang、Zihang Dai、Yiming Yang、Jaime Carbonell、Russ R Salakhutdinov、Quoc V Le。 0.67
2019. Xlnet: Generalized autoregressive pretraining for In NeurIPS, pages 5753– language understanding. 2019. xlnet: general autoregressive pretraining for in neurips, pages 5753– language understanding。 0.82
5763. Yuang Liu, Wei Zhang, and Jun Wang. 5763. Yuang Liu, Wei Zhang, Jun Wang 0.72
2020. Adaptive multi-teacher multi-level knowledge distillation. 2020. 適応型多段階知識蒸留 0.70
Neurocomputing, 415:106–113. 神経計算、415:106–113。 0.40
Wenhao Lu, Jian Jiao, and Ruofei Zhang. Wenhao Lu、Jian Jiao、Ruofei Zhang。 0.62
2020. Twinbert: Distilling knowledge to twin-structured compressed bert models for large-scale retrieval. 2020. Twinbert: 大規模検索のための双構造圧縮ベルトモデルに対する知識の蒸留。 0.75
In CIKM, pages 2645–2652. CIKM』2645-2652頁。 0.68
Zichao Yang, Diyi Yang, Chris Dyer, Xiaodong He, Alex Smola, and Eduard Hovy. Zichao Yang、Diyi Yang、Chris Dyer、Xiaodong He、Alex Smola、Eduard Hovy。 0.65
2016. Hierarchical attention networks for document classification. 2016. 文書分類のための階層的注意ネットワーク 0.83
In NAACL-HLT, pages 1480–1489. NAACL-HLT』1480-1489頁。 0.57
Shan You, Chang Xu, Chao Xu, and Dacheng Tao. Shan You, Chang Xu, Chao Xu, Dacheng Tao。 0.72
2017. Learning from multiple teacher networks. 2017. 複数の教師ネットワークから学ぶ。 0.83
In KDD, pages 1285–1294. KDD 1285-1294頁。 0.45
Xipeng Qiu, Tianxiang Sun, Yige Xu, Yunfan Shao, Ning Dai, and Xuanjing Huang. Xipeng Qiu, Tianxiang Sun, Yige Xu, Yunfan Shao, Ning Dai, Xuanjing Huang 0.70
2020. Pre-trained models for natural language processing: A survey. 2020. 自然言語処理のための事前学習モデル:調査 0.80
Science China Technological Sciences, pages 1–26. 専門は中国科学技術研究科、1-26頁。 0.45
Fei Yuan, Linjun Shou, Jian Pei, Wutao Lin, Ming Gong, Yan Fu, and Daxin Jiang. Fei Yuan, Linjun Shou, Jian Pei, Wutao Lin, Ming Gong, Yan Fu, Daxin Jiang 0.68
2020. Reinforced multi-teacher selection for knowledge distillation. 2020. 知識蒸留のための強化多教師選択 0.77
arXiv preprint arXiv:2012.06048. arXiv preprint arXiv:2012.06048 0.72
             ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。