論文の概要: Distilling Knowledge from Pre-trained Language Models via Text Smoothing
- arxiv url: http://arxiv.org/abs/2005.03848v1
- Date: Fri, 8 May 2020 04:34:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-12-05 13:01:01.639459
- Title: Distilling Knowledge from Pre-trained Language Models via Text Smoothing
- Title(参考訳): テキスト平滑化による事前学習言語モデルからの知識の抽出
- Authors: Xing Wu, Yibing Liu, Xiangyang Zhou and Dianhai Yu
- Abstract要約: そこで本研究では,教師に対して,知識蒸留における生徒モデルを教えるために,ラベルではなくスムーズな単語IDを生成するように依頼する,BERT蒸留の新しい手法を提案する。
実際に、BERTのMasked Language Model(MLM)のソフトマックス予測を用いて、与えられたテキストの単語分布を生成し、その予測されたソフトワードIDを用いてそれらの入力テキストを滑らかにする。
我々は、スムーズなラベルとスムーズなテキストの両方が暗黙的に入力コーパスを増強できると仮定する一方、スムーズなテキストは1つのニューラルネットワークの前進ステップでより多くのインスタンスを生成することができるため、直感的に効率的である。
- 参考スコア(独自算出の注目度): 9.105324638015366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies compressing pre-trained language models, like BERT (Devlin
et al.,2019), via teacher-student knowledge distillation. Previous works
usually force the student model to strictly mimic the smoothed labels predicted
by the teacher BERT. As an alternative, we propose a new method for BERT
distillation, i.e., asking the teacher to generate smoothed word ids, rather
than labels, for teaching the student model in knowledge distillation. We call
this kind of methodTextSmoothing. Practically, we use the softmax prediction of
the Masked Language Model(MLM) in BERT to generate word distributions for given
texts and smooth those input texts using that predicted soft word ids. We
assume that both the smoothed labels and the smoothed texts can implicitly
augment the input corpus, while text smoothing is intuitively more efficient
since it can generate more instances in one neural network forward
step.Experimental results on GLUE and SQuAD demonstrate that our solution can
achieve competitive results compared with existing BERT distillation methods.
- Abstract(参考訳): 本稿では,教師による知識蒸留を通じて,BERT(Devlin et al.,2019)のような事前学習言語モデルを圧縮する。
以前の研究は通常、教師のBERTが予測したスムーズなラベルを厳密に模倣するよう学生モデルに強制する。
代替手段として,知識蒸留における学生モデルを教えるために,教師にラベルではなくスムーズな単語IDを生成するように依頼する新たなBERT蒸留法を提案する。
この種のメソッドTextSmoothingを呼び出します。
実際、bertのマスク言語モデル(mlm)のsoftmax予測を使用して、与えられたテキストに対する単語分布を生成し、その予測されたソフトワードidを使用して入力テキストを滑らかにする。
本研究では、スムーズなラベルとスムーズなテキストの両方が暗黙的に入力コーパスを増大させることができると仮定し、スムーズなテキストは1つのニューラルネットワークの前進ステップでより多くのインスタンスを生成することができるため、直感的により効率的である。
関連論文リスト
- Mixed-Distil-BERT: Code-mixed Language Modeling for Bangla, English, and Hindi [0.0]
我々は、バングラ語、英語、ヒンディー語で事前訓練された多言語モデルTri-Distil-BERTと、コードミックスデータに基づいて微調整されたMixed-Distil-BERTを紹介する。
我々の2層事前学習アプローチは、多言語およびコード混在言語理解のための効率的な代替手段を提供する。
論文 参考訳(メタデータ) (2023-09-19T02:59:41Z) - SimpleBERT: A Pre-trained Model That Learns to Generate Simple Words [59.142185753887645]
本研究では,テキストの簡易化を継続する事前学習手法を提案する。
我々は、継続事前学習に小規模な単純なテキストデータセットを使用し、簡単な単語を識別するために2つの方法を用いる。
語彙単純化タスクと文簡略化タスクの両方においてBERTを超えるSimpleBERTを得る。
論文 参考訳(メタデータ) (2022-04-16T11:28:01Z) - PERT: Pre-training BERT with Permuted Language Model [24.92527883997854]
PERT は Permuted Language Model (PerLM) で訓練された BERT のような自動エンコーディングモデルである
入力テキストのパーセンテージをパーミュレートし、トレーニングの目的は、元のトークンの位置を予測することである。
我々は中国語と英語のNLUベンチマークについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-03-14T07:58:34Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - MATE-KD: Masked Adversarial TExt, a Companion to Knowledge Distillation [9.91548921801095]
本稿では,知識蒸留の性能を向上させる新しいテキストベース対逆学習アルゴリズムであるMATE-KDを提案する。
我々は,BERTモデルを用いたアルゴリズムをGLUEベンチマークで評価し,MATE-KDが競合する対角学習やデータ拡張ベースラインより優れていることを示す。
論文 参考訳(メタデータ) (2021-05-12T19:11:34Z) - On the Sentence Embeddings from Pre-trained Language Models [78.45172445684126]
本稿では,BERT埋め込みにおける意味情報が完全に活用されていないことを論じる。
BERTは常に文の非滑らかな異方性意味空間を誘導し,その意味的類似性を損なう。
本稿では,非教師対象で学習した正規化フローにより,異方性文の埋め込み分布を滑らかで等方性ガウス分布に変換することを提案する。
論文 参考訳(メタデータ) (2020-11-02T13:14:57Z) - GiBERT: Introducing Linguistic Knowledge into BERT through a Lightweight
Gated Injection Method [29.352569563032056]
本稿では,言語知識を単語埋め込みの形で,事前学習したBERTに明示的に注入する手法を提案する。
依存性ベースと逆適合の埋め込みを注入する場合、複数のセマンティックな類似性データセットのパフォーマンス改善は、そのような情報が有益であり、現在元のモデルから欠落していることを示している。
論文 参考訳(メタデータ) (2020-10-23T17:00:26Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z) - MixText: Linguistically-Informed Interpolation of Hidden Space for
Semi-Supervised Text Classification [68.15015032551214]
MixTextはテキスト分類のための半教師付き学習手法である。
TMixは、隠れた空間でテキストを補間することで、大量の拡張トレーニングサンプルを生成する。
我々は、ラベルなしデータの低エントロピーラベルを推測するために、最近のデータ拡張の進歩を活用している。
論文 参考訳(メタデータ) (2020-04-25T21:37:36Z) - TextBrewer: An Open-Source Knowledge Distillation Toolkit for Natural
Language Processing [64.87699383581885]
自然言語処理のためのオープンソースの知識蒸留ツールキットTextBrewerを紹介する。
テキスト分類、読解、シーケンスラベリングなどの教師あり学習タスクをサポートする。
ケーススタディでは、TextBrewerを使用して、いくつかの典型的なNLPタスクでBERTを蒸留する。
論文 参考訳(メタデータ) (2020-02-28T09:44:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。