論文の概要: MATE-KD: Masked Adversarial TExt, a Companion to Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2105.05912v1
- Date: Wed, 12 May 2021 19:11:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-14 14:10:06.345587
- Title: MATE-KD: Masked Adversarial TExt, a Companion to Knowledge Distillation
- Title(参考訳): mate-kd: masked adversarial text, a companion to knowledge distillation
- Authors: Ahmad Rashid, Vasileios Lioutas and Mehdi Rezagholizadeh
- Abstract要約: 本稿では,知識蒸留の性能を向上させる新しいテキストベース対逆学習アルゴリズムであるMATE-KDを提案する。
我々は,BERTモデルを用いたアルゴリズムをGLUEベンチマークで評価し,MATE-KDが競合する対角学習やデータ拡張ベースラインより優れていることを示す。
- 参考スコア(独自算出の注目度): 9.91548921801095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advent of large pre-trained language models has given rise to rapid
progress in the field of Natural Language Processing (NLP). While the
performance of these models on standard benchmarks has scaled with size,
compression techniques such as knowledge distillation have been key in making
them practical. We present, MATE-KD, a novel text-based adversarial training
algorithm which improves the performance of knowledge distillation. MATE-KD
first trains a masked language model based generator to perturb text by
maximizing the divergence between teacher and student logits. Then using
knowledge distillation a student is trained on both the original and the
perturbed training samples. We evaluate our algorithm, using BERT-based models,
on the GLUE benchmark and demonstrate that MATE-KD outperforms competitive
adversarial learning and data augmentation baselines. On the GLUE test set our
6 layer RoBERTa based model outperforms BERT-Large.
- Abstract(参考訳): 大規模な事前学習型言語モデルの出現は、自然言語処理(NLP)分野の急速な進歩をもたらした。
標準ベンチマークにおけるこれらのモデルの性能はスケールするが、知識蒸留のような圧縮技術はそれらを実用的にするための鍵となっている。
本稿では,知識蒸留の性能を向上させる新しいテキストベース対逆学習アルゴリズムであるMATE-KDを提案する。
MATE-KDはまず,教師と学生のログのばらつきを最大化することにより,マスク付き言語モデルベースの生成器を摂動テキストに訓練する。
そして、知識蒸留を用いて、原本および摂動訓練試料の両方で生徒を訓練する。
我々は,BERTモデルを用いたアルゴリズムをGLUEベンチマークで評価し,MATE-KDが競合する対角学習やデータ拡張ベースラインより優れていることを示す。
GLUEテストセットでは、RoBERTaベースのモデルがBERT-Largeより優れています。
関連論文リスト
- Performance-Guided LLM Knowledge Distillation for Efficient Text Classification at Scale [0.8192907805418581]
本稿では,生産用テキスト分類アプリケーションにおけるパフォーマンスガイド型知識蒸留(PGKD)について述べる。
PGKDは教師による知識蒸留を利用して、大規模言語モデルの知識を小さなタスク固有のモデルに抽出する。
PGKD は LLM よりも 130 倍高速で 25 倍安価であることを示す。
論文 参考訳(メタデータ) (2024-11-07T01:45:29Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - Prompting to Distill: Boosting Data-Free Knowledge Distillation via
Reinforced Prompt [52.6946016535059]
データフリー知識蒸留(DFKD)は、元のトレーニングデータの依存をなくし、知識蒸留を行う。
本稿では,PmptDFD(PromptDFD)と呼ばれるプロンプトベースの手法を提案する。
本実験で示すように, 本手法は, 合成品質を大幅に向上し, 蒸留性能を著しく向上させる。
論文 参考訳(メタデータ) (2022-05-16T08:56:53Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - Which Student is Best? A Comprehensive Knowledge Distillation Exam for
Task-Specific BERT Models [3.303435360096988]
タスク固有のBERTベースの教師モデルから様々な学生モデルへの知識蒸留ベンチマークを行う。
インドネシア語でテキスト分類とシークエンスラベリングという2つのタスクでグループ化された12のデータセットについて実験を行った。
実験の結果, トランスフォーマーモデルの普及にもかかわらず, BiLSTM と CNN の学生モデルを用いることで, 性能と計算資源の最良のトレードオフが得られることがわかった。
論文 参考訳(メタデータ) (2022-01-03T10:07:13Z) - Interpreting Language Models Through Knowledge Graph Extraction [42.97929497661778]
BERTに基づく言語モデルを,学習過程の逐次的な段階において取得した知識のスナップショットを通じて比較する。
本稿では, クローズイン・ザ・ブランク文から知識グラフを抽出し, 知識獲得のタイムラインを提示する手法を提案する。
この分析を, BERTモデル(DistilBERT, BERT-base, RoBERTa)の事前学習変化の比較に拡張する。
論文 参考訳(メタデータ) (2021-11-16T15:18:01Z) - Distantly-Supervised Named Entity Recognition with Noise-Robust Learning
and Language Model Augmented Self-Training [66.80558875393565]
遠距離ラベル付きデータのみを用いて、名前付きエンティティ認識(NER)モデルを訓練する際の課題について検討する。
本稿では,新しい損失関数と雑音ラベル除去ステップからなるノイズロスバスト学習手法を提案する。
提案手法は,既存の遠隔教師付きNERモデルよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2021-09-10T17:19:56Z) - Learning to Augment for Data-Scarce Domain BERT Knowledge Distillation [55.34995029082051]
本稿では,データスカース領域BERT知識蒸留のための拡張学習法を提案する。
提案手法が4つの異なるタスクにおける最先端のベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2021-01-20T13:07:39Z) - Joint Energy-based Model Training for Better Calibrated Natural Language
Understanding Models [61.768082640087]
自然言語理解タスクのための事前学習テキストエンコーダの微調整中に、共同エネルギーベースモデル(EBM)トレーニングを検討します。
実験では、EMMトレーニングはモデルが強力なベースラインに匹敵するより良いキャリブレーションに達するのに役立つことが示されています。
論文 参考訳(メタデータ) (2021-01-18T01:41:31Z) - Adversarial Self-Supervised Data-Free Distillation for Text
Classification [13.817252068643066]
本稿では,Adversarial Self-Supervised Data-Free Distillation (AS-DFD) という新しい2段階の無添加蒸留法を提案する。
我々のフレームワークは、NLPタスク用に設計された最初のデータフリー蒸留フレームワークである。
論文 参考訳(メタデータ) (2020-10-10T02:46:06Z) - DagoBERT: Generating Derivational Morphology with a Pretrained Language
Model [20.81930455526026]
事前学習された言語モデル(PLM)は、派生的に複雑な単語を生成することができることを示す。
私たちの最高のモデルであるDagoBERTは、導出生成における過去の技術状況よりも明らかに優れています。
実験の結果,入力セグメンテーションがBERTの導出知識に重大な影響を及ぼすことが示された。
論文 参考訳(メタデータ) (2020-05-02T01:26:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。