論文の概要: Towards Non-task-specific Distillation of BERT via Sentence
Representation Approximation
- arxiv url: http://arxiv.org/abs/2004.03097v1
- Date: Tue, 7 Apr 2020 03:03:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 23:49:42.768870
- Title: Towards Non-task-specific Distillation of BERT via Sentence
Representation Approximation
- Title(参考訳): 文表現近似によるBERTの非タスク特異的蒸留に向けて
- Authors: Bowen Wu, Huan Zhang, Mengyuan Li, Zongsheng Wang, Qihang Feng,
Junhong Huang, Baoxun Wang
- Abstract要約: 本稿では,事前学習したBERTを簡単なLSTMモデルに抽出できる文表現近似指向蒸留フレームワークを提案する。
我々のモデルは,任意の文レベル下流タスクに適応するために,微調整による伝達学習を行うことができる。
GLUEベンチマークによる複数のNLPタスクの実験結果から,本手法が他のタスク固有蒸留法よりも優れていることが示された。
- 参考スコア(独自算出の注目度): 17.62309851473892
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, BERT has become an essential ingredient of various NLP deep models
due to its effectiveness and universal-usability. However, the online
deployment of BERT is often blocked by its large-scale parameters and high
computational cost. There are plenty of studies showing that the knowledge
distillation is efficient in transferring the knowledge from BERT into the
model with a smaller size of parameters. Nevertheless, current BERT
distillation approaches mainly focus on task-specified distillation, such
methodologies lead to the loss of the general semantic knowledge of BERT for
universal-usability. In this paper, we propose a sentence representation
approximating oriented distillation framework that can distill the pre-trained
BERT into a simple LSTM based model without specifying tasks. Consistent with
BERT, our distilled model is able to perform transfer learning via fine-tuning
to adapt to any sentence-level downstream task. Besides, our model can further
cooperate with task-specific distillation procedures. The experimental results
on multiple NLP tasks from the GLUE benchmark show that our approach
outperforms other task-specific distillation methods or even much larger
models, i.e., ELMO, with efficiency well-improved.
- Abstract(参考訳): 近年,BERTはその有効性と汎用性から,様々なNLP深層モデルの必須成分となっている。
しかし、BERTのオンライン展開は大規模なパラメータと高い計算コストによってブロックされることが多い。
BERTからパラメータの小さいモデルに知識を移す際に、知識蒸留が効率的であることを示す研究は数多くある。
しかしながら、現在のBERT蒸留法は主にタスク特定蒸留に焦点を当てており、そのような手法はBERTの普遍的使用性に関する一般的な意味知識の喪失につながっている。
本稿では,事前学習したBERTを,タスクを指定せずに簡単なLSTMベースモデルに蒸留できる文表現指向蒸留フレームワークを提案する。
BERTと類似した蒸留モデルでは,任意の文レベル下流タスクに適応するために,微調整による伝達学習を行うことができる。
また,本モデルはタスク特異的蒸留手順とさらに連携することができる。
GLUEベンチマークによる複数のNLPタスクに対する実験結果から,本手法は,他のタスク固有の蒸留方法,すなわちELMOよりもはるかに大きなモデル,すなわち効率を良く向上することを示した。
関連論文リスト
- Improving Knowledge Distillation for BERT Models: Loss Functions,
Mapping Methods, and Weight Tuning [1.1510009152620668]
本研究は, BERTモデル圧縮のための知識蒸留について検討し, 適用する。
本研究では, 損失関数を用いた実験, トランスフォーマー層マッピング法, 注意の重み付けと表現損失の調整など, 知識蒸留を改善するための様々な手法について検討する。
この研究の目的は、知識蒸留の効率性と効率を改善し、自然言語処理タスクのより効率的で正確なモデルの開発を可能にすることである。
論文 参考訳(メタデータ) (2023-08-26T20:59:21Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - BiBERT: Accurate Fully Binarized BERT [69.35727280997617]
BiBERTは、パフォーマンスボトルネックを取り除くために、正確に2項化されたBERTである。
提案手法は,FLOPとモデルサイズで56.3回,31.2回節約できる。
論文 参考訳(メタデータ) (2022-03-12T09:46:13Z) - BERTVision -- A Parameter-Efficient Approach for Question Answering [0.0]
本稿では,BERTファインチューニングの必要性を大幅に低減する,質問応答に対するパラメータ効率の高い手法を提案する。
提案手法では,各BERTトランス層の隠れ状態アクティベーションから得られる情報を用いて,典型的なBERT推論時に破棄される。
実験の結果,本手法は多岐にわたるQAだけでなく,分類にも有効であり,より広い範囲のタスクに向いていることが示唆された。
論文 参考訳(メタデータ) (2022-02-24T17:16:25Z) - Automatic Mixed-Precision Quantization Search of BERT [62.65905462141319]
BERTのような事前訓練された言語モデルは、様々な自然言語処理タスクにおいて顕著な効果を示している。
これらのモデルは通常、数百万のパラメータを含んでおり、リソースに制約のあるデバイスへの実践的なデプロイを妨げている。
本稿では,サブグループレベルでの量子化とプルーニングを同時に行うことができるBERT用に設計された混合精密量子化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-30T06:32:47Z) - Why Can You Lay Off Heads? Investigating How BERT Heads Transfer [37.9520341259181]
蒸留の主な目的は、ダウンストリームタスクで微調整できるタスク非依存の事前訓練モデルを作ることであり、フルサイズのバージョンを微調整する必要はない。
蒸留の進展にもかかわらず、どの程度、どのような理由から、蒸留からタスク非依存モデルを作成することができるかについては、十分に研究されていない。
本研究は, 今後の蒸留プロセスの指針となる蒸留時の許容推算分析に焦点をあてる。
論文 参考訳(メタデータ) (2021-06-14T02:27:47Z) - LRC-BERT: Latent-representation Contrastive Knowledge Distillation for
Natural Language Understanding [12.208166079145538]
本稿では,角距離面から中間層の出力に適合するコントラスト学習に基づく知識蒸留法lrc-bertを提案する。
GLUE(General Language Understanding Evaluation)ベンチマークで8つのデータセットを検証することで、提案したRC-BERTの性能は既存の最先端手法を上回る。
論文 参考訳(メタデータ) (2020-12-14T08:39:38Z) - Pre-trained Summarization Distillation [121.14806854092672]
近年の分類・回帰作業におけるBERT蒸留の研究は, 直接的知識蒸留による高い性能を示している。
あるいは、機械翻訳の実践者は擬似ラベルを用いて蒸留し、小さなモデルをより大きなモデルの翻訳に基づいて訓練する。
第三に、より単純なアプローチは'shrink and fine-tune' (SFT) であり、より小さな学生モデルにパラメータをコピーして微調整することで、明示的な蒸留を避ける。
論文 参考訳(メタデータ) (2020-10-24T23:15:43Z) - TernaryBERT: Distillation-aware Ultra-low Bit BERT [53.06741585060951]
本稿では,細調整されたBERTモデルの重みを3元化するternaryBERTを提案する。
GLUEベンチマークとSQuADの実験により,提案した TernaryBERT が他のBERT量子化法より優れていることが示された。
論文 参考訳(メタデータ) (2020-09-27T10:17:28Z) - Improving BERT Fine-Tuning via Self-Ensemble and Self-Distillation [84.64004917951547]
BERTのような微調整済みの言語モデルは、NLPにおいて効果的な方法となっている。
本稿では, BERTの微細調整を, 自己組織化と自己蒸留の2つの効果的なメカニズムで改善する。
論文 参考訳(メタデータ) (2020-02-24T16:17:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。