論文の概要: {E}fficient{BERT}: Progressively Searching Multilayer Perceptron via
Warm-up Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2109.07222v1
- Date: Wed, 15 Sep 2021 11:25:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-16 21:44:27.424799
- Title: {E}fficient{BERT}: Progressively Searching Multilayer Perceptron via
Warm-up Knowledge Distillation
- Title(参考訳): E}fficient{BERT}: ウォームアップ知識蒸留による多層パーセプトロンのプログレッシブ検索
- Authors: Chenhe Dong, Guangrun Wang, Hang Xu, Jiefeng Peng, Xiaozhe Ren,
Xiaodan Liang
- Abstract要約: 事前学習された言語モデルは、様々なNLPタスクにおいて顕著な結果を示した。
サイズが大きく、推論速度が遅いため、エッジデバイスにデプロイするのは困難である。
本稿では、BERTにおけるフィードフォワードネットワーク(FFN)の改善が、マルチヘッドアテンション(MHA)の改善よりも高い利益をもたらすという批判的な洞察を得る。
- 参考スコア(独自算出の注目度): 82.3956677850676
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained language models have shown remarkable results on various NLP
tasks. Nevertheless, due to their bulky size and slow inference speed, it is
hard to deploy them on edge devices. In this paper, we have a critical insight
that improving the feed-forward network (FFN) in BERT has a higher gain than
improving the multi-head attention (MHA) since the computational cost of FFN is
2$\sim$3 times larger than MHA. Hence, to compact BERT, we are devoted to
designing efficient FFN as opposed to previous works that pay attention to MHA.
Since FFN comprises a multilayer perceptron (MLP) that is essential in BERT
optimization, we further design a thorough search space towards an advanced MLP
and perform a coarse-to-fine mechanism to search for an efficient BERT
architecture. Moreover, to accelerate searching and enhance model
transferability, we employ a novel warm-up knowledge distillation strategy at
each search stage. Extensive experiments show our searched EfficientBERT is
6.9$\times$ smaller and 4.4$\times$ faster than BERT$\rm_{BASE}$, and has
competitive performances on GLUE and SQuAD Benchmarks. Concretely,
EfficientBERT attains a 77.7 average score on GLUE \emph{test}, 0.7 higher than
MobileBERT$\rm_{TINY}$, and achieves an 85.3/74.5 F1 score on SQuAD v1.1/v2.0
\emph{dev}, 3.2/2.7 higher than TinyBERT$_4$ even without data augmentation.
The code is released at https://github.com/cheneydon/efficient-bert.
- Abstract(参考訳): 事前学習された言語モデルは様々なnlpタスクで顕著な結果を示している。
それにもかかわらず、その大きなサイズと推論速度が遅いため、エッジデバイスにデプロイするのは困難である。
本稿では、BERTにおけるフィードフォワードネットワーク(FFN)の改善は、FFNの計算コストがMHAの2$\sim$3倍であることから、マルチヘッドアテンション(MHA)の改善よりも高い利得が得られるという批判的な洞察を得る。
したがって,よりコンパクトなBERTでは,従来のMHAに注目する作業とは対照的に,効率的なFFNの設計に重点を置いている。
FFNは、BERT最適化に不可欠な多層パーセプトロン(MLP)から構成されるため、さらに高度なMLPに向けて徹底的な探索空間を設計し、効率的なBERTアーキテクチャを探索するための粗大な機構を実行する。
さらに,モデル転送可能性の向上と探索の促進を目的として,探索段階ごとに新しいウォームアップ知識蒸留戦略を採用する。
検索したEfficientBERTは6.9$\times$小さく、4.4$\times$はBERT$\rm_{BASE}$より高速で、GLUEおよびSQuADベンチマーク上での競合性能を持つ。
具体的には、EfficientBERTは、GLUE \emph{test}で平均スコア77.7、MobileBERT$\rm_{TINY}$より0.7、SQuAD v1.1/v2.0 \emph{dev}で85.3/74.5、TinyBERT$_4$でも3.2/2.7に達する。
コードはhttps://github.com/cheneydon/ efficient-bertでリリースされる。
関連論文リスト
- HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - Merging Experts into One: Improving Computational Efficiency of Mixture
of Experts [71.44422347502409]
スパースミキチャー・オブ・エキスパート(MoE)は、パラメータの小さなサブセットをアクティベートすることでコストを削減することができる。
計算コストを大幅に高めることなく、より多くの専門家を追加するという利点を維持できるだろうか?
そこで我々は,textbftexttMerging Experts into One (MEO) という計算効率のよい手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T13:28:42Z) - EfficientViT: Memory Efficient Vision Transformer with Cascaded Group
Attention [44.148667664413004]
我々はEfficientViTという高速視覚変換器群を提案する。
既存のトランスモデルの速度は、一般にメモリ非効率な演算によって制限される。
この問題に対処するため,異なるスプリットのアテンションヘッドを刺激するグループアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2023-05-11T17:59:41Z) - oBERTa: Improving Sparse Transfer Learning via improved initialization,
distillation, and pruning regimes [82.99830498937729]
oBERTaは自然言語処理のための使いやすい言語モデルのセットです。
NLPの実践者はモデル圧縮の専門知識なしで3.8倍から24.3倍の高速モデルを得ることができる。
代表的な7つのNLPタスクにおけるoBERTaの利用について検討する。
論文 参考訳(メタデータ) (2023-03-30T01:37:19Z) - TangoBERT: Reducing Inference Cost by using Cascaded Architecture [9.496399437260678]
ケースケードモデルアーキテクチャであるTangoBERTについて述べる。
第2階層モデルを適用するかどうかの決定は、第1階層モデルによって生成される信頼スコアに基づいて行われる。
我々はTangoBERT推論CPUの高速化を4つのテキスト分類GLUEタスクと1つの読解タスクで報告する。
論文 参考訳(メタデータ) (2022-04-13T09:45:08Z) - AutoDistill: an End-to-End Framework to Explore and Distill
Hardware-Efficient Language Models [20.04008357406888]
ハードウェア効率の良いNLP事前学習モデルを構築するためのエンドツーエンドのモデル蒸留フレームワークであるAutoDistillを提案する。
TPUv4iの実験では、MobileBERTよりもトレーニング済みの精度(最大3.2%高い)と推論遅延(最大1.44倍速い)の低い7つのモデルアーキテクチャが見つかった。
GLUEベンチマークで下流のNLPタスクを実行することで、AutoDistillによって28.5Mパラメータで事前トレーニングするために蒸留されたモデルは81.69の平均スコアを得る。
論文 参考訳(メタデータ) (2022-01-21T04:32:19Z) - Dynamic-TinyBERT: Boost TinyBERT's Inference Efficiency by Dynamic
Sequence Length [2.8770761243361593]
TinyBERTは、BERTをより小さな変換器表現に自己蒸留することで、計算効率に対処する。
Dynamic-TinyBERTは一度だけ訓練され、BERTとオンパーで実行し、他の効率的なアプローチよりも精度の高いトレードオフを実現する。
論文 参考訳(メタデータ) (2021-11-18T11:58:19Z) - DeBERTa: Decoding-enhanced BERT with Disentangled Attention [119.77305080520718]
2つの新しい手法を用いてBERTモデルとRoBERTaモデルを改善する新しいモデルアーキテクチャDeBERTaを提案する。
これらの手法により,モデル事前学習の効率化と,自然言語理解(NLU)と自然言語生成(NLG)の両方の性能向上が期待できる。
論文 参考訳(メタデータ) (2020-06-05T19:54:34Z) - DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference [69.93692147242284]
BERTのような大規模事前訓練型言語モデルは、NLPアプリケーションに大幅な改善をもたらした。
本稿では, BERT推論を高速化するために, 単純だが効果的な手法であるDeeBERTを提案する。
実験の結果、DeeBERTはモデル品質の低下を最小限に抑えながら、最大40%の推論時間を節約できることがわかった。
論文 参考訳(メタデータ) (2020-04-27T17:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。