論文の概要: MobileBERT: a Compact Task-Agnostic BERT for Resource-Limited Devices
- arxiv url: http://arxiv.org/abs/2004.02984v2
- Date: Tue, 14 Apr 2020 23:54:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 05:35:32.715651
- Title: MobileBERT: a Compact Task-Agnostic BERT for Resource-Limited Devices
- Title(参考訳): MobileBERT: リソース制限デバイスのための小型タスク非依存BERT
- Authors: Zhiqing Sun, Hongkun Yu, Xiaodan Song, Renjie Liu, Yiming Yang, Denny
Zhou
- Abstract要約: 本稿では,人気のあるBERTモデルの圧縮と高速化を目的としたMobileBERTを提案する。
MobileBERTはBERT_BASEより4.3倍小さく、5.5倍速い。
GLUEの自然言語推論タスクについて、MobileBERTはGLUEscore o 77.7(BERT_BASEより0.6低い)を達成する
SQuAD v1.1/v2.0質問応答タスクでは、MobileBERTは開発F1スコアの90.0/79.2(BERT_BASEより1.5/2.1高い)を達成する。
- 参考スコア(独自算出の注目度): 43.745884629703994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural Language Processing (NLP) has recently achieved great success by
using huge pre-trained models with hundreds of millions of parameters. However,
these models suffer from heavy model sizes and high latency such that they
cannot be deployed to resource-limited mobile devices. In this paper, we
propose MobileBERT for compressing and accelerating the popular BERT model.
Like the original BERT, MobileBERT is task-agnostic, that is, it can be
generically applied to various downstream NLP tasks via simple fine-tuning.
Basically, MobileBERT is a thin version of BERT_LARGE, while equipped with
bottleneck structures and a carefully designed balance between self-attentions
and feed-forward networks. To train MobileBERT, we first train a specially
designed teacher model, an inverted-bottleneck incorporated BERT_LARGE model.
Then, we conduct knowledge transfer from this teacher to MobileBERT. Empirical
studies show that MobileBERT is 4.3x smaller and 5.5x faster than BERT_BASE
while achieving competitive results on well-known benchmarks. On the natural
language inference tasks of GLUE, MobileBERT achieves a GLUEscore o 77.7 (0.6
lower than BERT_BASE), and 62 ms latency on a Pixel 4 phone. On the SQuAD
v1.1/v2.0 question answering task, MobileBERT achieves a dev F1 score of
90.0/79.2 (1.5/2.1 higher than BERT_BASE).
- Abstract(参考訳): 自然言語処理(NLP)は、最近、数億のパラメータを持つ巨大な事前学習モデルを使用することで大きな成功を収めた。
しかし、これらのモデルは、リソース制限されたモバイルデバイスにデプロイできないような、重いモデルサイズと高いレイテンシに苦しむ。
本稿では,人気のあるBERTモデルの圧縮と高速化を目的としたMobileBERTを提案する。
元々のBERTと同様に、MobileBERTはタスク非依存であり、単純な微調整によって様々な下流のNLPタスクに汎用的に適用することができる。
MobileBERTはBERT_LARGEの薄いバージョンであり、ボトルネック構造と、自己注意とフィードフォワードネットワークのバランスを慎重に設計した。
MobileBERT を訓練するために,我々はまず,逆ブートネックを組み込んだ BERT_LARGE モデルである特別設計の教師モデルを訓練する。
そして,この教師からMobileBERTへの知識伝達を行う。
実証研究によれば、mobilebertはbert_baseより4.3倍小さく、5.5倍速い。
GLUEの自然言語推論タスクでは、MobileBERTはGLUEscore o 77.7(BERT_BASEより0.6低い)、Pixel 4で62ミリ秒のレイテンシを実現する。
SQuAD v1.1/v2.0質問応答タスクでは、MobileBERTは開発F1スコアの90.0/79.2(BERT_BASEより1.5/2.1高い)を達成する。
関連論文リスト
- oBERTa: Improving Sparse Transfer Learning via improved initialization,
distillation, and pruning regimes [82.99830498937729]
oBERTaは自然言語処理のための使いやすい言語モデルのセットです。
NLPの実践者はモデル圧縮の専門知識なしで3.8倍から24.3倍の高速モデルを得ることができる。
代表的な7つのNLPタスクにおけるoBERTaの利用について検討する。
論文 参考訳(メタデータ) (2023-03-30T01:37:19Z) - AutoDistill: an End-to-End Framework to Explore and Distill
Hardware-Efficient Language Models [20.04008357406888]
ハードウェア効率の良いNLP事前学習モデルを構築するためのエンドツーエンドのモデル蒸留フレームワークであるAutoDistillを提案する。
TPUv4iの実験では、MobileBERTよりもトレーニング済みの精度(最大3.2%高い)と推論遅延(最大1.44倍速い)の低い7つのモデルアーキテクチャが見つかった。
GLUEベンチマークで下流のNLPタスクを実行することで、AutoDistillによって28.5Mパラメータで事前トレーニングするために蒸留されたモデルは81.69の平均スコアを得る。
論文 参考訳(メタデータ) (2022-01-21T04:32:19Z) - EfficientBERT: Progressively Searching Multilayer Perceptron via Warm-up
Knowledge Distillation [82.3956677850676]
事前学習された言語モデルは、様々なNLPタスクにおいて顕著な結果を示した。
サイズが大きく、推論速度が遅いため、エッジデバイスにデプロイするのは困難である。
本稿では、BERTにおけるフィードフォワードネットワーク(FFN)の改善が、マルチヘッドアテンション(MHA)の改善よりも高い利益をもたらすという批判的な洞察を得る。
論文 参考訳(メタデータ) (2021-09-15T11:25:39Z) - RefBERT: Compressing BERT by Referencing to Pre-computed Representations [19.807272592342148]
RefBERTはバニラのTinyBERTを8.1%以上上回り、GLUEベンチマークでBERTBASE$の94%以上のパフォーマンスを達成した。
RefBERTは、BERT$_rm BASE$よりも7.4倍小さく、推論では9.5倍高速である。
論文 参考訳(メタデータ) (2021-06-11T01:22:08Z) - ConvBERT: Improving BERT with Span-based Dynamic Convolution [144.25748617961082]
BERTはグローバルな自己保持ブロックに大きく依存しているため、大きなメモリフットプリントと計算コストに悩まされる。
そこで本研究では,これらの自己注意型ヘッドを置き換え,局所的依存関係を直接モデル化する,スパンベースの動的畳み込みを提案する。
新たな畳み込み頭は、他の自己注意頭と共に、グローバルな文脈学習とローカルな文脈学習の両方においてより効率的である、新しい混合注意ブロックを形成する。
論文 参考訳(メタデータ) (2020-08-06T07:43:19Z) - DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference [69.93692147242284]
BERTのような大規模事前訓練型言語モデルは、NLPアプリケーションに大幅な改善をもたらした。
本稿では, BERT推論を高速化するために, 単純だが効果的な手法であるDeeBERTを提案する。
実験の結果、DeeBERTはモデル品質の低下を最小限に抑えながら、最大40%の推論時間を節約できることがわかった。
論文 参考訳(メタデータ) (2020-04-27T17:58:05Z) - DynaBERT: Dynamic BERT with Adaptive Width and Depth [55.18269622415814]
我々は新しい動的BERTモデル(DynaBERTと略される)を提案する。
適応的な幅と深さを選択することで、サイズとレイテンシを柔軟に調整できる。
既存のBERT圧縮手法よりずっと優れています。
論文 参考訳(メタデータ) (2020-04-08T15:06:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。