論文の概要: LadaBERT: Lightweight Adaptation of BERT through Hybrid Model
Compression
- arxiv url: http://arxiv.org/abs/2004.04124v2
- Date: Wed, 21 Oct 2020 15:15:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 08:09:34.756734
- Title: LadaBERT: Lightweight Adaptation of BERT through Hybrid Model
Compression
- Title(参考訳): LadaBERT:ハイブリッドモデル圧縮によるBERTの軽量適応
- Authors: Yihuan Mao, Yujing Wang, Chufan Wu, Chen Zhang, Yang Wang, Yaming
Yang, Quanlu Zhang, Yunhai Tong, Jing Bai
- Abstract要約: BERTは、大きなコーパスによって事前訓練された最先端の言語表現モデルである。
BERTはメモリ集約的であり、ユーザ要求の満足のいくレイテンシにつながる。
本稿では,異なるモデル圧縮手法の利点を組み合わせたLadaBERTというハイブリッドソリューションを提案する。
- 参考スコア(独自算出の注目度): 21.03685890385275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: BERT is a cutting-edge language representation model pre-trained by a large
corpus, which achieves superior performances on various natural language
understanding tasks. However, a major blocking issue of applying BERT to online
services is that it is memory-intensive and leads to unsatisfactory latency of
user requests, raising the necessity of model compression. Existing solutions
leverage the knowledge distillation framework to learn a smaller model that
imitates the behaviors of BERT. However, the training procedure of knowledge
distillation is expensive itself as it requires sufficient training data to
imitate the teacher model. In this paper, we address this issue by proposing a
hybrid solution named LadaBERT (Lightweight adaptation of BERT through hybrid
model compression), which combines the advantages of different model
compression methods, including weight pruning, matrix factorization and
knowledge distillation. LadaBERT achieves state-of-the-art accuracy on various
public datasets while the training overheads can be reduced by an order of
magnitude.
- Abstract(参考訳): BERTは、大規模コーパスによって事前訓練された最先端の言語表現モデルであり、様々な自然言語理解タスクにおいて優れたパフォーマンスを達成する。
しかし、BERTをオンラインサービスに適用する際の大きな障害は、メモリ集約であり、ユーザ要求の満足のいくレイテンシにつながるため、モデル圧縮の必要性が高まることである。
既存のソリューションは知識蒸留の枠組みを利用して、BERTの振る舞いを模倣するより小さなモデルを学ぶ。
しかし,師範を模倣する十分な訓練データを必要とするため,知識蒸留の訓練手順自体が高価である。
本稿では, 重み付け, 行列因数分解, 知識蒸留など, 異なるモデル圧縮手法の利点を組み合わせたLadaBERT(ハイブリッドモデル圧縮によるBERTの軽量化)というハイブリッドソリューションを提案し, この問題に対処する。
LadaBERTは、さまざまな公開データセットで最先端の精度を実現し、トレーニングオーバーヘッドを桁違いに削減することができる。
関連論文リスト
- Improving Knowledge Distillation for BERT Models: Loss Functions,
Mapping Methods, and Weight Tuning [1.1510009152620668]
本研究は, BERTモデル圧縮のための知識蒸留について検討し, 適用する。
本研究では, 損失関数を用いた実験, トランスフォーマー層マッピング法, 注意の重み付けと表現損失の調整など, 知識蒸留を改善するための様々な手法について検討する。
この研究の目的は、知識蒸留の効率性と効率を改善し、自然言語処理タスクのより効率的で正確なモデルの開発を可能にすることである。
論文 参考訳(メタデータ) (2023-08-26T20:59:21Z) - oBERTa: Improving Sparse Transfer Learning via improved initialization,
distillation, and pruning regimes [82.99830498937729]
oBERTaは自然言語処理のための使いやすい言語モデルのセットです。
NLPの実践者はモデル圧縮の専門知識なしで3.8倍から24.3倍の高速モデルを得ることができる。
代表的な7つのNLPタスクにおけるoBERTaの利用について検討する。
論文 参考訳(メタデータ) (2023-03-30T01:37:19Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - Automatic Mixed-Precision Quantization Search of BERT [62.65905462141319]
BERTのような事前訓練された言語モデルは、様々な自然言語処理タスクにおいて顕著な効果を示している。
これらのモデルは通常、数百万のパラメータを含んでおり、リソースに制約のあるデバイスへの実践的なデプロイを妨げている。
本稿では,サブグループレベルでの量子化とプルーニングを同時に行うことができるBERT用に設計された混合精密量子化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-30T06:32:47Z) - ROSITA: Refined BERT cOmpreSsion with InTegrAted techniques [10.983311133796745]
BERTファミリーの事前訓練された言語モデルは、幅広いNLPタスクで最先端のものを定義しています。
BERTベースのモデルの性能は、主に大量のパラメータによって駆動され、リソース制限されたシナリオへの適用を妨げる。
我々は,3種類の圧縮手法(重み付きプルーニング,低ランク分解,知識蒸留)を導入し,モデルアーキテクチャに関する様々な設計について検討する。
Refined BERT cOmpreSsion with InTegrAted Technique(ROSITA)と呼ばれる私たちの最高の圧縮モデルは、7.5倍小さいです。
論文 参考訳(メタデータ) (2021-03-21T11:33:33Z) - BinaryBERT: Pushing the Limit of BERT Quantization [74.65543496761553]
本稿では、BERT量子化を重み二項化の限界まで押し上げるBinaryBERTを提案する。
複雑で不規則な損失環境のため,バイナリBERTは3次学習よりも直接訓練が難しいことが判明した。
実験結果から、BinaryBERT は完全精度 BERT ベースと比較して無視できる性能低下を示した。
論文 参考訳(メタデータ) (2020-12-31T16:34:54Z) - TernaryBERT: Distillation-aware Ultra-low Bit BERT [53.06741585060951]
本稿では,細調整されたBERTモデルの重みを3元化するternaryBERTを提案する。
GLUEベンチマークとSQuADの実験により,提案した TernaryBERT が他のBERT量子化法より優れていることが示された。
論文 参考訳(メタデータ) (2020-09-27T10:17:28Z) - DynaBERT: Dynamic BERT with Adaptive Width and Depth [55.18269622415814]
我々は新しい動的BERTモデル(DynaBERTと略される)を提案する。
適応的な幅と深さを選択することで、サイズとレイテンシを柔軟に調整できる。
既存のBERT圧縮手法よりずっと優れています。
論文 参考訳(メタデータ) (2020-04-08T15:06:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。