論文の概要: ROSITA: Refined BERT cOmpreSsion with InTegrAted techniques
- arxiv url: http://arxiv.org/abs/2103.11367v1
- Date: Sun, 21 Mar 2021 11:33:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-23 14:41:38.883494
- Title: ROSITA: Refined BERT cOmpreSsion with InTegrAted techniques
- Title(参考訳): ROSITA: InTegrAted 技術による改良BERTcOmpreSsion
- Authors: Yuanxin Liu and Zheng Lin and Fengcheng Yuan
- Abstract要約: BERTファミリーの事前訓練された言語モデルは、幅広いNLPタスクで最先端のものを定義しています。
BERTベースのモデルの性能は、主に大量のパラメータによって駆動され、リソース制限されたシナリオへの適用を妨げる。
我々は,3種類の圧縮手法(重み付きプルーニング,低ランク分解,知識蒸留)を導入し,モデルアーキテクチャに関する様々な設計について検討する。
Refined BERT cOmpreSsion with InTegrAted Technique(ROSITA)と呼ばれる私たちの最高の圧縮モデルは、7.5倍小さいです。
- 参考スコア(独自算出の注目度): 10.983311133796745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained language models of the BERT family have defined the
state-of-the-arts in a wide range of NLP tasks. However, the performance of
BERT-based models is mainly driven by the enormous amount of parameters, which
hinders their application to resource-limited scenarios. Faced with this
problem, recent studies have been attempting to compress BERT into a
small-scale model. However, most previous work primarily focuses on a single
kind of compression technique, and few attention has been paid to the
combination of different methods. When BERT is compressed with integrated
techniques, a critical question is how to design the entire compression
framework to obtain the optimal performance. In response to this question, we
integrate three kinds of compression methods (weight pruning, low-rank
factorization and knowledge distillation (KD)) and explore a range of designs
concerning model architecture, KD strategy, pruning frequency and learning rate
schedule. We find that a careful choice of the designs is crucial to the
performance of the compressed model. Based on the empirical findings, our best
compressed model, dubbed Refined BERT cOmpreSsion with InTegrAted techniques
(ROSITA), is $7.5 \times$ smaller than BERT while maintains $98.5\%$ of the
performance on five tasks of the GLUE benchmark, outperforming the previous
BERT compression methods with similar parameter budget. The code is available
at https://github.com/llyx97/Rosita.
- Abstract(参考訳): BERTファミリーの事前訓練された言語モデルは、幅広いNLPタスクで最先端の言語を定義している。
しかし、BERTベースのモデルの性能は、主に膨大な量のパラメータによって駆動され、リソース制限シナリオへの適用を妨げる。
この問題に直面した最近の研究は、BERTを小さなモデルに圧縮しようと試みている。
しかし、以前のほとんどの作品は、主に単一の種類の圧縮技術に焦点を当てており、異なる手法の組み合わせにはほとんど注意が払われていない。
BERTが統合された技術で圧縮されると、最適な性能を得るために圧縮フレームワーク全体をどのように設計するかが重要な問題となる。
そこで本研究では,3種類の圧縮手法(重プルーニング,低ランク因子化,知識蒸留(KD))を統合し,モデルアーキテクチャ,KD戦略,プルーニング頻度,学習率スケジュールに関する設計範囲を探索する。
圧縮モデルの性能には,設計の慎重な選択が不可欠であることがわかった。
InTegrAted Technique (ROSITA) を用いたRefined BERT cOmpreSsion (Refined BERT cOmpreSsion) と呼ばれる我々の最良の圧縮モデルは、BERTよりも7.5 \times$小さいが、GLUEベンチマークの5つのタスクのパフォーマンスは9,8.5 %であり、以前のBERT圧縮手法を同様のパラメータ予算で上回っている。
コードはhttps://github.com/llyx97/Rositaで入手できる。
関連論文リスト
- Exploring Extreme Parameter Compression for Pre-trained Language Models [45.80044281531393]
本研究は,事前学習言語モデル(PLM)の圧縮率の増大について検討する。
圧縮時の効率と効率を改善するために, 2つの分解・再構成プロトコルを提案する。
小さなバージョンではBERTベースが96.7%、エンコーダパラメータが1/48、推論が2.7倍高速になる。
論文 参考訳(メタデータ) (2022-05-20T09:16:55Z) - The Optimal BERT Surgeon: Scalable and Accurate Second-Order Pruning for
Large Language Models [23.12519490211362]
本稿では,BERTモデルの文脈における非構造重み打ちの精度圧縮トレードオフについて検討する。
近似2次情報に基づく効率的かつ正確な重量刈り法であるO-BERT-S(Optimal BERT Surgeon)を提案する。
本研究では,トランスフォーマーモデルに対する圧縮手法の複合化において,このプルーニング法が与える影響について検討する。
論文 参考訳(メタデータ) (2022-03-14T16:40:31Z) - Automatic Mixed-Precision Quantization Search of BERT [62.65905462141319]
BERTのような事前訓練された言語モデルは、様々な自然言語処理タスクにおいて顕著な効果を示している。
これらのモデルは通常、数百万のパラメータを含んでおり、リソースに制約のあるデバイスへの実践的なデプロイを妨げている。
本稿では,サブグループレベルでの量子化とプルーニングを同時に行うことができるBERT用に設計された混合精密量子化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-30T06:32:47Z) - You Only Compress Once: Towards Effective and Elastic BERT Compression
via Exploit-Explore Stochastic Nature Gradient [88.58536093633167]
既存のモデル圧縮アプローチでは、さまざまなハードウェアデプロイメントに対応するために、さまざまな制約にまたがる再圧縮や微調整が必要となる。
圧縮を一度行い、至るところに展開するための新しいアプローチであるYOCO-BERTを提案する。
最先端のアルゴリズムと比較すると、YOCO-BERTはよりコンパクトなモデルを提供するが、GLUEベンチマークの平均精度は2.1%-4.5%向上している。
論文 参考訳(メタデータ) (2021-06-04T12:17:44Z) - BinaryBERT: Pushing the Limit of BERT Quantization [74.65543496761553]
本稿では、BERT量子化を重み二項化の限界まで押し上げるBinaryBERTを提案する。
複雑で不規則な損失環境のため,バイナリBERTは3次学習よりも直接訓練が難しいことが判明した。
実験結果から、BinaryBERT は完全精度 BERT ベースと比較して無視できる性能低下を示した。
論文 参考訳(メタデータ) (2020-12-31T16:34:54Z) - TernaryBERT: Distillation-aware Ultra-low Bit BERT [53.06741585060951]
本稿では,細調整されたBERTモデルの重みを3元化するternaryBERTを提案する。
GLUEベンチマークとSQuADの実験により,提案した TernaryBERT が他のBERT量子化法より優れていることが示された。
論文 参考訳(メタデータ) (2020-09-27T10:17:28Z) - LadaBERT: Lightweight Adaptation of BERT through Hybrid Model
Compression [21.03685890385275]
BERTは、大きなコーパスによって事前訓練された最先端の言語表現モデルである。
BERTはメモリ集約的であり、ユーザ要求の満足のいくレイテンシにつながる。
本稿では,異なるモデル圧縮手法の利点を組み合わせたLadaBERTというハイブリッドソリューションを提案する。
論文 参考訳(メタデータ) (2020-04-08T17:18:56Z) - DynaBERT: Dynamic BERT with Adaptive Width and Depth [55.18269622415814]
我々は新しい動的BERTモデル(DynaBERTと略される)を提案する。
適応的な幅と深さを選択することで、サイズとレイテンシを柔軟に調整できる。
既存のBERT圧縮手法よりずっと優れています。
論文 参考訳(メタデータ) (2020-04-08T15:06:28Z) - AdaBERT: Task-Adaptive BERT Compression with Differentiable Neural
Architecture Search [79.98686989604164]
既存の方法では、BERTを小さなモデルに圧縮するが、そのような圧縮はタスクに依存しない。
本稿では,タスク適応型小型モデルにBERTを自動的に圧縮する,可変ニューラルアーキテクチャ探索を利用した新しい圧縮手法AdaBERTを提案する。
我々は,複数のNLPタスクに対してAdaBERTを評価し,これらのタスク適応型圧縮モデルが推定時間でBERTよりも12.7倍から29.3倍速く,パラメータサイズで11.5倍から17.0倍小さいことを示す。
論文 参考訳(メタデータ) (2020-01-13T14:03:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。