Fugu-MT 論文翻訳(概要): ROSITA: Refined BERT cOmpreSsion with InTegrAted techniques

論文の概要: ROSITA: Refined BERT cOmpreSsion with InTegrAted techniques

arxiv url: http://arxiv.org/abs/2103.11367v1
Date: Sun, 21 Mar 2021 11:33:33 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-23 14:41:38.883494
Title: ROSITA: Refined BERT cOmpreSsion with InTegrAted techniques
Title（参考訳）: ROSITA: InTegrAted 技術による改良BERTcOmpreSsion
Authors: Yuanxin Liu and Zheng Lin and Fengcheng Yuan
Abstract要約: BERTファミリーの事前訓練された言語モデルは、幅広いNLPタスクで最先端のものを定義しています。 BERTベースのモデルの性能は、主に大量のパラメータによって駆動され、リソース制限されたシナリオへの適用を妨げる。我々は,3種類の圧縮手法(重み付きプルーニング,低ランク分解,知識蒸留)を導入し,モデルアーキテクチャに関する様々な設計について検討する。 Refined BERT cOmpreSsion with InTegrAted Technique(ROSITA)と呼ばれる私たちの最高の圧縮モデルは、7.5倍小さいです。
参考スコア（独自算出の注目度）: 10.983311133796745
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Pre-trained language models of the BERT family have defined the state-of-the-arts in a wide range of NLP tasks. However, the performance of BERT-based models is mainly driven by the enormous amount of parameters, which hinders their application to resource-limited scenarios. Faced with this problem, recent studies have been attempting to compress BERT into a small-scale model. However, most previous work primarily focuses on a single kind of compression technique, and few attention has been paid to the combination of different methods. When BERT is compressed with integrated techniques, a critical question is how to design the entire compression framework to obtain the optimal performance. In response to this question, we integrate three kinds of compression methods (weight pruning, low-rank factorization and knowledge distillation (KD)) and explore a range of designs concerning model architecture, KD strategy, pruning frequency and learning rate schedule. We find that a careful choice of the designs is crucial to the performance of the compressed model. Based on the empirical findings, our best compressed model, dubbed Refined BERT cOmpreSsion with InTegrAted techniques (ROSITA), is $7.5 \times$ smaller than BERT while maintains $98.5\%$ of the performance on five tasks of the GLUE benchmark, outperforming the previous BERT compression methods with similar parameter budget. The code is available at https://github.com/llyx97/Rosita.
Abstract（参考訳）: BERTファミリーの事前訓練された言語モデルは、幅広いNLPタスクで最先端の言語を定義している。しかし、BERTベースのモデルの性能は、主に膨大な量のパラメータによって駆動され、リソース制限シナリオへの適用を妨げる。この問題に直面した最近の研究は、BERTを小さなモデルに圧縮しようと試みている。しかし、以前のほとんどの作品は、主に単一の種類の圧縮技術に焦点を当てており、異なる手法の組み合わせにはほとんど注意が払われていない。 BERTが統合された技術で圧縮されると、最適な性能を得るために圧縮フレームワーク全体をどのように設計するかが重要な問題となる。そこで本研究では,3種類の圧縮手法(重プルーニング,低ランク因子化,知識蒸留(KD))を統合し,モデルアーキテクチャ,KD戦略,プルーニング頻度,学習率スケジュールに関する設計範囲を探索する。圧縮モデルの性能には,設計の慎重な選択が不可欠であることがわかった。 InTegrAted Technique (ROSITA) を用いたRefined BERT cOmpreSsion (Refined BERT cOmpreSsion) と呼ばれる我々の最良の圧縮モデルは、BERTよりも7.5 \times$小さいが、GLUEベンチマークの5つのタスクのパフォーマンスは9,8.5 %であり、以前のBERT圧縮手法を同様のパラメータ予算で上回っている。コードはhttps://github.com/llyx97/Rositaで入手できる。

関連論文リスト

Exploring Extreme Parameter Compression for Pre-trained Language Models [45.80044281531393]
本研究は,事前学習言語モデル(PLM)の圧縮率の増大について検討する。圧縮時の効率と効率を改善するために, 2つの分解・再構成プロトコルを提案する。小さなバージョンではBERTベースが96.7%、エンコーダパラメータが1/48、推論が2.7倍高速になる。
論文参考訳（メタデータ） (2022-05-20T09:16:55Z)
The Optimal BERT Surgeon: Scalable and Accurate Second-Order Pruning for Large Language Models [23.12519490211362]
本稿では,BERTモデルの文脈における非構造重み打ちの精度圧縮トレードオフについて検討する。近似2次情報に基づく効率的かつ正確な重量刈り法であるO-BERT-S(Optimal BERT Surgeon)を提案する。本研究では,トランスフォーマーモデルに対する圧縮手法の複合化において,このプルーニング法が与える影響について検討する。
論文参考訳（メタデータ） (2022-03-14T16:40:31Z)
Automatic Mixed-Precision Quantization Search of BERT [62.65905462141319]
BERTのような事前訓練された言語モデルは、様々な自然言語処理タスクにおいて顕著な効果を示している。これらのモデルは通常、数百万のパラメータを含んでおり、リソースに制約のあるデバイスへの実践的なデプロイを妨げている。本稿では,サブグループレベルでの量子化とプルーニングを同時に行うことができるBERT用に設計された混合精密量子化フレームワークを提案する。
論文参考訳（メタデータ） (2021-12-30T06:32:47Z)
You Only Compress Once: Towards Effective and Elastic BERT Compression via Exploit-Explore Stochastic Nature Gradient [88.58536093633167]
既存のモデル圧縮アプローチでは、さまざまなハードウェアデプロイメントに対応するために、さまざまな制約にまたがる再圧縮や微調整が必要となる。圧縮を一度行い、至るところに展開するための新しいアプローチであるYOCO-BERTを提案する。最先端のアルゴリズムと比較すると、YOCO-BERTはよりコンパクトなモデルを提供するが、GLUEベンチマークの平均精度は2.1%-4.5%向上している。
論文参考訳（メタデータ） (2021-06-04T12:17:44Z)
BinaryBERT: Pushing the Limit of BERT Quantization [74.65543496761553]
本稿では、BERT量子化を重み二項化の限界まで押し上げるBinaryBERTを提案する。複雑で不規則な損失環境のため,バイナリBERTは3次学習よりも直接訓練が難しいことが判明した。実験結果から、BinaryBERT は完全精度 BERT ベースと比較して無視できる性能低下を示した。
論文参考訳（メタデータ） (2020-12-31T16:34:54Z)
TernaryBERT: Distillation-aware Ultra-low Bit BERT [53.06741585060951]
本稿では,細調整されたBERTモデルの重みを3元化するternaryBERTを提案する。 GLUEベンチマークとSQuADの実験により,提案した TernaryBERT が他のBERT量子化法より優れていることが示された。
論文参考訳（メタデータ） (2020-09-27T10:17:28Z)
LadaBERT: Lightweight Adaptation of BERT through Hybrid Model Compression [21.03685890385275]
BERTは、大きなコーパスによって事前訓練された最先端の言語表現モデルである。 BERTはメモリ集約的であり、ユーザ要求の満足のいくレイテンシにつながる。本稿では,異なるモデル圧縮手法の利点を組み合わせたLadaBERTというハイブリッドソリューションを提案する。
論文参考訳（メタデータ） (2020-04-08T17:18:56Z)
DynaBERT: Dynamic BERT with Adaptive Width and Depth [55.18269622415814]
我々は新しい動的BERTモデル(DynaBERTと略される)を提案する。適応的な幅と深さを選択することで、サイズとレイテンシを柔軟に調整できる。既存のBERT圧縮手法よりずっと優れています。
論文参考訳（メタデータ） (2020-04-08T15:06:28Z)
AdaBERT: Task-Adaptive BERT Compression with Differentiable Neural Architecture Search [79.98686989604164]
既存の方法では、BERTを小さなモデルに圧縮するが、そのような圧縮はタスクに依存しない。本稿では,タスク適応型小型モデルにBERTを自動的に圧縮する,可変ニューラルアーキテクチャ探索を利用した新しい圧縮手法AdaBERTを提案する。我々は,複数のNLPタスクに対してAdaBERTを評価し,これらのタスク適応型圧縮モデルが推定時間でBERTよりも12.7倍から29.3倍速く,パラメータサイズで11.5倍から17.0倍小さいことを示す。
論文参考訳（メタデータ） (2020-01-13T14:03:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。