論文の概要: AdaBERT: Task-Adaptive BERT Compression with Differentiable Neural
Architecture Search
- arxiv url: http://arxiv.org/abs/2001.04246v2
- Date: Fri, 22 Jan 2021 10:58:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-01-11 22:31:38.572146
- Title: AdaBERT: Task-Adaptive BERT Compression with Differentiable Neural
Architecture Search
- Title(参考訳): AdaBERT: 可変ニューラルネットワークによるタスク適応BERT圧縮
- Authors: Daoyuan Chen, Yaliang Li, Minghui Qiu, Zhen Wang, Bofang Li, Bolin
Ding, Hongbo Deng, Jun Huang, Wei Lin, Jingren Zhou
- Abstract要約: 既存の方法では、BERTを小さなモデルに圧縮するが、そのような圧縮はタスクに依存しない。
本稿では,タスク適応型小型モデルにBERTを自動的に圧縮する,可変ニューラルアーキテクチャ探索を利用した新しい圧縮手法AdaBERTを提案する。
我々は,複数のNLPタスクに対してAdaBERTを評価し,これらのタスク適応型圧縮モデルが推定時間でBERTよりも12.7倍から29.3倍速く,パラメータサイズで11.5倍から17.0倍小さいことを示す。
- 参考スコア(独自算出の注目度): 79.98686989604164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large pre-trained language models such as BERT have shown their effectiveness
in various natural language processing tasks. However, the huge parameter size
makes them difficult to be deployed in real-time applications that require
quick inference with limited resources. Existing methods compress BERT into
small models while such compression is task-independent, i.e., the same
compressed BERT for all different downstream tasks. Motivated by the necessity
and benefits of task-oriented BERT compression, we propose a novel compression
method, AdaBERT, that leverages differentiable Neural Architecture Search to
automatically compress BERT into task-adaptive small models for specific tasks.
We incorporate a task-oriented knowledge distillation loss to provide search
hints and an efficiency-aware loss as search constraints, which enables a good
trade-off between efficiency and effectiveness for task-adaptive BERT
compression. We evaluate AdaBERT on several NLP tasks, and the results
demonstrate that those task-adaptive compressed models are 12.7x to 29.3x
faster than BERT in inference time and 11.5x to 17.0x smaller in terms of
parameter size, while comparable performance is maintained.
- Abstract(参考訳): BERTのような大規模な事前学習された言語モデルは、様々な自然言語処理タスクにおいてその有効性を示している。
しかし、パラメータの大きさが大きいため、リソースが限られたクイック推論を必要とするリアルタイムアプリケーションへのデプロイが難しくなる。
既存の方法では、BERTを小さなモデルに圧縮するが、そのような圧縮はタスクに依存しない。
本稿では,タスク指向BERT圧縮の必要性とメリットに感化されて,タスク適応型小型モデルにBERTを自動的に圧縮する,微分可能なニューラルアーキテクチャ探索を利用する新しい圧縮手法AdaBERTを提案する。
タスク指向の知識蒸留損失を検索の制約として探索ヒントと効率認識損失を提供し,タスク適応型bert圧縮の効率と有効性の間の良好なトレードオフを可能にする。
我々は,複数のNLPタスクに対してAdaBERTを評価し,これらのタスク適応型圧縮モデルが推定時間でBERTよりも12.7倍から29.3倍速く,パラメータサイズで11.5倍から17.0倍小さいことを示す。
関連論文リスト
- Automatic Mixed-Precision Quantization Search of BERT [62.65905462141319]
BERTのような事前訓練された言語モデルは、様々な自然言語処理タスクにおいて顕著な効果を示している。
これらのモデルは通常、数百万のパラメータを含んでおり、リソースに制約のあるデバイスへの実践的なデプロイを妨げている。
本稿では,サブグループレベルでの量子化とプルーニングを同時に行うことができるBERT用に設計された混合精密量子化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-30T06:32:47Z) - You Only Compress Once: Towards Effective and Elastic BERT Compression
via Exploit-Explore Stochastic Nature Gradient [88.58536093633167]
既存のモデル圧縮アプローチでは、さまざまなハードウェアデプロイメントに対応するために、さまざまな制約にまたがる再圧縮や微調整が必要となる。
圧縮を一度行い、至るところに展開するための新しいアプローチであるYOCO-BERTを提案する。
最先端のアルゴリズムと比較すると、YOCO-BERTはよりコンパクトなモデルを提供するが、GLUEベンチマークの平均精度は2.1%-4.5%向上している。
論文 参考訳(メタデータ) (2021-06-04T12:17:44Z) - NAS-BERT: Task-Agnostic and Adaptive-Size BERT Compression with Neural
Architecture Search [100.71365025972258]
BERT圧縮の効率的な手法であるNAS-BERTを提案する。
NAS-BERTは、検索空間上で大きなスーパーネットをトレーニングし、適応的なサイズとレイテンシを持つ複数の圧縮モデルを出力する。
GLUEとSQuADベンチマークデータセットの実験は、NAS-BERTが以前のアプローチよりも高精度で軽量なモデルを見つけることができることを示した。
論文 参考訳(メタデータ) (2021-05-30T07:20:27Z) - ROSITA: Refined BERT cOmpreSsion with InTegrAted techniques [10.983311133796745]
BERTファミリーの事前訓練された言語モデルは、幅広いNLPタスクで最先端のものを定義しています。
BERTベースのモデルの性能は、主に大量のパラメータによって駆動され、リソース制限されたシナリオへの適用を妨げる。
我々は,3種類の圧縮手法(重み付きプルーニング,低ランク分解,知識蒸留)を導入し,モデルアーキテクチャに関する様々な設計について検討する。
Refined BERT cOmpreSsion with InTegrAted Technique(ROSITA)と呼ばれる私たちの最高の圧縮モデルは、7.5倍小さいです。
論文 参考訳(メタデータ) (2021-03-21T11:33:33Z) - DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference [69.93692147242284]
BERTのような大規模事前訓練型言語モデルは、NLPアプリケーションに大幅な改善をもたらした。
本稿では, BERT推論を高速化するために, 単純だが効果的な手法であるDeeBERTを提案する。
実験の結果、DeeBERTはモデル品質の低下を最小限に抑えながら、最大40%の推論時間を節約できることがわかった。
論文 参考訳(メタデータ) (2020-04-27T17:58:05Z) - LadaBERT: Lightweight Adaptation of BERT through Hybrid Model
Compression [21.03685890385275]
BERTは、大きなコーパスによって事前訓練された最先端の言語表現モデルである。
BERTはメモリ集約的であり、ユーザ要求の満足のいくレイテンシにつながる。
本稿では,異なるモデル圧縮手法の利点を組み合わせたLadaBERTというハイブリッドソリューションを提案する。
論文 参考訳(メタデータ) (2020-04-08T17:18:56Z) - DynaBERT: Dynamic BERT with Adaptive Width and Depth [55.18269622415814]
我々は新しい動的BERTモデル(DynaBERTと略される)を提案する。
適応的な幅と深さを選択することで、サイズとレイテンシを柔軟に調整できる。
既存のBERT圧縮手法よりずっと優れています。
論文 参考訳(メタデータ) (2020-04-08T15:06:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。