論文の概要: DynaBERT: Dynamic BERT with Adaptive Width and Depth
- arxiv url: http://arxiv.org/abs/2004.04037v2
- Date: Fri, 9 Oct 2020 08:51:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 08:09:58.073063
- Title: DynaBERT: Dynamic BERT with Adaptive Width and Depth
- Title(参考訳): DynaBERT: 適応幅と深さを持つ動的BERT
- Authors: Lu Hou, Zhiqi Huang, Lifeng Shang, Xin Jiang, Xiao Chen, Qun Liu
- Abstract要約: 我々は新しい動的BERTモデル(DynaBERTと略される)を提案する。
適応的な幅と深さを選択することで、サイズとレイテンシを柔軟に調整できる。
既存のBERT圧縮手法よりずっと優れています。
- 参考スコア(独自算出の注目度): 55.18269622415814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The pre-trained language models like BERT, though powerful in many natural
language processing tasks, are both computation and memory expensive. To
alleviate this problem, one approach is to compress them for specific tasks
before deployment. However, recent works on BERT compression usually compress
the large BERT model to a fixed smaller size. They can not fully satisfy the
requirements of different edge devices with various hardware performances. In
this paper, we propose a novel dynamic BERT model (abbreviated as DynaBERT),
which can flexibly adjust the size and latency by selecting adaptive width and
depth. The training process of DynaBERT includes first training a
width-adaptive BERT and then allowing both adaptive width and depth, by
distilling knowledge from the full-sized model to small sub-networks. Network
rewiring is also used to keep the more important attention heads and neurons
shared by more sub-networks. Comprehensive experiments under various efficiency
constraints demonstrate that our proposed dynamic BERT (or RoBERTa) at its
largest size has comparable performance as BERT-base (or RoBERTa-base), while
at smaller widths and depths consistently outperforms existing BERT compression
methods. Code is available at
https://github.com/huawei-noah/Pretrained-Language-Model/tree/master/DynaBERT.
- Abstract(参考訳): BERTのような事前訓練された言語モデルは、多くの自然言語処理タスクで強力だが、計算とメモリの費用がかかる。
この問題を軽減するために、デプロイ前に特定のタスクのために圧縮するアプローチがある。
しかし、BERT圧縮に関する最近の研究は通常、大きなBERTモデルを一定のサイズに圧縮する。
様々なハードウェア性能を持つ異なるエッジデバイスの要求を完全に満たすことはできない。
本稿では,適応幅と深さを選択することで,サイズとレイテンシを柔軟に調整できる動的bertモデル(dynabert)を提案する。
DynaBERTのトレーニングプロセスは、まず幅適応BERTを訓練した後、フルサイズのモデルから小さなサブネットワークに知識を蒸留することにより、適応幅と深さの両方を許容する。
ネットワーク再接続は、より多くのサブネットワークによって共有されるより重要な注意頭とニューロンを維持するためにも使われる。
提案した動的BERT(もしくはRoBERTa)の最大サイズはBERTベース(またはRoBERTaベース)に匹敵する性能を示すとともに,幅や深さの幅が小さい場合には既存のBERT圧縮法より常に優れていることを示す。
コードはhttps://github.com/huawei-noah/Pretrained-Language-Model/tree/master/DynaBERTで公開されている。
関連論文リスト
- You Only Compress Once: Towards Effective and Elastic BERT Compression
via Exploit-Explore Stochastic Nature Gradient [88.58536093633167]
既存のモデル圧縮アプローチでは、さまざまなハードウェアデプロイメントに対応するために、さまざまな制約にまたがる再圧縮や微調整が必要となる。
圧縮を一度行い、至るところに展開するための新しいアプローチであるYOCO-BERTを提案する。
最先端のアルゴリズムと比較すると、YOCO-BERTはよりコンパクトなモデルを提供するが、GLUEベンチマークの平均精度は2.1%-4.5%向上している。
論文 参考訳(メタデータ) (2021-06-04T12:17:44Z) - Optimizing small BERTs trained for German NER [0.16058099298620418]
小型BERTモデルの様々なトレーニング手法を調査し、ドイツの5つの公共NERタスクで評価します。
CSEタグングと改質LCRFの2つの新しい微調整技術を提案します。
さらに,BERTメモリの使用量を削減し,性能を低下させるWWAという新しい手法を導入する。
論文 参考訳(メタデータ) (2021-04-23T12:36:13Z) - ROSITA: Refined BERT cOmpreSsion with InTegrAted techniques [10.983311133796745]
BERTファミリーの事前訓練された言語モデルは、幅広いNLPタスクで最先端のものを定義しています。
BERTベースのモデルの性能は、主に大量のパラメータによって駆動され、リソース制限されたシナリオへの適用を妨げる。
我々は,3種類の圧縮手法(重み付きプルーニング,低ランク分解,知識蒸留)を導入し,モデルアーキテクチャに関する様々な設計について検討する。
Refined BERT cOmpreSsion with InTegrAted Technique(ROSITA)と呼ばれる私たちの最高の圧縮モデルは、7.5倍小さいです。
論文 参考訳(メタデータ) (2021-03-21T11:33:33Z) - Incorporating BERT into Parallel Sequence Decoding with Adapters [82.65608966202396]
本稿では,2種類のBERTモデルをエンコーダとデコーダとして取り出し,シンプルで軽量なアダプタモジュールを導入し,それらを微調整する。
我々は、ソース側およびターゲット側BERTモデルに含まれる情報を協調的に活用できるフレキシブルで効率的なモデルを得る。
我々のフレームワークは、BERTの双方向および条件独立性を考慮した、Mask-Predictという並列シーケンス復号アルゴリズムに基づいている。
論文 参考訳(メタデータ) (2020-10-13T03:25:15Z) - ConvBERT: Improving BERT with Span-based Dynamic Convolution [144.25748617961082]
BERTはグローバルな自己保持ブロックに大きく依存しているため、大きなメモリフットプリントと計算コストに悩まされる。
そこで本研究では,これらの自己注意型ヘッドを置き換え,局所的依存関係を直接モデル化する,スパンベースの動的畳み込みを提案する。
新たな畳み込み頭は、他の自己注意頭と共に、グローバルな文脈学習とローカルな文脈学習の両方においてより効率的である、新しい混合注意ブロックを形成する。
論文 参考訳(メタデータ) (2020-08-06T07:43:19Z) - DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference [69.93692147242284]
BERTのような大規模事前訓練型言語モデルは、NLPアプリケーションに大幅な改善をもたらした。
本稿では, BERT推論を高速化するために, 単純だが効果的な手法であるDeeBERTを提案する。
実験の結果、DeeBERTはモデル品質の低下を最小限に抑えながら、最大40%の推論時間を節約できることがわかった。
論文 参考訳(メタデータ) (2020-04-27T17:58:05Z) - LadaBERT: Lightweight Adaptation of BERT through Hybrid Model
Compression [21.03685890385275]
BERTは、大きなコーパスによって事前訓練された最先端の言語表現モデルである。
BERTはメモリ集約的であり、ユーザ要求の満足のいくレイテンシにつながる。
本稿では,異なるモデル圧縮手法の利点を組み合わせたLadaBERTというハイブリッドソリューションを提案する。
論文 参考訳(メタデータ) (2020-04-08T17:18:56Z) - AdaBERT: Task-Adaptive BERT Compression with Differentiable Neural
Architecture Search [79.98686989604164]
既存の方法では、BERTを小さなモデルに圧縮するが、そのような圧縮はタスクに依存しない。
本稿では,タスク適応型小型モデルにBERTを自動的に圧縮する,可変ニューラルアーキテクチャ探索を利用した新しい圧縮手法AdaBERTを提案する。
我々は,複数のNLPタスクに対してAdaBERTを評価し,これらのタスク適応型圧縮モデルが推定時間でBERTよりも12.7倍から29.3倍速く,パラメータサイズで11.5倍から17.0倍小さいことを示す。
論文 参考訳(メタデータ) (2020-01-13T14:03:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。