論文の概要: You Only Compress Once: Towards Effective and Elastic BERT Compression
via Exploit-Explore Stochastic Nature Gradient
- arxiv url: http://arxiv.org/abs/2106.02435v1
- Date: Fri, 4 Jun 2021 12:17:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-07 22:16:24.884830
- Title: You Only Compress Once: Towards Effective and Elastic BERT Compression
via Exploit-Explore Stochastic Nature Gradient
- Title(参考訳): 一度だけ圧縮する:爆発拡大確率的自然勾配による有効で弾性のあるBERT圧縮を目指して
- Authors: Shaokun Zhang, Xiawu Zheng, Chenyi Yang, Yuchao Li, Yan Wang, Fei
Chao, Mengdi Wang, Shen Li, Jun Yang, Rongrong Ji
- Abstract要約: 既存のモデル圧縮アプローチでは、さまざまなハードウェアデプロイメントに対応するために、さまざまな制約にまたがる再圧縮や微調整が必要となる。
圧縮を一度行い、至るところに展開するための新しいアプローチであるYOCO-BERTを提案する。
最先端のアルゴリズムと比較すると、YOCO-BERTはよりコンパクトなモデルを提供するが、GLUEベンチマークの平均精度は2.1%-4.5%向上している。
- 参考スコア(独自算出の注目度): 88.58536093633167
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite superior performance on various natural language processing tasks,
pre-trained models such as BERT are challenged by deploying on
resource-constraint devices. Most existing model compression approaches require
re-compression or fine-tuning across diverse constraints to accommodate various
hardware deployments. This practically limits the further application of model
compression. Moreover, the ineffective training and searching process of
existing elastic compression paradigms[4,27] prevents the direct migration to
BERT compression. Motivated by the necessity of efficient inference across
various constraints on BERT, we propose a novel approach, YOCO-BERT, to achieve
compress once and deploy everywhere. Specifically, we first construct a huge
search space with 10^13 architectures, which covers nearly all configurations
in BERT model. Then, we propose a novel stochastic nature gradient optimization
method to guide the generation of optimal candidate architecture which could
keep a balanced trade-off between explorations and exploitation. When a certain
resource constraint is given, a lightweight distribution optimization approach
is utilized to obtain the optimal network for target deployment without
fine-tuning. Compared with state-of-the-art algorithms, YOCO-BERT provides more
compact models, yet achieving 2.1%-4.5% average accuracy improvement on the
GLUE benchmark. Besides, YOCO-BERT is also more effective, e.g.,the training
complexity is O(1)for N different devices. Code is
availablehttps://github.com/MAC-AutoML/YOCO-BERT.
- Abstract(参考訳): 様々な自然言語処理タスクにおいて優れた性能を持つにもかかわらず、BERTのような事前訓練されたモデルは、リソース制約のあるデバイスにデプロイすることで挑戦される。
既存のモデル圧縮アプローチの多くは、様々なハードウェアデプロイメントに対応するために、様々な制約をまたいだ再圧縮や微調整を必要とする。
これにより、モデル圧縮のさらなる適用が制限される。
さらに、既存の弾性圧縮パラダイム[4,27]の非効率なトレーニングと探索により、BERT圧縮への直接移行が防止される。
BERTの様々な制約にまたがる効率的な推論の必要性を念頭に, YOCO-BERTという新しい手法を提案し, 一度圧縮を行い, 至るところに展開する。
具体的には、まず10^13アーキテクチャによる巨大な検索空間を構築し、BERTモデルのほぼすべての構成を網羅する。
そこで本研究では,探索と搾取のバランスを保った最適候補アーキテクチャの生成を導くための,新しい確率的自然勾配最適化手法を提案する。
リソース制約が与えられた場合、ターゲット配置のための最適なネットワークを微調整することなく得るために、軽量な分散最適化手法が用いられる。
最先端のアルゴリズムと比較すると、YOCO-BERTはよりコンパクトなモデルを提供するが、GLUEベンチマークの平均精度は2.1%-4.5%向上している。
さらに、YOCO-BERTは、例えば、N個の異なるデバイスに対して、トレーニングの複雑さはO(1)である。
コードはhttps://github.com/mac-automl/yoco-bert。
関連論文リスト
- Compressing Pre-trained Transformers via Low-Bit NxM Sparsity for
Natural Language Understanding [20.75335227098455]
大規模な事前学習型トランスフォーマーネットワークは、多くの自然言語理解タスクにおいて劇的に改善されている。
NM半構造スパーシリティと低精度整数計算の両方をサポートする新しいハードウェアは、モデル提供効率を高めるための有望な解決策である。
本研究では,同時スペーシフィケーションと量子化を行うフレキシブル圧縮フレームワークNxMiFormerを提案する。
論文 参考訳(メタデータ) (2022-06-30T04:33:50Z) - AutoBERT-Zero: Evolving BERT Backbone from Scratch [94.89102524181986]
そこで本稿では,提案するハイブリッドバックボーンアーキテクチャを自動検索するOP-NASアルゴリズムを提案する。
提案するOP-NASの効率を向上させるために,探索アルゴリズムと候補モデルの評価を最適化する。
実験の結果、検索されたアーキテクチャ(AutoBERT-Zero)は、様々な下流タスクにおいてBERTとそのバリエーションの異なるモデル容量を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-07-15T16:46:01Z) - NAS-BERT: Task-Agnostic and Adaptive-Size BERT Compression with Neural
Architecture Search [100.71365025972258]
BERT圧縮の効率的な手法であるNAS-BERTを提案する。
NAS-BERTは、検索空間上で大きなスーパーネットをトレーニングし、適応的なサイズとレイテンシを持つ複数の圧縮モデルを出力する。
GLUEとSQuADベンチマークデータセットの実験は、NAS-BERTが以前のアプローチよりも高精度で軽量なモデルを見つけることができることを示した。
論文 参考訳(メタデータ) (2021-05-30T07:20:27Z) - ROSITA: Refined BERT cOmpreSsion with InTegrAted techniques [10.983311133796745]
BERTファミリーの事前訓練された言語モデルは、幅広いNLPタスクで最先端のものを定義しています。
BERTベースのモデルの性能は、主に大量のパラメータによって駆動され、リソース制限されたシナリオへの適用を妨げる。
我々は,3種類の圧縮手法(重み付きプルーニング,低ランク分解,知識蒸留)を導入し,モデルアーキテクチャに関する様々な設計について検討する。
Refined BERT cOmpreSsion with InTegrAted Technique(ROSITA)と呼ばれる私たちの最高の圧縮モデルは、7.5倍小さいです。
論文 参考訳(メタデータ) (2021-03-21T11:33:33Z) - Neural Network Compression Via Sparse Optimization [23.184290795230897]
スパース最適化の最近の進歩に基づくモデル圧縮フレームワークを提案する。
我々は、CIFAR10のVGG16とImageNetのResNet50で、同じレベルの精度で、最大7.2倍と2.9倍のFLOPを削減できる。
論文 参考訳(メタデータ) (2020-11-10T03:03:55Z) - GAN Slimming: All-in-One GAN Compression by A Unified Optimization
Framework [94.26938614206689]
本稿では,GANスライミング(GAN Slimming)と呼ばれる,GAN圧縮のための複数の圧縮手段を組み合わせた最初の統一最適化フレームワークを提案する。
我々はGSを用いて、最先端のトランスファーネットワークであるCartoonGANを最大47倍圧縮し、視覚的品質を最小限に抑える。
論文 参考訳(メタデータ) (2020-08-25T14:39:42Z) - DynaBERT: Dynamic BERT with Adaptive Width and Depth [55.18269622415814]
我々は新しい動的BERTモデル(DynaBERTと略される)を提案する。
適応的な幅と深さを選択することで、サイズとレイテンシを柔軟に調整できる。
既存のBERT圧縮手法よりずっと優れています。
論文 参考訳(メタデータ) (2020-04-08T15:06:28Z) - AdaBERT: Task-Adaptive BERT Compression with Differentiable Neural
Architecture Search [79.98686989604164]
既存の方法では、BERTを小さなモデルに圧縮するが、そのような圧縮はタスクに依存しない。
本稿では,タスク適応型小型モデルにBERTを自動的に圧縮する,可変ニューラルアーキテクチャ探索を利用した新しい圧縮手法AdaBERTを提案する。
我々は,複数のNLPタスクに対してAdaBERTを評価し,これらのタスク適応型圧縮モデルが推定時間でBERTよりも12.7倍から29.3倍速く,パラメータサイズで11.5倍から17.0倍小さいことを示す。
論文 参考訳(メタデータ) (2020-01-13T14:03:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。