論文の概要: BinaryBERT: Pushing the Limit of BERT Quantization
- arxiv url: http://arxiv.org/abs/2012.15701v1
- Date: Thu, 31 Dec 2020 16:34:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-17 17:12:34.556664
- Title: BinaryBERT: Pushing the Limit of BERT Quantization
- Title(参考訳): BinaryBERT:BERT量子化の限界を押し上げる
- Authors: Haoli Bai, Wei Zhang, Lu Hou, Lifeng Shang, Jing Jin, Xin Jiang, Qun
Liu, Michael Lyu, Irwin King
- Abstract要約: 本稿では、BERT量子化を重み二項化の限界まで押し上げるBinaryBERTを提案する。
複雑で不規則な損失環境のため,バイナリBERTは3次学習よりも直接訓練が難しいことが判明した。
実験結果から、BinaryBERT は完全精度 BERT ベースと比較して無視できる性能低下を示した。
- 参考スコア(独自算出の注目度): 74.65543496761553
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid development of large pre-trained language models has greatly
increased the demand for model compression techniques, among which quantization
is a popular solution. In this paper, we propose BinaryBERT, which pushes BERT
quantization to the limit with weight binarization. We find that a binary BERT
is hard to be trained directly than a ternary counterpart due to its complex
and irregular loss landscapes. Therefore, we propose ternary weight splitting,
which initializes the binary model by equivalent splitting from a half-sized
ternary network. The binary model thus inherits the good performance of the
ternary model, and can be further enhanced by fine-tuning the new architecture
after splitting. Empirical results show that BinaryBERT has negligible
performance drop compared to the full-precision BERT-base while being
$24\times$ smaller, achieving the state-of-the-art results on GLUE and SQuAD
benchmarks.
- Abstract(参考訳): 大規模な事前学習型言語モデルの急速な開発により、量子化が一般的なソリューションであるモデル圧縮技術への需要が大幅に増加した。
本稿では,BERT量子化を重み二項化の限界まで押し上げるBinaryBERTを提案する。
複雑で不規則な損失環境のため,バイナリBERTは3次学習よりも直接訓練が難しいことが判明した。
そこで本研究では,半大の3次ネットワークから等価な分割によってバイナリモデルを初期化する3次重み分割を提案する。
したがって、バイナリモデルは三元モデルの優れた性能を継承し、分割後に新しいアーキテクチャを微調整することでさらに拡張することができる。
実証的な結果から,BinaryBERTは全精度のBERTベースに比べて2,4\times$小さめで,GLUEおよびSQuADベンチマークの最先端結果を達成した。
関連論文リスト
- MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - The Optimal BERT Surgeon: Scalable and Accurate Second-Order Pruning for
Large Language Models [23.12519490211362]
本稿では,BERTモデルの文脈における非構造重み打ちの精度圧縮トレードオフについて検討する。
近似2次情報に基づく効率的かつ正確な重量刈り法であるO-BERT-S(Optimal BERT Surgeon)を提案する。
本研究では,トランスフォーマーモデルに対する圧縮手法の複合化において,このプルーニング法が与える影響について検討する。
論文 参考訳(メタデータ) (2022-03-14T16:40:31Z) - BiBERT: Accurate Fully Binarized BERT [69.35727280997617]
BiBERTは、パフォーマンスボトルネックを取り除くために、正確に2項化されたBERTである。
提案手法は,FLOPとモデルサイズで56.3回,31.2回節約できる。
論文 参考訳(メタデータ) (2022-03-12T09:46:13Z) - Finding the Winning Ticket of BERT for Binary Text Classification via
Adaptive Layer Truncation before Fine-tuning [7.797987384189306]
BERTをベースとしたモデルのサイズの異なるモデルを構築し、それらの予測を8つのバイナリ分類タスクで比較する。
結果は、完全なモデルよりもパフォーマンスが良い小さなサブネットワークが存在することを示している。
論文 参考訳(メタデータ) (2021-11-22T02:22:47Z) - KroneckerBERT: Learning Kronecker Decomposition for Pre-trained Language
Models via Knowledge Distillation [5.8287955127529365]
我々は、Kronecker分解を用いた、最先端のTransformerベースの事前学習言語モデル圧縮の限界を推し進める。
このフレームワークを用いて得られたBERT_BASEモデルの圧縮版であるKroneckerBERTを提案する。
実験の結果,提案モデルでは分布外ロバスト性を保証し,SQuADの最先端圧縮法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-09-13T18:19:30Z) - Deploying a BERT-based Query-Title Relevance Classifier in a Production
System: a View from the Trenches [3.1219977244201056]
変換器(BERT)モデルによる双方向表現は,多くの自然言語処理(NLP)タスクの性能を大幅に向上させてきた。
BERTを低レイテンシ、高スループットの産業用ユースケースにスケールすることは、その巨大なサイズのために困難である。
BERT Bidirectional Long Short-Term Memory (BertBiLSTM) という名前のコンパクトモデルによるデプロイメントのためのQTR分類器の最適化に成功した。
BertBiLSTMは、上記の実世界の生産作業における精度と効率の観点から、既成のBERTモデルの性能を上回る
論文 参考訳(メタデータ) (2021-08-23T14:28:23Z) - AutoBERT-Zero: Evolving BERT Backbone from Scratch [94.89102524181986]
そこで本稿では,提案するハイブリッドバックボーンアーキテクチャを自動検索するOP-NASアルゴリズムを提案する。
提案するOP-NASの効率を向上させるために,探索アルゴリズムと候補モデルの評価を最適化する。
実験の結果、検索されたアーキテクチャ(AutoBERT-Zero)は、様々な下流タスクにおいてBERTとそのバリエーションの異なるモデル容量を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-07-15T16:46:01Z) - You Only Compress Once: Towards Effective and Elastic BERT Compression
via Exploit-Explore Stochastic Nature Gradient [88.58536093633167]
既存のモデル圧縮アプローチでは、さまざまなハードウェアデプロイメントに対応するために、さまざまな制約にまたがる再圧縮や微調整が必要となる。
圧縮を一度行い、至るところに展開するための新しいアプローチであるYOCO-BERTを提案する。
最先端のアルゴリズムと比較すると、YOCO-BERTはよりコンパクトなモデルを提供するが、GLUEベンチマークの平均精度は2.1%-4.5%向上している。
論文 参考訳(メタデータ) (2021-06-04T12:17:44Z) - S2-BNN: Bridging the Gap Between Self-Supervised Real and 1-bit Neural
Networks via Guided Distribution Calibration [74.5509794733707]
本研究では, 実数値から, 最終予測分布上のバイナリネットワークへの誘導型学習パラダイムを提案する。
提案手法は,bnn上で5.515%の絶対利得で,単純なコントラスト学習ベースラインを向上できる。
提案手法は、単純なコントラスト学習ベースラインよりも大幅に改善され、多くの主流教師付きBNN手法に匹敵する。
論文 参考訳(メタデータ) (2021-02-17T18:59:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。