論文の概要: BiBERT: Accurate Fully Binarized BERT
- arxiv url: http://arxiv.org/abs/2203.06390v1
- Date: Sat, 12 Mar 2022 09:46:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-15 14:51:44.467652
- Title: BiBERT: Accurate Fully Binarized BERT
- Title(参考訳): BiBERT:正確に完全なバイナリ化BERT
- Authors: Haotong Qin, Yifu Ding, Mingyuan Zhang, Qinghua Yan, Aishan Liu,
Qingqing Dang, Ziwei Liu, Xianglong Liu
- Abstract要約: BiBERTは、パフォーマンスボトルネックを取り除くために、正確に2項化されたBERTである。
提案手法は,FLOPとモデルサイズで56.3回,31.2回節約できる。
- 参考スコア(独自算出の注目度): 69.35727280997617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The large pre-trained BERT has achieved remarkable performance on Natural
Language Processing (NLP) tasks but is also computation and memory expensive.
As one of the powerful compression approaches, binarization extremely reduces
the computation and memory consumption by utilizing 1-bit parameters and
bitwise operations. Unfortunately, the full binarization of BERT (i.e., 1-bit
weight, embedding, and activation) usually suffer a significant performance
drop, and there is rare study addressing this problem. In this paper, with the
theoretical justification and empirical analysis, we identify that the severe
performance drop can be mainly attributed to the information degradation and
optimization direction mismatch respectively in the forward and backward
propagation, and propose BiBERT, an accurate fully binarized BERT, to eliminate
the performance bottlenecks. Specifically, BiBERT introduces an efficient
Bi-Attention structure for maximizing representation information statistically
and a Direction-Matching Distillation (DMD) scheme to optimize the full
binarized BERT accurately. Extensive experiments show that BiBERT outperforms
both the straightforward baseline and existing state-of-the-art quantized BERTs
with ultra-low bit activations by convincing margins on the NLP benchmark. As
the first fully binarized BERT, our method yields impressive 56.3 times and
31.2 times saving on FLOPs and model size, demonstrating the vast advantages
and potential of the fully binarized BERT model in real-world
resource-constrained scenarios.
- Abstract(参考訳): 大規模な事前訓練されたBERTは、自然言語処理(NLP)タスクにおいて顕著なパフォーマンスを達成したが、計算とメモリコストも高い。
強力な圧縮手法の1つとして、ビナライゼーションは1ビットパラメータとビット演算を利用することで計算とメモリ消費を大幅に削減する。
残念なことに、BERTの完全な双対化(すなわち1ビットの重み、埋め込み、活性化)は、通常大きな性能低下を被り、この問題に対処する研究は稀である。
本稿では, 理論的正当性と経験的解析により, 前向きと後向きの伝搬において, 情報劣化と最適化方向のミスマッチに起因する深刻な性能低下を主に原因とすることができることを確認し, 正確な二項化BERTであるBiBERTを提案する。
具体的には、表現情報を統計的に最大化する効率的なBi-Attention構造と、完全な二項化BERTを正確に最適化するDMD(Direction-Matching Distillation)方式を導入する。
広汎な実験により、BiBERTは、NLPベンチマークのマージンを説得することで、単純なベースラインと既存の最先端の量子化BERTの両方を超低ビットアクティベーションで上回ることを示した。
最初の完全二項化BERTとして、実世界の資源制約シナリオにおける完全二項化BERTモデルの大きな利点と可能性を実証し、FLOPとモデルサイズで56.3倍、31.2倍の節約が得られる。
関連論文リスト
- BiDense: Binarization for Dense Prediction [62.70804353158387]
BiDenseは、効率よく正確な密度予測タスクのために設計された一般化されたバイナリニューラルネットワーク(BNN)である。
BiDenseは2つの重要なテクニックを取り入れている: 分散適応バイナリー (DAB) とチャネル適応完全精度バイパス (CFB) である。
論文 参考訳(メタデータ) (2024-11-15T16:46:04Z) - DB-LLM: Accurate Dual-Binarization for Efficient LLMs [83.70686728471547]
大規模言語モデル(LLM)は自然言語処理の分野を著しく進歩させてきた。
既存の超低ビット量子化は、常に深刻な精度低下を引き起こす。
本稿では,LLM,すなわちDB-LLMのための新しいデュアルバイナライズ手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T09:04:30Z) - DPBERT: Efficient Inference for BERT based on Dynamic Planning [11.680840266488884]
既存の入力適応推論手法ではBERTの構造を十分に活用できない。
本稿では,BERTの推論過程を高速化する新しい微調整戦略であるBERTにおける動的計画法を提案する。
提案手法は,98%の精度を維持しながら遅延を75%まで低減し,最先端の入力適応方式に比べて高精度なトレードオフを実現する。
論文 参考訳(メタデータ) (2023-07-26T07:18:50Z) - Bi-Drop: Enhancing Fine-tuning Generalization via Synchronous sub-net
Estimation and Optimization [58.90989478049686]
Bi-Dropは、様々なサブネットからの勾配を使ってモデルパラメータを選択的に更新する微調整戦略である。
GLUEベンチマークの実験は、Bi-Dropが従来の微調整方法よりも一貫して優れていることを示した。
論文 参考訳(メタデータ) (2023-05-24T06:09:26Z) - BEBERT: Efficient and robust binary ensemble BERT [12.109371576500928]
事前訓練されたBERTモデルのバイナリ化はこの問題を軽減することができるが、完全精度のモデルに比べて精度が大幅に低下する。
精度ギャップを埋めるために,効率よく頑健なバイナリアンサンブルBERT(BEBERT)を提案する。
論文 参考訳(メタデータ) (2022-10-28T08:15:26Z) - BERTVision -- A Parameter-Efficient Approach for Question Answering [0.0]
本稿では,BERTファインチューニングの必要性を大幅に低減する,質問応答に対するパラメータ効率の高い手法を提案する。
提案手法では,各BERTトランス層の隠れ状態アクティベーションから得られる情報を用いて,典型的なBERT推論時に破棄される。
実験の結果,本手法は多岐にわたるQAだけでなく,分類にも有効であり,より広い範囲のタスクに向いていることが示唆された。
論文 参考訳(メタデータ) (2022-02-24T17:16:25Z) - BinaryBERT: Pushing the Limit of BERT Quantization [74.65543496761553]
本稿では、BERT量子化を重み二項化の限界まで押し上げるBinaryBERTを提案する。
複雑で不規則な損失環境のため,バイナリBERTは3次学習よりも直接訓練が難しいことが判明した。
実験結果から、BinaryBERT は完全精度 BERT ベースと比較して無視できる性能低下を示した。
論文 参考訳(メタデータ) (2020-12-31T16:34:54Z) - TernaryBERT: Distillation-aware Ultra-low Bit BERT [53.06741585060951]
本稿では,細調整されたBERTモデルの重みを3元化するternaryBERTを提案する。
GLUEベンチマークとSQuADの実験により,提案した TernaryBERT が他のBERT量子化法より優れていることが示された。
論文 参考訳(メタデータ) (2020-09-27T10:17:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。