論文の概要: TernaryBERT: Distillation-aware Ultra-low Bit BERT
- arxiv url: http://arxiv.org/abs/2009.12812v3
- Date: Sat, 10 Oct 2020 07:24:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 03:16:37.388348
- Title: TernaryBERT: Distillation-aware Ultra-low Bit BERT
- Title(参考訳): TernaryBERT:蒸留対応超低ビットBERT
- Authors: Wei Zhang, Lu Hou, Yichun Yin, Lifeng Shang, Xiao Chen, Xin Jiang, Qun
Liu
- Abstract要約: 本稿では,細調整されたBERTモデルの重みを3元化するternaryBERTを提案する。
GLUEベンチマークとSQuADの実験により,提案した TernaryBERT が他のBERT量子化法より優れていることが示された。
- 参考スコア(独自算出の注目度): 53.06741585060951
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based pre-training models like BERT have achieved remarkable
performance in many natural language processing tasks.However, these models are
both computation and memory expensive, hindering their deployment to
resource-constrained devices. In this work, we propose TernaryBERT, which
ternarizes the weights in a fine-tuned BERT model. Specifically, we use both
approximation-based and loss-aware ternarization methods and empirically
investigate the ternarization granularity of different parts of BERT. Moreover,
to reduce the accuracy degradation caused by the lower capacity of low bits, we
leverage the knowledge distillation technique in the training process.
Experiments on the GLUE benchmark and SQuAD show that our proposed TernaryBERT
outperforms the other BERT quantization methods, and even achieves comparable
performance as the full-precision model while being 14.9x smaller.
- Abstract(参考訳): BERTのようなトランスフォーマーベースの事前トレーニングモデルは、多くの自然言語処理タスクにおいて顕著なパフォーマンスを達成したが、これらのモデルは計算とメモリコストの両方で、リソース制約のあるデバイスへのデプロイメントを妨げる。
本研究では,細調整されたBERTモデルの重みを3元化するternaryBERTを提案する。
具体的には、近似ベースと損失対応のテルナライズ法の両方を用い、bertの異なる部分のテルナライズ粒度を実験的に検討する。
さらに,低ビットの低容量化による精度劣化を低減するため,学習過程における知識蒸留技術を活用した。
GLUEベンチマークとSQuAD実験の結果,提案した TernaryBERT は他のBERT量子化法よりも優れており,14.9倍の精度で完全精度のモデルと同等の性能を達成できることがわかった。
関連論文リスト
- Improving Knowledge Distillation for BERT Models: Loss Functions,
Mapping Methods, and Weight Tuning [1.1510009152620668]
本研究は, BERTモデル圧縮のための知識蒸留について検討し, 適用する。
本研究では, 損失関数を用いた実験, トランスフォーマー層マッピング法, 注意の重み付けと表現損失の調整など, 知識蒸留を改善するための様々な手法について検討する。
この研究の目的は、知識蒸留の効率性と効率を改善し、自然言語処理タスクのより効率的で正確なモデルの開発を可能にすることである。
論文 参考訳(メタデータ) (2023-08-26T20:59:21Z) - oBERTa: Improving Sparse Transfer Learning via improved initialization,
distillation, and pruning regimes [82.99830498937729]
oBERTaは自然言語処理のための使いやすい言語モデルのセットです。
NLPの実践者はモデル圧縮の専門知識なしで3.8倍から24.3倍の高速モデルを得ることができる。
代表的な7つのNLPタスクにおけるoBERTaの利用について検討する。
論文 参考訳(メタデータ) (2023-03-30T01:37:19Z) - BEBERT: Efficient and robust binary ensemble BERT [12.109371576500928]
事前訓練されたBERTモデルのバイナリ化はこの問題を軽減することができるが、完全精度のモデルに比べて精度が大幅に低下する。
精度ギャップを埋めるために,効率よく頑健なバイナリアンサンブルBERT(BEBERT)を提案する。
論文 参考訳(メタデータ) (2022-10-28T08:15:26Z) - BiBERT: Accurate Fully Binarized BERT [69.35727280997617]
BiBERTは、パフォーマンスボトルネックを取り除くために、正確に2項化されたBERTである。
提案手法は,FLOPとモデルサイズで56.3回,31.2回節約できる。
論文 参考訳(メタデータ) (2022-03-12T09:46:13Z) - Automatic Mixed-Precision Quantization Search of BERT [62.65905462141319]
BERTのような事前訓練された言語モデルは、様々な自然言語処理タスクにおいて顕著な効果を示している。
これらのモデルは通常、数百万のパラメータを含んでおり、リソースに制約のあるデバイスへの実践的なデプロイを妨げている。
本稿では,サブグループレベルでの量子化とプルーニングを同時に行うことができるBERT用に設計された混合精密量子化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-30T06:32:47Z) - BinaryBERT: Pushing the Limit of BERT Quantization [74.65543496761553]
本稿では、BERT量子化を重み二項化の限界まで押し上げるBinaryBERTを提案する。
複雑で不規則な損失環境のため,バイナリBERTは3次学習よりも直接訓練が難しいことが判明した。
実験結果から、BinaryBERT は完全精度 BERT ベースと比較して無視できる性能低下を示した。
論文 参考訳(メタデータ) (2020-12-31T16:34:54Z) - DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference [69.93692147242284]
BERTのような大規模事前訓練型言語モデルは、NLPアプリケーションに大幅な改善をもたらした。
本稿では, BERT推論を高速化するために, 単純だが効果的な手法であるDeeBERTを提案する。
実験の結果、DeeBERTはモデル品質の低下を最小限に抑えながら、最大40%の推論時間を節約できることがわかった。
論文 参考訳(メタデータ) (2020-04-27T17:58:05Z) - LadaBERT: Lightweight Adaptation of BERT through Hybrid Model
Compression [21.03685890385275]
BERTは、大きなコーパスによって事前訓練された最先端の言語表現モデルである。
BERTはメモリ集約的であり、ユーザ要求の満足のいくレイテンシにつながる。
本稿では,異なるモデル圧縮手法の利点を組み合わせたLadaBERTというハイブリッドソリューションを提案する。
論文 参考訳(メタデータ) (2020-04-08T17:18:56Z) - Towards Non-task-specific Distillation of BERT via Sentence
Representation Approximation [17.62309851473892]
本稿では,事前学習したBERTを簡単なLSTMモデルに抽出できる文表現近似指向蒸留フレームワークを提案する。
我々のモデルは,任意の文レベル下流タスクに適応するために,微調整による伝達学習を行うことができる。
GLUEベンチマークによる複数のNLPタスクの実験結果から,本手法が他のタスク固有蒸留法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-04-07T03:03:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。