論文の概要: PoWER-BERT: Accelerating BERT Inference via Progressive Word-vector
Elimination
- arxiv url: http://arxiv.org/abs/2001.08950v5
- Date: Tue, 8 Sep 2020 14:11:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-07 04:39:46.116907
- Title: PoWER-BERT: Accelerating BERT Inference via Progressive Word-vector
Elimination
- Title(参考訳): PoWER-BERT:進行語ベクトル除去によるBERT推論の高速化
- Authors: Saurabh Goyal, Anamitra R. Choudhury, Saurabh M. Raje, Venkatesan T.
Chakaravarthy, Yogish Sabharwal, Ashish Verma
- Abstract要約: 我々は,人気のあるBERTモデルの推論時間を改善するため,PoWER-BERTと呼ばれる新しい手法を開発した。
ALBERTを用いた場合,提案手法の精度は最大6.8倍に低下し,精度は1%低下した。
- 参考スコア(独自算出の注目度): 4.965114253725414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We develop a novel method, called PoWER-BERT, for improving the inference
time of the popular BERT model, while maintaining the accuracy. It works by: a)
exploiting redundancy pertaining to word-vectors (intermediate encoder outputs)
and eliminating the redundant vectors. b) determining which word-vectors to
eliminate by developing a strategy for measuring their significance, based on
the self-attention mechanism. c) learning how many word-vectors to eliminate by
augmenting the BERT model and the loss function. Experiments on the standard
GLUE benchmark shows that PoWER-BERT achieves up to 4.5x reduction in inference
time over BERT with <1% loss in accuracy. We show that PoWER-BERT offers
significantly better trade-off between accuracy and inference time compared to
prior methods. We demonstrate that our method attains up to 6.8x reduction in
inference time with <1% loss in accuracy when applied over ALBERT, a highly
compressed version of BERT. The code for PoWER-BERT is publicly available at
https://github.com/IBM/PoWER-BERT.
- Abstract(参考訳): 我々は,POWER-BERTと呼ばれる新しい手法を開発し,その精度を維持しつつ,人気のあるBERTモデルの推論時間を改善する。
動作します。
a)ワードベクトル(中間エンコーダ出力)に係る冗長性を活用し、冗長ベクトルを排除すること。
ロ 自己着脱機構に基づき、その重要性を測定する戦略を発達させることにより、どの単語ベクトルを排除すべきかを決定すること。
c)BERTモデルと損失関数を増強することにより、ワードベクターを除去する回数を学習すること。
標準GLUEベンチマークの実験では、PoWER-BERTはBERTよりも最大4.5倍の推論時間を短縮し、精度は1%低下した。
本稿では,POWER-BERTが従来の手法に比べて精度と推定時間とのトレードオフを著しく向上することを示す。
本研究では,高度に圧縮された BERT 版である ALBERT に印加した場合,最大6.8倍の精度で推定時間を削減できることを実証した。
PoWER-BERTのコードはhttps://github.com/IBM/PoWER-BERTで公開されている。
関連論文リスト
- oBERTa: Improving Sparse Transfer Learning via improved initialization,
distillation, and pruning regimes [82.99830498937729]
oBERTaは自然言語処理のための使いやすい言語モデルのセットです。
NLPの実践者はモデル圧縮の専門知識なしで3.8倍から24.3倍の高速モデルを得ることができる。
代表的な7つのNLPタスクにおけるoBERTaの利用について検討する。
論文 参考訳(メタデータ) (2023-03-30T01:37:19Z) - BEBERT: Efficient and robust binary ensemble BERT [12.109371576500928]
事前訓練されたBERTモデルのバイナリ化はこの問題を軽減することができるが、完全精度のモデルに比べて精度が大幅に低下する。
精度ギャップを埋めるために,効率よく頑健なバイナリアンサンブルBERT(BEBERT)を提案する。
論文 参考訳(メタデータ) (2022-10-28T08:15:26Z) - BiBERT: Accurate Fully Binarized BERT [69.35727280997617]
BiBERTは、パフォーマンスボトルネックを取り除くために、正確に2項化されたBERTである。
提案手法は,FLOPとモデルサイズで56.3回,31.2回節約できる。
論文 参考訳(メタデータ) (2022-03-12T09:46:13Z) - Dynamic-TinyBERT: Boost TinyBERT's Inference Efficiency by Dynamic
Sequence Length [2.8770761243361593]
TinyBERTは、BERTをより小さな変換器表現に自己蒸留することで、計算効率に対処する。
Dynamic-TinyBERTは一度だけ訓練され、BERTとオンパーで実行し、他の効率的なアプローチよりも精度の高いトレードオフを実現する。
論文 参考訳(メタデータ) (2021-11-18T11:58:19Z) - Elbert: Fast Albert with Confidence-Window Based Early Exit [8.956309416589232]
BERTのような大規模な事前訓練された言語モデルは、リソース制約やリアルタイムアプリケーションには適していない。
ELBERTは,提案した信頼ウィンドウに基づく早期出口機構により,ALBERTと比較して平均推定速度を大幅に向上させる。
論文 参考訳(メタデータ) (2021-07-01T02:02:39Z) - TR-BERT: Dynamic Token Reduction for Accelerating BERT Inference [54.791572981834435]
既存の訓練済み言語モデル(PLM)は推論において計算コストがかかることが多い。
TR-BERT と呼ばれる PLM の推論を高速化する動的トークン削減手法を提案する。
TR-BERTは、トークン削減プロセスを多段階のトークン選択問題として定式化し、強化学習を通じて選択戦略を自動的に学習する。
論文 参考訳(メタデータ) (2021-05-25T02:28:51Z) - BinaryBERT: Pushing the Limit of BERT Quantization [74.65543496761553]
本稿では、BERT量子化を重み二項化の限界まで押し上げるBinaryBERTを提案する。
複雑で不規則な損失環境のため,バイナリBERTは3次学習よりも直接訓練が難しいことが判明した。
実験結果から、BinaryBERT は完全精度 BERT ベースと比較して無視できる性能低下を示した。
論文 参考訳(メタデータ) (2020-12-31T16:34:54Z) - TernaryBERT: Distillation-aware Ultra-low Bit BERT [53.06741585060951]
本稿では,細調整されたBERTモデルの重みを3元化するternaryBERTを提案する。
GLUEベンチマークとSQuADの実験により,提案した TernaryBERT が他のBERT量子化法より優れていることが示された。
論文 参考訳(メタデータ) (2020-09-27T10:17:28Z) - DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference [69.93692147242284]
BERTのような大規模事前訓練型言語モデルは、NLPアプリケーションに大幅な改善をもたらした。
本稿では, BERT推論を高速化するために, 単純だが効果的な手法であるDeeBERTを提案する。
実験の結果、DeeBERTはモデル品質の低下を最小限に抑えながら、最大40%の推論時間を節約できることがわかった。
論文 参考訳(メタデータ) (2020-04-27T17:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。