論文の概要: SmartBERT: A Promotion of Dynamic Early Exiting Mechanism for
Accelerating BERT Inference
- arxiv url: http://arxiv.org/abs/2303.09266v2
- Date: Mon, 8 May 2023 13:05:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 20:55:21.617316
- Title: SmartBERT: A Promotion of Dynamic Early Exiting Mechanism for
Accelerating BERT Inference
- Title(参考訳): SmartBERT: BERT推論の高速化のための動的初期出力メカニズムの促進
- Authors: Boren Hu, Yun Zhu, Jiacheng Li, Siliang Tang
- Abstract要約: 本稿では,SmartBERT と呼ばれる BERT 推論のための動的早期退避と層スキップを併用した新しい動的早期退避法を提案する。
SmartBERTは、いくつかのレイヤを適応的にスキップし、終了するかどうかを適応的に選択できる。
GLUEベンチマークの8つの分類データセットについて実験を行った。
- 参考スコア(独自算出の注目度): 18.456002674399244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dynamic early exiting has been proven to improve the inference speed of the
pre-trained language model like BERT. However, all samples must go through all
consecutive layers before early exiting and more complex samples usually go
through more layers, which still exists redundant computation. In this paper,
we propose a novel dynamic early exiting combined with layer skipping for BERT
inference named SmartBERT, which adds a skipping gate and an exiting operator
into each layer of BERT. SmartBERT can adaptively skip some layers and
adaptively choose whether to exit. Besides, we propose cross-layer contrastive
learning and combine it into our training phases to boost the intermediate
layers and classifiers which would be beneficial for early exiting. To keep the
consistent usage of skipping gates between training and inference phases, we
propose a hard weight mechanism during training phase. We conduct experiments
on eight classification datasets of the GLUE benchmark. Experimental results
show that SmartBERT achieves 2-3x computation reduction with minimal accuracy
drops compared with BERT and our method outperforms previous methods in both
efficiency and accuracy. Moreover, in some complex datasets like RTE and WNLI,
we prove that the early exiting based on entropy hardly works, and the skipping
mechanism is essential for reducing computation.
- Abstract(参考訳): 動的早期終了はbertのような事前学習された言語モデルの推論速度を改善することが証明されている。
しかし、全てのサンプルは、早期に出る前に連続する全ての層を通り、より複雑なサンプルは、通常より多くの層を通り抜けなければならない。
本稿では,スイッチングゲートと出口演算子をBERTの各層に追加する,新しい動的早期退避と,BERT推論の層スキップを組み合わせたSmartBERTを提案する。
SmartBERTはいくつかのレイヤを適応的にスキップし、終了するかどうかを適応的に選択できる。
さらに,クロスレイヤのコントラスト学習を提案し,それをトレーニングフェーズに組み込むことで,早期退避に有用な中間層と分類器を増強する。
トレーニングフェーズと推論フェーズ間のスキップゲートの一貫性を維持するために,トレーニングフェーズにおけるハードウェイト機構を提案する。
GLUEベンチマークの8つの分類データセットについて実験を行った。
実験の結果, SmartBERT は BERT と比較して最小限の精度で2~3倍の計算量削減を実現し, 提案手法は効率と精度の両方で従来の手法より優れていた。
さらに、RTEやWNLIのような複雑なデータセットでは、エントロピーに基づく早期退避はほとんど機能せず、スキップ機構は計算の削減に不可欠であることを示す。
関連論文リスト
- CEEBERT: Cross-Domain Inference in Early Exit BERT [5.402030962296633]
CeeBERTは、中間層で観測されたドメイン固有の信頼度から最適な閾値を学習する。
CeeBERTは、BERT/ALBERTモデルを最小限の精度で、$2times$ -3.5times$でスピードアップすることができる。
論文 参考訳(メタデータ) (2024-05-23T20:36:10Z) - Boosting Low-Data Instance Segmentation by Unsupervised Pre-training
with Saliency Prompt [103.58323875748427]
この研究は、低データ体制のための新しい教師なし事前学習ソリューションを提供する。
近年のPrompting技術の成功に触発されて,QEISモデルを強化した新しい事前学習手法を導入する。
実験結果から,本手法は3つのデータセット上でのいくつかのQEISモデルを大幅に向上させることが示された。
論文 参考訳(メタデータ) (2023-02-02T15:49:03Z) - Pretraining Without Attention [114.99187017618408]
本研究では、状態空間モデル(SSM)に基づくシーケンスルーティングの最近の進歩を利用して、注意を払わずに事前学習を探索する。
BiGS は GLUE 上で BERT の事前トレーニング精度と一致し、近似なしで 4096 トークンの長期事前トレーニングに拡張できる。
論文 参考訳(メタデータ) (2022-12-20T18:50:08Z) - TR-BERT: Dynamic Token Reduction for Accelerating BERT Inference [54.791572981834435]
既存の訓練済み言語モデル(PLM)は推論において計算コストがかかることが多い。
TR-BERT と呼ばれる PLM の推論を高速化する動的トークン削減手法を提案する。
TR-BERTは、トークン削減プロセスを多段階のトークン選択問題として定式化し、強化学習を通じて選択戦略を自動的に学習する。
論文 参考訳(メタデータ) (2021-05-25T02:28:51Z) - Progressively Stacking 2.0: A Multi-stage Layerwise Training Method for
BERT Training Speedup [13.50984315473865]
BERTのトレーニング時間を短縮するために,効率的な多段階階層トレーニング(MSLT)手法を提案する。
提案されたトレーニング戦略では、上位層のみが後方計算に参加し、ほとんどの層は前方計算にのみ参加する。
実験結果から,提案手法は性能劣化を伴わずに110%以上のトレーニングスピードアップを達成できることが示唆された。
論文 参考訳(メタデータ) (2020-11-27T10:00:22Z) - FROST: Faster and more Robust One-shot Semi-supervised Training [0.0]
本稿では,一対一の半教師付き学習手法を提案する。
実験では、ラベルなしデータの構成が不明な場合、FROSTが良好に動作できることを実証した。
論文 参考訳(メタデータ) (2020-11-18T18:56:03Z) - TernaryBERT: Distillation-aware Ultra-low Bit BERT [53.06741585060951]
本稿では,細調整されたBERTモデルの重みを3元化するternaryBERTを提案する。
GLUEベンチマークとSQuADの実験により,提案した TernaryBERT が他のBERT量子化法より優れていることが示された。
論文 参考訳(メタデータ) (2020-09-27T10:17:28Z) - BERT Loses Patience: Fast and Robust Inference with Early Exit [91.26199404912019]
本稿では,事前学習した言語モデルの効率性と堅牢性を向上させるためのプラグイン・アンド・プレイ手法として,Patience-based Early Exitを提案する。
提案手法では,モデルを少ないレイヤで予測できるため,推論効率が向上する。
論文 参考訳(メタデータ) (2020-06-07T13:38:32Z) - DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference [69.93692147242284]
BERTのような大規模事前訓練型言語モデルは、NLPアプリケーションに大幅な改善をもたらした。
本稿では, BERT推論を高速化するために, 単純だが効果的な手法であるDeeBERTを提案する。
実験の結果、DeeBERTはモデル品質の低下を最小限に抑えながら、最大40%の推論時間を節約できることがわかった。
論文 参考訳(メタデータ) (2020-04-27T17:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。