論文の概要: DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference
- arxiv url: http://arxiv.org/abs/2004.12993v1
- Date: Mon, 27 Apr 2020 17:58:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 04:27:27.011946
- Title: DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference
- Title(参考訳): DeeBERT: BERT推論の高速化のための動的早期実行
- Authors: Ji Xin, Raphael Tang, Jaejun Lee, Yaoliang Yu, Jimmy Lin
- Abstract要約: BERTのような大規模事前訓練型言語モデルは、NLPアプリケーションに大幅な改善をもたらした。
本稿では, BERT推論を高速化するために, 単純だが効果的な手法であるDeeBERTを提案する。
実験の結果、DeeBERTはモデル品質の低下を最小限に抑えながら、最大40%の推論時間を節約できることがわかった。
- 参考スコア(独自算出の注目度): 69.93692147242284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale pre-trained language models such as BERT have brought significant
improvements to NLP applications. However, they are also notorious for being
slow in inference, which makes them difficult to deploy in real-time
applications. We propose a simple but effective method, DeeBERT, to accelerate
BERT inference. Our approach allows samples to exit earlier without passing
through the entire model. Experiments show that DeeBERT is able to save up to
~40% inference time with minimal degradation in model quality. Further analyses
show different behaviors in the BERT transformer layers and also reveal their
redundancy. Our work provides new ideas to efficiently apply deep
transformer-based models to downstream tasks. Code is available at
https://github.com/castorini/DeeBERT.
- Abstract(参考訳): BERTのような大規模事前訓練型言語モデルは、NLPアプリケーションに大幅な改善をもたらした。
しかし、それらは推論が遅いことで悪名高いため、リアルタイムアプリケーションへのデプロイが難しい。
本稿では, BERT推論を高速化するために, 単純だが効果的なDeeBERTを提案する。
当社のアプローチでは,モデル全体を通過することなく,サンプルを早期に終了することが可能です。
実験の結果、DeeBERTはモデル品質の低下を最小限に抑えながら、最大40%の推論時間を節約できることがわかった。
さらに,BERT変圧器層に異なる挙動を示すとともに,その冗長性を明らかにする。
我々の研究は、下流タスクにディープトランスフォーマティブベースのモデルを効率的に適用するための新しいアイデアを提供します。
コードはhttps://github.com/castorini/DeeBERT.comで入手できる。
関連論文リスト
- CEEBERT: Cross-Domain Inference in Early Exit BERT [5.402030962296633]
CeeBERTは、中間層で観測されたドメイン固有の信頼度から最適な閾値を学習する。
CeeBERTは、BERT/ALBERTモデルを最小限の精度で、$2times$ -3.5times$でスピードアップすることができる。
論文 参考訳(メタデータ) (2024-05-23T20:36:10Z) - oBERTa: Improving Sparse Transfer Learning via improved initialization,
distillation, and pruning regimes [82.99830498937729]
oBERTaは自然言語処理のための使いやすい言語モデルのセットです。
NLPの実践者はモデル圧縮の専門知識なしで3.8倍から24.3倍の高速モデルを得ることができる。
代表的な7つのNLPタスクにおけるoBERTaの利用について検討する。
論文 参考訳(メタデータ) (2023-03-30T01:37:19Z) - SmartBERT: A Promotion of Dynamic Early Exiting Mechanism for
Accelerating BERT Inference [18.456002674399244]
本稿では,SmartBERT と呼ばれる BERT 推論のための動的早期退避と層スキップを併用した新しい動的早期退避法を提案する。
SmartBERTは、いくつかのレイヤを適応的にスキップし、終了するかどうかを適応的に選択できる。
GLUEベンチマークの8つの分類データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-03-16T12:44:16Z) - NarrowBERT: Accelerating Masked Language Model Pretraining and Inference [50.59811343945605]
そこで我々はNarrowBERTを提案する。NarrowBERTは改良されたトランスフォーマーエンコーダで、マスク付き言語モデルのプリトレーニングのスループットを2ドル以上の値で向上させる。
NarrowBERTは、自己アテンションクエリとフィードフォワード層が事前トレーニング中に各文のマスク付きトークンでのみ動作するように、トランスフォーマーモデルをスペーサー化する。
NarrowBERTは、MNLIのような文符号化タスクにおいて、最小(またはノー)のパフォーマンス劣化を伴って、$3.5times$で推論時にスループットを向上することを示す。
論文 参考訳(メタデータ) (2023-01-11T23:45:50Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - TR-BERT: Dynamic Token Reduction for Accelerating BERT Inference [54.791572981834435]
既存の訓練済み言語モデル(PLM)は推論において計算コストがかかることが多い。
TR-BERT と呼ばれる PLM の推論を高速化する動的トークン削減手法を提案する。
TR-BERTは、トークン削減プロセスを多段階のトークン選択問題として定式化し、強化学習を通じて選択戦略を自動的に学習する。
論文 参考訳(メタデータ) (2021-05-25T02:28:51Z) - RomeBERT: Robust Training of Multi-Exit BERT [32.127811423380194]
BERTは自然言語理解(NLU)タスクで優れたパフォーマンスを達成しました。
加速のため, BERT (DeeBERT) の動的早期出力が最近提案されている。
本論文では,マルチエクジットBERT(RomeBERT)のロバストトレーニングにグラデーション正規化自己蒸留を活用する。
論文 参考訳(メタデータ) (2021-01-24T17:03:57Z) - TernaryBERT: Distillation-aware Ultra-low Bit BERT [53.06741585060951]
本稿では,細調整されたBERTモデルの重みを3元化するternaryBERTを提案する。
GLUEベンチマークとSQuADの実験により,提案した TernaryBERT が他のBERT量子化法より優れていることが示された。
論文 参考訳(メタデータ) (2020-09-27T10:17:28Z) - TwinBERT: Distilling Knowledge to Twin-Structured BERT Models for
Efficient Retrieval [11.923682816611716]
本稿では,効率的な検索のためのTwinBERTモデルを提案する。
クエリとドキュメントをそれぞれ表現するBERTライクなエンコーダがツイン構造化されている。
ドキュメントの埋め込みはオフラインでプリコンパイルされ、メモリにキャッシュされる。
論文 参考訳(メタデータ) (2020-02-14T22:44:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。