論文の概要: RomeBERT: Robust Training of Multi-Exit BERT
- arxiv url: http://arxiv.org/abs/2101.09755v1
- Date: Sun, 24 Jan 2021 17:03:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-16 09:15:06.146353
- Title: RomeBERT: Robust Training of Multi-Exit BERT
- Title(参考訳): RomeBERT:マルチExit BERTのロバストトレーニング
- Authors: Shijie Geng, Peng Gao, Zuohui Fu, Yongfeng Zhang
- Abstract要約: BERTは自然言語理解(NLU)タスクで優れたパフォーマンスを達成しました。
加速のため, BERT (DeeBERT) の動的早期出力が最近提案されている。
本論文では,マルチエクジットBERT(RomeBERT)のロバストトレーニングにグラデーション正規化自己蒸留を活用する。
- 参考スコア(独自算出の注目度): 32.127811423380194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: BERT has achieved superior performances on Natural Language Understanding
(NLU) tasks. However, BERT possesses a large number of parameters and demands
certain resources to deploy. For acceleration, Dynamic Early Exiting for BERT
(DeeBERT) has been proposed recently, which incorporates multiple exits and
adopts a dynamic early-exit mechanism to ensure efficient inference. While
obtaining an efficiency-performance tradeoff, the performances of early exits
in multi-exit BERT are significantly worse than late exits. In this paper, we
leverage gradient regularized self-distillation for RObust training of
Multi-Exit BERT (RomeBERT), which can effectively solve the performance
imbalance problem between early and late exits. Moreover, the proposed RomeBERT
adopts a one-stage joint training strategy for multi-exits and the BERT
backbone while DeeBERT needs two stages that require more training time.
Extensive experiments on GLUE datasets are performed to demonstrate the
superiority of our approach. Our code is available at
https://github.com/romebert/RomeBERT.
- Abstract(参考訳): BERTは自然言語理解(NLU)タスクで優れたパフォーマンスを達成しました。
しかしBERTは多くのパラメータを持ち、特定のリソースをデプロイする必要がある。
加速のために、BERT(DeeBERT)のダイナミックアーリーエグジット(Dynamic Early Exiting for BERT)が最近提案され、複数のエグジットを組み込んで、効率的な推論を確保するために動的アーリーエグジットメカニズムを採用しています。
効率の良いトレードオフを得る一方で、マルチエグゼクティブBERTの早期出口の性能は後期出口よりも著しく低下する。
本稿では,マルチエクイットBERT(RomeBERT)のRObustトレーニングにおける勾配正規化自己蒸留を利用して,早期出口と後期出口の性能不均衡を効果的に解決する。
さらに、提案されたRomBERTはマルチエグゼクティブとBERTバックボーンのための1段階のジョイントトレーニング戦略を採用しており、DeeBERTにはより多くのトレーニング時間を必要とする2つのステージが必要である。
GLUEデータセットの広範な実験は、私たちのアプローチの優位性を示すために行われます。
私たちのコードはhttps://github.com/romebert/romebertで利用可能です。
関連論文リスト
- SmartBERT: A Promotion of Dynamic Early Exiting Mechanism for
Accelerating BERT Inference [18.456002674399244]
本稿では,SmartBERT と呼ばれる BERT 推論のための動的早期退避と層スキップを併用した新しい動的早期退避法を提案する。
SmartBERTは、いくつかのレイヤを適応的にスキップし、終了するかどうかを適応的に選択できる。
GLUEベンチマークの8つの分類データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-03-16T12:44:16Z) - BiBERT: Accurate Fully Binarized BERT [69.35727280997617]
BiBERTは、パフォーマンスボトルネックを取り除くために、正確に2項化されたBERTである。
提案手法は,FLOPとモデルサイズで56.3回,31.2回節約できる。
論文 参考訳(メタデータ) (2022-03-12T09:46:13Z) - BERTGEN: Multi-task Generation through BERT [30.905286823599976]
本稿では,マルチモーダルモデルと多言語事前学習モデルとを融合させることにより,BERTを拡張した新規なデコーダ専用モデルであるBERTGENを提案する。
総合的な評価によって、BERTGENは探索されたタスク全体で多くの強いベースラインを上回ります。
また、BERTGENのゼロショット言語生成能力を示すとともに、教師付き言語と競合する性能を示す。
論文 参考訳(メタデータ) (2021-06-07T10:17:45Z) - TR-BERT: Dynamic Token Reduction for Accelerating BERT Inference [54.791572981834435]
既存の訓練済み言語モデル(PLM)は推論において計算コストがかかることが多い。
TR-BERT と呼ばれる PLM の推論を高速化する動的トークン削減手法を提案する。
TR-BERTは、トークン削減プロセスを多段階のトークン選択問題として定式化し、強化学習を通じて選択戦略を自動的に学習する。
論文 参考訳(メタデータ) (2021-05-25T02:28:51Z) - CoRe: An Efficient Coarse-refined Training Framework for BERT [17.977099111813644]
本稿では,BERT のトレーニングを高速化するために,CoRe という新たな粗調整トレーニングフレームワークを提案する。
第1フェーズでは、元のBERTよりもはるかに少ないパラメータとモデル複雑さを持つ緩和されたBERTモデルを構築した。
第2段階では、訓練された緩和されたBERTモデルを元のBERTに変換し、さらにモデルを再訓練する。
論文 参考訳(メタデータ) (2020-11-27T09:49:37Z) - TernaryBERT: Distillation-aware Ultra-low Bit BERT [53.06741585060951]
本稿では,細調整されたBERTモデルの重みを3元化するternaryBERTを提案する。
GLUEベンチマークとSQuADの実験により,提案した TernaryBERT が他のBERT量子化法より優れていることが示された。
論文 参考訳(メタデータ) (2020-09-27T10:17:28Z) - DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference [69.93692147242284]
BERTのような大規模事前訓練型言語モデルは、NLPアプリケーションに大幅な改善をもたらした。
本稿では, BERT推論を高速化するために, 単純だが効果的な手法であるDeeBERTを提案する。
実験の結果、DeeBERTはモデル品質の低下を最小限に抑えながら、最大40%の推論時間を節約できることがわかった。
論文 参考訳(メタデータ) (2020-04-27T17:58:05Z) - DynaBERT: Dynamic BERT with Adaptive Width and Depth [55.18269622415814]
我々は新しい動的BERTモデル(DynaBERTと略される)を提案する。
適応的な幅と深さを選択することで、サイズとレイテンシを柔軟に調整できる。
既存のBERT圧縮手法よりずっと優れています。
論文 参考訳(メタデータ) (2020-04-08T15:06:28Z) - TwinBERT: Distilling Knowledge to Twin-Structured BERT Models for
Efficient Retrieval [11.923682816611716]
本稿では,効率的な検索のためのTwinBERTモデルを提案する。
クエリとドキュメントをそれぞれ表現するBERTライクなエンコーダがツイン構造化されている。
ドキュメントの埋め込みはオフラインでプリコンパイルされ、メモリにキャッシュされる。
論文 参考訳(メタデータ) (2020-02-14T22:44:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。