論文の概要: Dynamic-TinyBERT: Boost TinyBERT's Inference Efficiency by Dynamic
Sequence Length
- arxiv url: http://arxiv.org/abs/2111.09645v1
- Date: Thu, 18 Nov 2021 11:58:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-19 13:19:21.438578
- Title: Dynamic-TinyBERT: Boost TinyBERT's Inference Efficiency by Dynamic
Sequence Length
- Title(参考訳): 動的TinyBERT:動的シーケンス長によるTinyBERTの推論効率の向上
- Authors: Shira Guskin, Moshe Wasserblat, Ke Ding, Gyuwan Kim
- Abstract要約: TinyBERTは、BERTをより小さな変換器表現に自己蒸留することで、計算効率に対処する。
Dynamic-TinyBERTは一度だけ訓練され、BERTとオンパーで実行し、他の効率的なアプローチよりも精度の高いトレードオフを実現する。
- 参考スコア(独自算出の注目度): 2.8770761243361593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Limited computational budgets often prevent transformers from being used in
production and from having their high accuracy utilized. TinyBERT addresses the
computational efficiency by self-distilling BERT into a smaller transformer
representation having fewer layers and smaller internal embedding. However,
TinyBERT's performance drops when we reduce the number of layers by 50%, and
drops even more abruptly when we reduce the number of layers by 75% for
advanced NLP tasks such as span question answering. Additionally, a separate
model must be trained for each inference scenario with its distinct
computational budget. In this work we present Dynamic-TinyBERT, a TinyBERT
model that utilizes sequence-length reduction and Hyperparameter Optimization
for enhanced inference efficiency per any computational budget.
Dynamic-TinyBERT is trained only once, performing on-par with BERT and
achieving an accuracy-speedup trade-off superior to any other efficient
approaches (up to 3.3x with <1% loss-drop). Upon publication, the code to
reproduce our work will be open-sourced.
- Abstract(参考訳): 限られた計算予算は、しばしば変圧器が生産に使用され、高い精度で使用されることを妨げている。
TinyBERTは、BERTを自己蒸留することで計算効率を、より少ない層と少ない内部埋め込みを持つより小さな変換器表現に変換する。
しかし、TinyBERTの性能は、レイヤ数を50%減らせば低下し、スパン質問応答のような高度なNLPタスクでは、レイヤ数を75%減らせば、さらに突然低下する。
さらに、異なる計算予算を持つ推論シナリオごとに、別のモデルを訓練する必要がある。
本稿では,任意の計算予算における推論効率の向上のために,シーケンス長削減とハイパーパラメータ最適化を利用するTinyBERTモデルであるDynamic-TinyBERTを提案する。
Dynamic-TinyBERTは1回だけ訓練され、BERTでオンパーを行い、他の効率的なアプローチ(最大3.3倍のロスドロップ)よりも精度の高いスピードアップトレードオフを達成する。
公開後、我々の作品を再現するコードはオープンソース化される。
関連論文リスト
- Sensi-BERT: Towards Sensitivity Driven Fine-Tuning for
Parameter-Efficient BERT [6.029590006321152]
本稿では、下流タスクのための感度駆動効率の良いBERTモデルの微調整であるSensi-BERTを提案する。
実験の結果,MNLI,QQP,QNLI,SST-2,SQuADなどの下流タスクに対するSensi-BERTの有効性が示された。
論文 参考訳(メタデータ) (2023-07-14T17:24:15Z) - oBERTa: Improving Sparse Transfer Learning via improved initialization,
distillation, and pruning regimes [82.99830498937729]
oBERTaは自然言語処理のための使いやすい言語モデルのセットです。
NLPの実践者はモデル圧縮の専門知識なしで3.8倍から24.3倍の高速モデルを得ることができる。
代表的な7つのNLPタスクにおけるoBERTaの利用について検討する。
論文 参考訳(メタデータ) (2023-03-30T01:37:19Z) - Gradient-Free Structured Pruning with Unlabeled Data [57.999191898036706]
ラベルのないデータのみを使用する勾配のない構造化プルーニングフレームワークを提案する。
元々のFLOPカウントの最大40%は、考慮されたすべてのタスクで4%未満の精度で削減できる。
論文 参考訳(メタデータ) (2023-03-07T19:12:31Z) - QuaLA-MiniLM: a Quantized Length Adaptive MiniLM [5.36703735486629]
限られた計算予算は、トランスフォーマーを生産に使用せず、高い精度で使用することを防ぐことが多い。
知識蒸留法では、BERTを自己蒸留して、より少ない層と少ない内部埋め込みを持つより小さな変換器表現に変換することにより、計算効率に対処する。
Dynamic-TinyBERTは、Longth Adaptive Transformer (LAT) 技術をTinyBERTに部分的に実装し、最小限の精度でBERTベース上でx3スピードアップする。
我々は,LAT法と併用してMiniLM蒸留を行い,低ビット量子化を適用して効率をさらに高めている。
論文 参考訳(メタデータ) (2022-10-31T07:42:52Z) - TangoBERT: Reducing Inference Cost by using Cascaded Architecture [9.496399437260678]
ケースケードモデルアーキテクチャであるTangoBERTについて述べる。
第2階層モデルを適用するかどうかの決定は、第1階層モデルによって生成される信頼スコアに基づいて行われる。
我々はTangoBERT推論CPUの高速化を4つのテキスト分類GLUEタスクと1つの読解タスクで報告する。
論文 参考訳(メタデータ) (2022-04-13T09:45:08Z) - TR-BERT: Dynamic Token Reduction for Accelerating BERT Inference [54.791572981834435]
既存の訓練済み言語モデル(PLM)は推論において計算コストがかかることが多い。
TR-BERT と呼ばれる PLM の推論を高速化する動的トークン削減手法を提案する。
TR-BERTは、トークン削減プロセスを多段階のトークン選択問題として定式化し、強化学習を通じて選択戦略を自動的に学習する。
論文 参考訳(メタデータ) (2021-05-25T02:28:51Z) - I-BERT: Integer-only BERT Quantization [78.43819756382103]
トランスフォーマーモデルのための新しい量子化手法であるI-BERTを提案する。
I-BERTは浮動小数点演算なしでエンドツーエンドの整数のみのBERT推論を実行する。
いずれの場合も,I-BERTは全精度ベースラインと同等(かつ若干高い)精度が得られた。
論文 参考訳(メタデータ) (2021-01-05T02:42:58Z) - TernaryBERT: Distillation-aware Ultra-low Bit BERT [53.06741585060951]
本稿では,細調整されたBERTモデルの重みを3元化するternaryBERTを提案する。
GLUEベンチマークとSQuADの実験により,提案した TernaryBERT が他のBERT量子化法より優れていることが示された。
論文 参考訳(メタデータ) (2020-09-27T10:17:28Z) - DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference [69.93692147242284]
BERTのような大規模事前訓練型言語モデルは、NLPアプリケーションに大幅な改善をもたらした。
本稿では, BERT推論を高速化するために, 単純だが効果的な手法であるDeeBERTを提案する。
実験の結果、DeeBERTはモデル品質の低下を最小限に抑えながら、最大40%の推論時間を節約できることがわかった。
論文 参考訳(メタデータ) (2020-04-27T17:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。