論文の概要: TangoBERT: Reducing Inference Cost by using Cascaded Architecture
- arxiv url: http://arxiv.org/abs/2204.06271v1
- Date: Wed, 13 Apr 2022 09:45:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-14 18:58:26.686444
- Title: TangoBERT: Reducing Inference Cost by using Cascaded Architecture
- Title(参考訳): TangoBERT: カスケードアーキテクチャによる推論コストの削減
- Authors: Jonathan Mamou, Oren Pereg, Moshe Wasserblat, Roy Schwartz
- Abstract要約: ケースケードモデルアーキテクチャであるTangoBERTについて述べる。
第2階層モデルを適用するかどうかの決定は、第1階層モデルによって生成される信頼スコアに基づいて行われる。
我々はTangoBERT推論CPUの高速化を4つのテキスト分類GLUEタスクと1つの読解タスクで報告する。
- 参考スコア(独自算出の注目度): 9.496399437260678
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The remarkable success of large transformer-based models such as BERT,
RoBERTa and XLNet in many NLP tasks comes with a large increase in monetary and
environmental cost due to their high computational load and energy consumption.
In order to reduce this computational load in inference time, we present
TangoBERT, a cascaded model architecture in which instances are first processed
by an efficient but less accurate first tier model, and only part of those
instances are additionally processed by a less efficient but more accurate
second tier model. The decision of whether to apply the second tier model is
based on a confidence score produced by the first tier model. Our simple method
has several appealing practical advantages compared to standard cascading
approaches based on multi-layered transformer models. First, it enables higher
speedup gains (average lower latency). Second, it takes advantage of batch size
optimization for cascading, which increases the relative inference cost
reductions. We report TangoBERT inference CPU speedup on four text
classification GLUE tasks and on one reading comprehension task. Experimental
results show that TangoBERT outperforms efficient early exit baseline models;
on the the SST-2 task, it achieves an accuracy of 93.9% with a CPU speedup of
8.2x.
- Abstract(参考訳): 多くのNLPタスクにおいてBERT、RoBERTa、XLNetのような大きなトランスフォーマーベースモデルの顕著な成功は、高い計算負荷とエネルギー消費のために、金銭的および環境的コストの増大をもたらす。
この計算負荷を推論時間で低減するために,まず,効率が良く精度の低い第1階層モデルでインスタンスを処理し,その一部をより効率の悪い第2階層モデルで処理する,カスケードモデルアーキテクチャであるTangoBERTを提案する。
第2階層モデルを適用するかどうかの決定は、第1階層モデルによって生成される信頼スコアに基づいて行われる。
提案手法は,多層トランスモデルに基づく標準的なカスケード手法と比較して,実用上の利点がいくつかある。
まず、より高速な向上(平均レイテンシの低下)を可能にする。
第二に、カスケーディングのバッチサイズ最適化を利用して、相対的推論コストの削減を増大させる。
我々はTangoBERT推論CPUの高速化を4つのテキスト分類GLUEタスクと1つの読解タスクで報告する。
実験の結果、TangoBERTは効率的な早期出口ベースラインモデルより優れており、SST-2タスクではCPU速度8.2倍の精度で93.9%の精度を実現している。
関連論文リスト
- Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Gradient-Free Structured Pruning with Unlabeled Data [57.999191898036706]
ラベルのないデータのみを使用する勾配のない構造化プルーニングフレームワークを提案する。
元々のFLOPカウントの最大40%は、考慮されたすべてのタスクで4%未満の精度で削減できる。
論文 参考訳(メタデータ) (2023-03-07T19:12:31Z) - QuaLA-MiniLM: a Quantized Length Adaptive MiniLM [5.36703735486629]
限られた計算予算は、トランスフォーマーを生産に使用せず、高い精度で使用することを防ぐことが多い。
知識蒸留法では、BERTを自己蒸留して、より少ない層と少ない内部埋め込みを持つより小さな変換器表現に変換することにより、計算効率に対処する。
Dynamic-TinyBERTは、Longth Adaptive Transformer (LAT) 技術をTinyBERTに部分的に実装し、最小限の精度でBERTベース上でx3スピードアップする。
我々は,LAT法と併用してMiniLM蒸留を行い,低ビット量子化を適用して効率をさらに高めている。
論文 参考訳(メタデータ) (2022-10-31T07:42:52Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - Dynamic-TinyBERT: Boost TinyBERT's Inference Efficiency by Dynamic
Sequence Length [2.8770761243361593]
TinyBERTは、BERTをより小さな変換器表現に自己蒸留することで、計算効率に対処する。
Dynamic-TinyBERTは一度だけ訓練され、BERTとオンパーで実行し、他の効率的なアプローチよりも精度の高いトレードオフを実現する。
論文 参考訳(メタデータ) (2021-11-18T11:58:19Z) - Deploying a BERT-based Query-Title Relevance Classifier in a Production
System: a View from the Trenches [3.1219977244201056]
変換器(BERT)モデルによる双方向表現は,多くの自然言語処理(NLP)タスクの性能を大幅に向上させてきた。
BERTを低レイテンシ、高スループットの産業用ユースケースにスケールすることは、その巨大なサイズのために困難である。
BERT Bidirectional Long Short-Term Memory (BertBiLSTM) という名前のコンパクトモデルによるデプロイメントのためのQTR分類器の最適化に成功した。
BertBiLSTMは、上記の実世界の生産作業における精度と効率の観点から、既成のBERTモデルの性能を上回る
論文 参考訳(メタデータ) (2021-08-23T14:28:23Z) - Real-Time Execution of Large-scale Language Models on Mobile [49.32610509282623]
BERTの最良のモデル構造は,特定のデバイスに適合する計算サイズである。
我々のフレームワークは、モバイルデバイスのリソース仕様とリアルタイム仕様の両方を満たすための特定モデルを保証することができる。
具体的には、当社のモデルはCPUでは5.2倍、GPUでは4.1倍、BERTベースでは0.5-2%の精度損失がある。
論文 参考訳(メタデータ) (2020-09-15T01:59:17Z) - DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference [69.93692147242284]
BERTのような大規模事前訓練型言語モデルは、NLPアプリケーションに大幅な改善をもたらした。
本稿では, BERT推論を高速化するために, 単純だが効果的な手法であるDeeBERTを提案する。
実験の結果、DeeBERTはモデル品質の低下を最小限に抑えながら、最大40%の推論時間を節約できることがわかった。
論文 参考訳(メタデータ) (2020-04-27T17:58:05Z) - The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。
我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。
3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文 参考訳(メタデータ) (2020-04-16T04:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。