論文の概要: TR-BERT: Dynamic Token Reduction for Accelerating BERT Inference
- arxiv url: http://arxiv.org/abs/2105.11618v1
- Date: Tue, 25 May 2021 02:28:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-26 14:16:40.830312
- Title: TR-BERT: Dynamic Token Reduction for Accelerating BERT Inference
- Title(参考訳): TR-BERT: BERT推論高速化のための動的トークン削減
- Authors: Deming Ye, Yankai Lin, Yufei Huang, Maosong Sun
- Abstract要約: 既存の訓練済み言語モデル(PLM)は推論において計算コストがかかることが多い。
TR-BERT と呼ばれる PLM の推論を高速化する動的トークン削減手法を提案する。
TR-BERTは、トークン削減プロセスを多段階のトークン選択問題として定式化し、強化学習を通じて選択戦略を自動的に学習する。
- 参考スコア(独自算出の注目度): 54.791572981834435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing pre-trained language models (PLMs) are often computationally
expensive in inference, making them impractical in various resource-limited
real-world applications. To address this issue, we propose a dynamic token
reduction approach to accelerate PLMs' inference, named TR-BERT, which could
flexibly adapt the layer number of each token in inference to avoid redundant
calculation. Specially, TR-BERT formulates the token reduction process as a
multi-step token selection problem and automatically learns the selection
strategy via reinforcement learning. The experimental results on several
downstream NLP tasks show that TR-BERT is able to speed up BERT by 2-5 times to
satisfy various performance demands. Moreover, TR-BERT can also achieve better
performance with less computation in a suite of long-text tasks since its
token-level layer number adaption greatly accelerates the self-attention
operation in PLMs. The source code and experiment details of this paper can be
obtained from https://github.com/thunlp/TR-BERT.
- Abstract(参考訳): 既存の訓練済み言語モデル(PLM)は推論において計算コストがかかり、様々なリソース制限された現実世界のアプリケーションでは実用的ではない。
この問題に対処するため,我々は,冗長な計算を避けるために,各トークンの層数を柔軟に適応できるtr-bertと呼ばれるplmsの推論を高速化する動的トークン削減手法を提案する。
特に、TR-BERTは、トークン削減プロセスを多段階のトークン選択問題として定式化し、強化学習を通じて選択戦略を自動的に学習する。
下流NLPタスクの実験結果から,TR-BERTはBERTを2~5倍高速化し,様々な性能要求を満たすことができた。
さらに、TR-BERTはトークンレベルの層数適応によってPLMの自己注意操作が大幅に高速化されるため、長いテキストタスクの組において、より少ない計算でより良いパフォーマンスを実現することができる。
本論文のソースコードと実験の詳細はhttps://github.com/thunlp/TR-BERT.comから入手できる。
関連論文リスト
- CEEBERT: Cross-Domain Inference in Early Exit BERT [5.402030962296633]
CeeBERTは、中間層で観測されたドメイン固有の信頼度から最適な閾値を学習する。
CeeBERTは、BERT/ALBERTモデルを最小限の精度で、$2times$ -3.5times$でスピードアップすることができる。
論文 参考訳(メタデータ) (2024-05-23T20:36:10Z) - MADTP: Multimodal Alignment-Guided Dynamic Token Pruning for
Accelerating Vision-Language Transformer [66.71930982549028]
VLT(Vision-Language Transformer)は近年大きな成功を収めている。
各種VLTの高速化を目的としたマルチモーダルアライメント誘導動的トーケンプルーニング(MADTP)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-05T14:13:50Z) - Multimodal Learned Sparse Retrieval with Probabilistic Expansion Control [66.78146440275093]
学習検索(LSR)は、クエリとドキュメントを疎語彙ベクトルにエンコードするニューラルネットワークのファミリーである。
テキスト画像検索に焦点をあて,マルチモーダル領域へのLSRの適用について検討する。
LexLIPやSTAIRのような現在のアプローチでは、大規模なデータセットで複雑なマルチステップのトレーニングが必要です。
提案手法は, 密度ベクトルを凍結密度モデルからスパース語彙ベクトルへ効率的に変換する。
論文 参考訳(メタデータ) (2024-02-27T14:21:56Z) - Breaking the Token Barrier: Chunking and Convolution for Efficient Long
Text Classification with BERT [0.0]
変換器ベースのモデル、特にBERTは様々なNLPタスクの研究を推進している。
BERTモデルは512トークンの最大トークン制限に制限されているため、長い入力で実際に適用するのは簡単ではない。
本稿では,任意の事前学習したモデルを任意に長文で推論できるような,比較的単純なBanilla BERTアーキテクチャであるChunkBERTを提案する。
論文 参考訳(メタデータ) (2023-10-31T15:41:08Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - SmartBERT: A Promotion of Dynamic Early Exiting Mechanism for
Accelerating BERT Inference [18.456002674399244]
本稿では,SmartBERT と呼ばれる BERT 推論のための動的早期退避と層スキップを併用した新しい動的早期退避法を提案する。
SmartBERTは、いくつかのレイヤを適応的にスキップし、終了するかどうかを適応的に選択できる。
GLUEベンチマークの8つの分類データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-03-16T12:44:16Z) - Dynamic-TinyBERT: Boost TinyBERT's Inference Efficiency by Dynamic
Sequence Length [2.8770761243361593]
TinyBERTは、BERTをより小さな変換器表現に自己蒸留することで、計算効率に対処する。
Dynamic-TinyBERTは一度だけ訓練され、BERTとオンパーで実行し、他の効率的なアプローチよりも精度の高いトレードオフを実現する。
論文 参考訳(メタデータ) (2021-11-18T11:58:19Z) - Learning to Ask Conversational Questions by Optimizing Levenshtein
Distance [83.53855889592734]
明示的な編集動作によって最小レベンシュテイン距離(MLD)を最適化する強化反復シーケンス編集(RISE)フレームワークを導入する。
RISEは会話の特徴に関連するトークンに注意を払うことができる。
2つのベンチマークデータセットの実験結果から、RISEは最先端の手法を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2021-06-30T08:44:19Z) - DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference [69.93692147242284]
BERTのような大規模事前訓練型言語モデルは、NLPアプリケーションに大幅な改善をもたらした。
本稿では, BERT推論を高速化するために, 単純だが効果的な手法であるDeeBERTを提案する。
実験の結果、DeeBERTはモデル品質の低下を最小限に抑えながら、最大40%の推論時間を節約できることがわかった。
論文 参考訳(メタデータ) (2020-04-27T17:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。