論文の概要: Real-Time Execution of Large-scale Language Models on Mobile
- arxiv url: http://arxiv.org/abs/2009.06823v2
- Date: Thu, 22 Oct 2020 17:53:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 05:32:24.581495
- Title: Real-Time Execution of Large-scale Language Models on Mobile
- Title(参考訳): モバイルにおける大規模言語モデルのリアルタイム実行
- Authors: Wei Niu, Zhenglun Kong, Geng Yuan, Weiwen Jiang, Jiexiong Guan, Caiwen
Ding, Pu Zhao, Sijia Liu, Bin Ren, Yanzhi Wang
- Abstract要約: BERTの最良のモデル構造は,特定のデバイスに適合する計算サイズである。
我々のフレームワークは、モバイルデバイスのリソース仕様とリアルタイム仕様の両方を満たすための特定モデルを保証することができる。
具体的には、当社のモデルはCPUでは5.2倍、GPUでは4.1倍、BERTベースでは0.5-2%の精度損失がある。
- 参考スコア(独自算出の注目度): 49.32610509282623
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained large-scale language models have increasingly demonstrated high
accuracy on many natural language processing (NLP) tasks. However, the limited
weight storage and computational speed on hardware platforms have impeded the
popularity of pre-trained models, especially in the era of edge computing. In
this paper, we seek to find the best model structure of BERT for a given
computation size to match specific devices. We propose the first compiler-aware
neural architecture optimization framework. Our framework can guarantee the
identified model to meet both resource and real-time specifications of mobile
devices, thus achieving real-time execution of large transformer-based models
like BERT variants. We evaluate our model on several NLP tasks, achieving
competitive results on well-known benchmarks with lower latency on mobile
devices. Specifically, our model is 5.2x faster on CPU and 4.1x faster on GPU
with 0.5-2% accuracy loss compared with BERT-base. Our overall framework
achieves up to 7.8x speedup compared with TensorFlow-Lite with only minor
accuracy loss.
- Abstract(参考訳): 事前訓練された大規模言語モデルは、多くの自然言語処理(NLP)タスクにおいて高い精度を証明している。
しかし、ハードウェアプラットフォームの重量ストレージと計算速度の制限は、特にエッジコンピューティングの時代において、事前訓練されたモデルの人気を妨げている。
本稿では,特定のデバイスに適合する計算サイズに対して,BERTの最良のモデル構造を求める。
本稿では,最初のコンパイラアウェアニューラルアーキテクチャ最適化フレームワークを提案する。
当社のフレームワークは,モバイルデバイスのリソースおよびリアルタイム仕様に適合する特定モデルを保証し,BERT変種のような大規模トランスフォーマーモデルの実行をリアルタイムに行う。
我々は,モバイル端末上でのレイテンシの低いよく知られたベンチマークにおいて,複数のNLPタスクでモデルを評価し,競合する結果を得た。
具体的には、cpuの5.2倍、gpuの4.1倍、bertベースに比べて0.5-2%の精度損失がある。
全体的なフレームワークはTensorFlow-Liteと比較して7.8倍のスピードアップを実現しています。
関連論文リスト
- Quantized Transformer Language Model Implementations on Edge Devices [1.2979415757860164]
Bidirectional Representations from Transformers (BERT) のような大規模なトランスフォーマーベースモデルは自然言語処理(NLP)アプリケーションに広く利用されている。
これらのモデルは最初、数百万のパラメータを持つ大きなコーパスで事前訓練され、下流のNLPタスクのために微調整される。
これらの大規模モデルの大きな制限の1つは、大きなモデルサイズと推論遅延の増加のため、リソース制限されたデバイスにデプロイできないことである。
論文 参考訳(メタデータ) (2023-10-06T01:59:19Z) - Speculative Decoding with Big Little Decoder [108.95187338417541]
Big Little Decoder (BiLD) は、幅広いテキスト生成アプリケーションの推論効率と遅延を改善するフレームワークである。
NVIDIA T4 GPUでは、当社のフレームワークは最大2.12倍の高速化を実現し、生成品質の最小化を実現している。
私たちのフレームワークは完全にプラグアンドプレイで、トレーニングプロセスやモデルアーキテクチャの変更なしに適用できます。
論文 参考訳(メタデータ) (2023-02-15T18:55:29Z) - Accelerating Deep Learning Model Inference on Arm CPUs with Ultra-Low
Bit Quantization and Runtime [57.5143536744084]
ディープラーニングモデルの高性能化は、高い計算、ストレージ、電力要求を犠牲にしている。
我々はDeplite Neutrinoを導入し、DepliteはArmベースのプラットフォームに超低ビット量子化モデルを展開する。
論文 参考訳(メタデータ) (2022-07-18T15:05:17Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - A Compression-Compilation Framework for On-mobile Real-time BERT
Applications [36.54139770775837]
トランスフォーマーベースのディープラーニングモデルは、多くの自然言語処理(NLP)タスクにおいて高い精度を証明している。
本稿では,モバイルデバイスのリソースおよびリアルタイム仕様に適合する特定モデルを保証できる圧縮コンパイル協調設計フレームワークを提案する。
本稿では,質問応答 (QA) とテキスト生成 (テキスト生成) の2種類のBERTアプリケーションについて述べる。
論文 参考訳(メタデータ) (2021-05-30T16:19:11Z) - Paraphrastic Representations at Scale [134.41025103489224]
私たちは、英語、アラビア語、ドイツ語、フランス語、スペイン語、ロシア語、トルコ語、中国語の訓練されたモデルをリリースします。
我々はこれらのモデルを大量のデータでトレーニングし、元の論文から大幅に性能を向上した。
論文 参考訳(メタデータ) (2021-04-30T16:55:28Z) - It's always personal: Using Early Exits for Efficient On-Device CNN
Personalisation [19.046126301352274]
強力なハードウェアとモデル圧縮技術が利用可能になったことにより、デバイス上での機械学習が現実化しつつある。
本研究では、より小さなパーソナライズされたモデルを用いて特定のシナリオに適合させることを観察する。
PershonEPEEは、初期出口をモデルにアタッチし、デバイス上でパーソナライズするフレームワークである。
論文 参考訳(メタデータ) (2021-02-02T09:10:17Z) - Efficient Transformer-based Large Scale Language Representations using
Hardware-friendly Block Structured Pruning [12.761055946548437]
ハードウェアフレンドリーなブロック構造プルーニングを用いた,効率的なトランスフォーマーに基づく大規模言語表現を提案する。
重み付けと計算の大幅な削減に加えて,提案手法は高い圧縮率を達成する。
リソース制約のあるエッジデバイスに最終的な圧縮モデルを展開するのに適している。
論文 参考訳(メタデータ) (2020-09-17T04:45:47Z) - Finding Fast Transformers: One-Shot Neural Architecture Search by
Component Composition [11.6409723227448]
トランスフォーマーベースのモデルは、自然言語処理における多くのタスクにおいて最先端の結果を得た。
モデル品質を維持しつつ,高速なモデル探索を行うアルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-08-15T23:12:25Z) - The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。
我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。
3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文 参考訳(メタデータ) (2020-04-16T04:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。