論文の概要: A Compression-Compilation Framework for On-mobile Real-time BERT
Applications
- arxiv url: http://arxiv.org/abs/2106.00526v1
- Date: Sun, 30 May 2021 16:19:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-02 14:35:56.680761
- Title: A Compression-Compilation Framework for On-mobile Real-time BERT
Applications
- Title(参考訳): モバイルリアルタイムBERTアプリケーションのための圧縮コンパイルフレームワーク
- Authors: Wei Niu, Zhenglun Kong, Geng Yuan, Weiwen Jiang, Jiexiong Guan, Caiwen
Ding, Pu Zhao, Sijia Liu, Bin Ren, Yanzhi Wang
- Abstract要約: トランスフォーマーベースのディープラーニングモデルは、多くの自然言語処理(NLP)タスクにおいて高い精度を証明している。
本稿では,モバイルデバイスのリソースおよびリアルタイム仕様に適合する特定モデルを保証できる圧縮コンパイル協調設計フレームワークを提案する。
本稿では,質問応答 (QA) とテキスト生成 (テキスト生成) の2種類のBERTアプリケーションについて述べる。
- 参考スコア(独自算出の注目度): 36.54139770775837
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based deep learning models have increasingly demonstrated high
accuracy on many natural language processing (NLP) tasks. In this paper, we
propose a compression-compilation co-design framework that can guarantee the
identified model to meet both resource and real-time specifications of mobile
devices. Our framework applies a compiler-aware neural architecture
optimization method (CANAO), which can generate the optimal compressed model
that balances both accuracy and latency. We are able to achieve up to 7.8x
speedup compared with TensorFlow-Lite with only minor accuracy loss. We present
two types of BERT applications on mobile devices: Question Answering (QA) and
Text Generation. Both can be executed in real-time with latency as low as 45ms.
Videos for demonstrating the framework can be found on
https://www.youtube.com/watch?v=_WIRvK_2PZI
- Abstract(参考訳): トランスフォーマティブベースのディープラーニングモデルは、多くの自然言語処理(nlp)タスクにおいて高い精度を示している。
本稿では,モバイルデバイスのリソース仕様とリアルタイム仕様の両方を満たすために,識別モデルを保証できる圧縮コンパイル協調設計フレームワークを提案する。
我々のフレームワークはコンパイラ対応のニューラルネットワーク最適化手法(CANAO)を適用し、精度とレイテンシのバランスをとる最適な圧縮モデルを生成する。
TensorFlow-Liteと比較して7.8倍のスピードアップを達成できます。
本稿では,質問応答(QA)とテキスト生成の2種類のBERTアプリケーションについて述べる。
どちらも、45ms以下のレイテンシでリアルタイムで実行できる。
フレームワークのデモビデオはhttps://www.youtube.com/watch?v=_WIRvK_2PZIで見ることができる。
関連論文リスト
- Long Context Compression with Activation Beacon [22.054232261437186]
Activation Beaconは、トランスフォーマーベースのLLM用のプラグインモジュールである。
長いコンテキストの効率的な、効率的、柔軟な圧縮をターゲットとしている。
推論時間の2倍の高速化と、KVキャッシュのメモリコストの8倍の削減を実現している。
論文 参考訳(メタデータ) (2024-01-07T11:57:40Z) - Practical Conformer: Optimizing size, speed and flops of Conformer for
on-Device and cloud ASR [67.63332492134332]
我々は、デバイス上の制約を満たすのに十分小さく、TPUを高速に推論できる最適化されたコンバータを設計する。
提案するエンコーダは、デバイス上では強力なスタンドアロンエンコーダとして、また高性能なASRパイプラインの第1部として利用することができる。
論文 参考訳(メタデータ) (2023-03-31T23:30:48Z) - Seer: Language Instructed Video Prediction with Latent Diffusion Models [43.708550061909754]
テキスト条件付きビデオ予測(TVP)は,一般的なロボットポリシー学習を促進する上で不可欠な課題である。
時間軸に沿って,事前訓練されたテキスト・ツー・イメージ(T2I)の安定拡散モデルを膨らませることで,サンプルモデルと計算効率のよいtextbfSeerを提案する。
適応設計のアーキテクチャにより、Seerは高忠実でコヒーレントで命令に準拠したビデオフレームを生成することができる。
論文 参考訳(メタデータ) (2023-03-27T03:12:24Z) - Speculative Decoding with Big Little Decoder [108.95187338417541]
Big Little Decoder (BiLD) は、幅広いテキスト生成アプリケーションの推論効率と遅延を改善するフレームワークである。
NVIDIA T4 GPUでは、当社のフレームワークは最大2.12倍の高速化を実現し、生成品質の最小化を実現している。
私たちのフレームワークは完全にプラグアンドプレイで、トレーニングプロセスやモデルアーキテクチャの変更なしに適用できます。
論文 参考訳(メタデータ) (2023-02-15T18:55:29Z) - NAS-BERT: Task-Agnostic and Adaptive-Size BERT Compression with Neural
Architecture Search [100.71365025972258]
BERT圧縮の効率的な手法であるNAS-BERTを提案する。
NAS-BERTは、検索空間上で大きなスーパーネットをトレーニングし、適応的なサイズとレイテンシを持つ複数の圧縮モデルを出力する。
GLUEとSQuADベンチマークデータセットの実験は、NAS-BERTが以前のアプローチよりも高精度で軽量なモデルを見つけることができることを示した。
論文 参考訳(メタデータ) (2021-05-30T07:20:27Z) - Real-Time Execution of Large-scale Language Models on Mobile [49.32610509282623]
BERTの最良のモデル構造は,特定のデバイスに適合する計算サイズである。
我々のフレームワークは、モバイルデバイスのリソース仕様とリアルタイム仕様の両方を満たすための特定モデルを保証することができる。
具体的には、当社のモデルはCPUでは5.2倍、GPUでは4.1倍、BERTベースでは0.5-2%の精度損失がある。
論文 参考訳(メタデータ) (2020-09-15T01:59:17Z) - YOLObile: Real-Time Object Detection on Mobile Devices via
Compression-Compilation Co-Design [38.98949683262209]
本稿では,モバイル端末上でリアルタイムなオブジェクト検出を行う YOLObile フレームワークを提案する。
任意のカーネルサイズに対して新しいブロックパンチプルーニング方式を提案する。
YOLObileフレームワークでは,Samsung Galaxy S20上でGPUを用いて17FPSの推論速度を実現している。
論文 参考訳(メタデータ) (2020-09-12T01:41:08Z) - RT3D: Achieving Real-Time Execution of 3D Convolutional Neural Networks
on Mobile Devices [57.877112704841366]
本稿では3次元CNNのためのモデル圧縮およびモバイルアクセラレーションフレームワークRT3Dを提案する。
3D CNNのリアルタイム実行は、市販のモバイル上で初めて実現された。
論文 参考訳(メタデータ) (2020-07-20T02:05:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。