Fugu-MT 論文翻訳(概要): A Compression-Compilation Framework for On-mobile Real-time BERT Applications

論文の概要: A Compression-Compilation Framework for On-mobile Real-time BERT Applications

arxiv url: http://arxiv.org/abs/2106.00526v1
Date: Sun, 30 May 2021 16:19:11 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-02 14:35:56.680761
Title: A Compression-Compilation Framework for On-mobile Real-time BERT Applications
Title（参考訳）: モバイルリアルタイムBERTアプリケーションのための圧縮コンパイルフレームワーク
Authors: Wei Niu, Zhenglun Kong, Geng Yuan, Weiwen Jiang, Jiexiong Guan, Caiwen Ding, Pu Zhao, Sijia Liu, Bin Ren, Yanzhi Wang
Abstract要約: トランスフォーマーベースのディープラーニングモデルは、多くの自然言語処理(NLP)タスクにおいて高い精度を証明している。本稿では,モバイルデバイスのリソースおよびリアルタイム仕様に適合する特定モデルを保証できる圧縮コンパイル協調設計フレームワークを提案する。本稿では,質問応答 (QA) とテキスト生成 (テキスト生成) の2種類のBERTアプリケーションについて述べる。
参考スコア（独自算出の注目度）: 36.54139770775837
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Transformer-based deep learning models have increasingly demonstrated high accuracy on many natural language processing (NLP) tasks. In this paper, we propose a compression-compilation co-design framework that can guarantee the identified model to meet both resource and real-time specifications of mobile devices. Our framework applies a compiler-aware neural architecture optimization method (CANAO), which can generate the optimal compressed model that balances both accuracy and latency. We are able to achieve up to 7.8x speedup compared with TensorFlow-Lite with only minor accuracy loss. We present two types of BERT applications on mobile devices: Question Answering (QA) and Text Generation. Both can be executed in real-time with latency as low as 45ms. Videos for demonstrating the framework can be found on https://www.youtube.com/watch?v=_WIRvK_2PZI
Abstract（参考訳）: トランスフォーマティブベースのディープラーニングモデルは、多くの自然言語処理(nlp)タスクにおいて高い精度を示している。本稿では,モバイルデバイスのリソース仕様とリアルタイム仕様の両方を満たすために,識別モデルを保証できる圧縮コンパイル協調設計フレームワークを提案する。我々のフレームワークはコンパイラ対応のニューラルネットワーク最適化手法(CANAO)を適用し、精度とレイテンシのバランスをとる最適な圧縮モデルを生成する。 TensorFlow-Liteと比較して7.8倍のスピードアップを達成できます。本稿では,質問応答(QA)とテキスト生成の2種類のBERTアプリケーションについて述べる。どちらも、45ms以下のレイテンシでリアルタイムで実行できる。フレームワークのデモビデオはhttps://www.youtube.com/watch?v=_WIRvK_2PZIで見ることができる。

関連論文リスト

Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文参考訳（メタデータ） (2025-05-28T14:03:02Z)
Long Context Compression with Activation Beacon [22.054232261437186]
Activation Beaconは、トランスフォーマーベースのLLM用のプラグインモジュールである。長いコンテキストの効率的な、効率的、柔軟な圧縮をターゲットとしている。推論時間の2倍の高速化と、KVキャッシュのメモリコストの8倍の削減を実現している。
論文参考訳（メタデータ） (2024-01-07T11:57:40Z)
Practical Conformer: Optimizing size, speed and flops of Conformer for on-Device and cloud ASR [67.63332492134332]
我々は、デバイス上の制約を満たすのに十分小さく、TPUを高速に推論できる最適化されたコンバータを設計する。提案するエンコーダは、デバイス上では強力なスタンドアロンエンコーダとして、また高性能なASRパイプラインの第1部として利用することができる。
論文参考訳（メタデータ） (2023-03-31T23:30:48Z)
Seer: Language Instructed Video Prediction with Latent Diffusion Models [43.708550061909754]
テキスト条件付きビデオ予測(TVP)は,一般的なロボットポリシー学習を促進する上で不可欠な課題である。時間軸に沿って,事前訓練されたテキスト・ツー・イメージ(T2I)の安定拡散モデルを膨らませることで,サンプルモデルと計算効率のよいtextbfSeerを提案する。適応設計のアーキテクチャにより、Seerは高忠実でコヒーレントで命令に準拠したビデオフレームを生成することができる。
論文参考訳（メタデータ） (2023-03-27T03:12:24Z)
Speculative Decoding with Big Little Decoder [108.95187338417541]
Big Little Decoder (BiLD) は、幅広いテキスト生成アプリケーションの推論効率と遅延を改善するフレームワークである。 NVIDIA T4 GPUでは、当社のフレームワークは最大2.12倍の高速化を実現し、生成品質の最小化を実現している。私たちのフレームワークは完全にプラグアンドプレイで、トレーニングプロセスやモデルアーキテクチャの変更なしに適用できます。
論文参考訳（メタデータ） (2023-02-15T18:55:29Z)
Fast DistilBERT on CPUs [13.29188219884869]
トランスフォーマーベースの言語モデルは、自然言語処理タスクを解決するための標準的なアプローチとなっている。業界の採用は通常、特定のレイテンシ制約を満たすために最大スループットを必要とします。我々は,ハードウェア対応プルーニング,知識蒸留,量子化,およびスパース演算子と量子化演算子に最適化されたカーネルを備えた独自のTransformer推論ランタイムエンジンを利用して,CPU上で高速トランスフォーマーモデルを作成し,実行するためのパイプラインを提案する。
論文参考訳（メタデータ） (2022-10-27T07:22:50Z)
NAS-BERT: Task-Agnostic and Adaptive-Size BERT Compression with Neural Architecture Search [100.71365025972258]
BERT圧縮の効率的な手法であるNAS-BERTを提案する。 NAS-BERTは、検索空間上で大きなスーパーネットをトレーニングし、適応的なサイズとレイテンシを持つ複数の圧縮モデルを出力する。 GLUEとSQuADベンチマークデータセットの実験は、NAS-BERTが以前のアプローチよりも高精度で軽量なモデルを見つけることができることを示した。
論文参考訳（メタデータ） (2021-05-30T07:20:27Z)
Real-Time Execution of Large-scale Language Models on Mobile [49.32610509282623]
BERTの最良のモデル構造は,特定のデバイスに適合する計算サイズである。我々のフレームワークは、モバイルデバイスのリソース仕様とリアルタイム仕様の両方を満たすための特定モデルを保証することができる。具体的には、当社のモデルはCPUでは5.2倍、GPUでは4.1倍、BERTベースでは0.5-2%の精度損失がある。
論文参考訳（メタデータ） (2020-09-15T01:59:17Z)
YOLObile: Real-Time Object Detection on Mobile Devices via Compression-Compilation Co-Design [38.98949683262209]
本稿では,モバイル端末上でリアルタイムなオブジェクト検出を行う YOLObile フレームワークを提案する。任意のカーネルサイズに対して新しいブロックパンチプルーニング方式を提案する。 YOLObileフレームワークでは,Samsung Galaxy S20上でGPUを用いて17FPSの推論速度を実現している。
論文参考訳（メタデータ） (2020-09-12T01:41:08Z)
RT3D: Achieving Real-Time Execution of 3D Convolutional Neural Networks on Mobile Devices [57.877112704841366]
本稿では3次元CNNのためのモデル圧縮およびモバイルアクセラレーションフレームワークRT3Dを提案する。 3D CNNのリアルタイム実行は、市販のモバイル上で初めて実現された。
論文参考訳（メタデータ） (2020-07-20T02:05:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。