論文の概要: Quantized Transformer Language Model Implementations on Edge Devices
- arxiv url: http://arxiv.org/abs/2310.03971v1
- Date: Fri, 6 Oct 2023 01:59:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-10 03:43:51.753513
- Title: Quantized Transformer Language Model Implementations on Edge Devices
- Title(参考訳): エッジデバイス上での量子トランスフォーマー言語モデルの実装
- Authors: Mohammad Wali Ur Rahman, Murad Mehrab Abrar, Hunter Gibbons Copening,
Salim Hariri, Sicong Shao, Pratik Satam, and Soheil Salehi
- Abstract要約: Bidirectional Representations from Transformers (BERT) のような大規模なトランスフォーマーベースモデルは自然言語処理(NLP)アプリケーションに広く利用されている。
これらのモデルは最初、数百万のパラメータを持つ大きなコーパスで事前訓練され、下流のNLPタスクのために微調整される。
これらの大規模モデルの大きな制限の1つは、大きなモデルサイズと推論遅延の増加のため、リソース制限されたデバイスにデプロイできないことである。
- 参考スコア(独自算出の注目度): 1.2979415757860164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale transformer-based models like the Bidirectional Encoder
Representations from Transformers (BERT) are widely used for Natural Language
Processing (NLP) applications, wherein these models are initially pre-trained
with a large corpus with millions of parameters and then fine-tuned for a
downstream NLP task. One of the major limitations of these large-scale models
is that they cannot be deployed on resource-constrained devices due to their
large model size and increased inference latency. In order to overcome these
limitations, such large-scale models can be converted to an optimized
FlatBuffer format, tailored for deployment on resource-constrained edge
devices. Herein, we evaluate the performance of such FlatBuffer transformed
MobileBERT models on three different edge devices, fine-tuned for Reputation
analysis of English language tweets in the RepLab 2013 dataset. In addition,
this study encompassed an evaluation of the deployed models, wherein their
latency, performance, and resource efficiency were meticulously assessed. Our
experiment results show that, compared to the original BERT large model, the
converted and quantized MobileBERT models have 160$\times$ smaller footprints
for a 4.1% drop in accuracy while analyzing at least one tweet per second on
edge devices. Furthermore, our study highlights the privacy-preserving aspect
of TinyML systems as all data is processed locally within a serverless
environment.
- Abstract(参考訳): Bidirectional Encoder Representations from Transformers (BERT) のような大規模トランスフォーマーベースのモデルは、自然言語処理(NLP)アプリケーションに広く使われている。
これらの大規模モデルの大きな制限の1つは、大きなモデルサイズと推論遅延の増加のため、リソース制限されたデバイスにデプロイできないことである。
これらの制限を克服するために、リソース制約のあるエッジデバイスへのデプロイに適した最適化されたFlatBufferフォーマットに変換することができる。
本稿では,3種類のエッジデバイスを用いたflatbuffer変換mobilebertモデルの性能評価を行い,replab 2013データセットにおける英語ツイートの評価分析を行った。
さらに,本研究では,デプロイモデルのレイテンシ,性能,資源効率を細心の注意を払って評価した。
実験の結果,変換および量子化された MobileBERT モデルは,従来の BERT 大規模モデルと比較して160$\times$ small footprints for a 4.1% drop in accuracy であり,エッジデバイス上では1秒間に1ツイート以上解析できることがわかった。
さらに,すべてのデータがサーバレス環境内でローカルに処理されるため,tinymlシステムのプライバシ保護的な側面についても注目する。
関連論文リスト
- Predictor-Corrector Enhanced Transformers with Exponential Moving Average Coefficient Learning [73.73967342609603]
トラクションエラーを最小限に抑えるための予測-相関学習フレームワークを提案する。
また、高次予測器を強化するために、指数関数的移動平均ベース係数学習法を提案する。
我々のモデルは3.8BのDeepNetを平均2.9のSacreBLEUで上回り、1/3のパラメータしか使用していない。
論文 参考訳(メタデータ) (2024-11-05T12:26:25Z) - Efficient Machine Translation with a BiLSTM-Attention Approach [0.0]
本稿では,翻訳品質の向上を目的とした新しいSeq2Seqモデルを提案する。
このモデルでは、双方向長短期記憶ネットワーク(Bidirectional Long Short-Term Memory Network, Bi-LSTM)をエンコーダとして使用し、入力シーケンスのコンテキスト情報をキャプチャする。
現在の主流トランスフォーマーモデルと比較して,本モデルはWMT14機械翻訳データセットにおいて優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-10-29T01:12:50Z) - MatFormer: Nested Transformer for Elastic Inference [94.1789252941718]
MatFormerは、様々なデプロイメント制約で弾力性を提供するように設計されたネストトランスフォーマーアーキテクチャである。
2.6BデコーダのみのMatFormer言語モデル(MatLM)は1.5Bから2.6Bまでの小さなモデルを抽出できることを示す。
また,MatFormerベースのViT(MatViT)エンコーダから抽出した小さなエンコーダは,適応的な大規模検索のための距離空間構造を保持する。
論文 参考訳(メタデータ) (2023-10-11T17:57:14Z) - Extensive Evaluation of Transformer-based Architectures for Adverse Drug
Events Extraction [6.78974856327994]
逆イベント(ADE)抽出は、デジタル製薬における中核的なタスクの1つである。
我々は、非公式テキストを用いたADE抽出のための19のトランスフォーマーモデルを評価する。
分析の最後には、実験データから導出可能なテイクホームメッセージのリストを同定する。
論文 参考訳(メタデータ) (2023-06-08T15:25:24Z) - Speculative Decoding with Big Little Decoder [108.95187338417541]
Big Little Decoder (BiLD) は、幅広いテキスト生成アプリケーションの推論効率と遅延を改善するフレームワークである。
NVIDIA T4 GPUでは、当社のフレームワークは最大2.12倍の高速化を実現し、生成品質の最小化を実現している。
私たちのフレームワークは完全にプラグアンドプレイで、トレーニングプロセスやモデルアーキテクチャの変更なしに適用できます。
論文 参考訳(メタデータ) (2023-02-15T18:55:29Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Error Detection in Large-Scale Natural Language Understanding Systems
Using Transformer Models [0.0]
Alexa、Siri、Cortana、Google Assistantといった大規模な会話アシスタントは、ドメイン、インテント、名前付きエンティティ認識の複数のモデルを使用して、発話毎に処理する。
オフラインのTransformerモデルを用いて、ドメイン分類エラーを検出する。
そこで我々は,RoBERTaモデルから生成した発話エンコーディングと生産システムのNbest仮説を組み合わせた。
論文 参考訳(メタデータ) (2021-09-04T00:10:48Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z) - Real-Time Execution of Large-scale Language Models on Mobile [49.32610509282623]
BERTの最良のモデル構造は,特定のデバイスに適合する計算サイズである。
我々のフレームワークは、モバイルデバイスのリソース仕様とリアルタイム仕様の両方を満たすための特定モデルを保証することができる。
具体的には、当社のモデルはCPUでは5.2倍、GPUでは4.1倍、BERTベースでは0.5-2%の精度損失がある。
論文 参考訳(メタデータ) (2020-09-15T01:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。