論文の概要: MCUBERT: Memory-Efficient BERT Inference on Commodity Microcontrollers
- arxiv url: http://arxiv.org/abs/2410.17957v1
- Date: Wed, 23 Oct 2024 15:27:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-24 13:56:51.042457
- Title: MCUBERT: Memory-Efficient BERT Inference on Commodity Microcontrollers
- Title(参考訳): MCUBERT:コモディティマイクロコントローラにおけるメモリ効率の良いBERT推論
- Authors: Zebin Yang, Renze Chen, Taiqiang Wu, Ngai Wong, Yun Liang, Runsheng Wang, Ru Huang, Meng Li,
- Abstract要約: 小型マイクロコントローラユニット(MCU)上でBERTのような言語モデルを実現するためのMCUBERTを提案する。
組込み圧縮のためのクラスタ化低ランク近似に基づくMCU対応2段階ニューラルネットワーク探索アルゴリズムを提案する。
初めて、MCUBERTはコモディティMCU上で軽量BERTモデルを提供し、256KB未満のメモリで512以上のトークンを処理する。
- 参考スコア(独自算出の注目度): 11.135176202692563
- License:
- Abstract: In this paper, we propose MCUBERT to enable language models like BERT on tiny microcontroller units (MCUs) through network and scheduling co-optimization. We observe the embedding table contributes to the major storage bottleneck for tiny BERT models. Hence, at the network level, we propose an MCU-aware two-stage neural architecture search algorithm based on clustered low-rank approximation for embedding compression. To reduce the inference memory requirements, we further propose a novel fine-grained MCU-friendly scheduling strategy. Through careful computation tiling and re-ordering as well as kernel design, we drastically increase the input sequence lengths supported on MCUs without any latency or accuracy penalty. MCUBERT reduces the parameter size of BERT-tiny and BERT-mini by 5.7$\times$ and 3.0$\times$ and the execution memory by 3.5$\times$ and 4.3$\times$, respectively. MCUBERT also achieves 1.5$\times$ latency reduction. For the first time, MCUBERT enables lightweight BERT models on commodity MCUs and processing more than 512 tokens with less than 256KB of memory.
- Abstract(参考訳): 本稿では,小型マイクロコントローラユニット(MCU)上でBERTのような言語モデルを実現するためのMCUBERTを提案する。
埋め込みテーブルが小さなBERTモデルのストレージボトルネックに寄与するのを観察する。
そこで,ネットワークレベルでは,クラスタ化低ランク近似に基づくMCU対応の2段階ニューラルネットワーク探索アルゴリズムを提案する。
推論メモリの要求を減らすため、我々はさらに、よりきめ細かなMCUフレンドリなスケジューリング戦略を提案する。
計算タイリングと再順序付けとカーネル設計により,MCUでサポートされた入力シーケンス長を,レイテンシや精度の低下なく大幅に向上させる。
MCUBERTはBERT-tinyとBERT-miniのパラメータサイズを5.7$\times$と3.0$\times$に減らし、実行メモリを3.5$\times$と4.3$\times$に減らした。
MCUBERTは1.5$\times$遅延低減も達成している。
初めて、MCUBERTはコモディティMCU上で軽量BERTモデルを提供し、256KB未満のメモリで512以上のトークンを処理する。
関連論文リスト
- Accelerating TinyML Inference on Microcontrollers through Approximate Kernels [3.566060656925169]
本研究では、近似計算とソフトウェアカーネル設計を組み合わせることで、マイクロコントローラ上での近似CNNモデルの推定を高速化する。
CIFAR-10データセットでトレーニングされたSTM32-Nucleoボードと2つの人気のあるCNNによる評価は、最先端の正確な推測と比較すると、平均21%のレイテンシ削減が可能であることを示している。
論文 参考訳(メタデータ) (2024-09-25T11:10:33Z) - Deeploy: Enabling Energy-Efficient Deployment of Small Language Models On Heterogeneous Microcontrollers [11.365735615086292]
Deeployは新しいDeep Neural Network(DNN)コンパイラで、最小限のランタイムサポートを必要とする高度に最適化されたCコードを生成する。
Deeploy は RV32 コアの命令拡張と NPU をフル活用して,SLM の実行のためのエンドツーエンドコードを生成する。
我々は,TinyStoriesデータセットでトレーニングしたSLMに対して,毎秒SI340TokenでSI490マイクロジュールの最先端エネルギーとスループットを実現する。
論文 参考訳(メタデータ) (2024-08-08T12:40:27Z) - vMCU: Coordinated Memory Management and Kernel Optimization for DNN Inference on MCUs [5.618668696519569]
マイクロコントローラ(MCU)に基づくIoTデバイスは、ニアセンサー深層学習モデル(DNN)のための超低消費電力およびユビキタス計算を提供する
以前の作業では、MCUのメモリ管理とカーネル実装を分離し、メモリ消費を減らすためにインプレース更新のような粗い粒度のメモリ管理技術に依存していた。
本稿では,MCU上でのDNN推論におけるメモリ管理とカーネル最適化のコーディネートを提案し,メモリ管理の微粒化を実現する。
論文 参考訳(メタデータ) (2024-05-01T16:24:53Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - BiBERT: Accurate Fully Binarized BERT [69.35727280997617]
BiBERTは、パフォーマンスボトルネックを取り除くために、正確に2項化されたBERTである。
提案手法は,FLOPとモデルサイズで56.3回,31.2回節約できる。
論文 参考訳(メタデータ) (2022-03-12T09:46:13Z) - MCUNetV2: Memory-Efficient Patch-based Inference for Tiny Deep Learning [72.80896338009579]
メモリボトルネックは畳み込みニューラルネットワーク(CNN)の設計における不均衡なメモリ分布に起因する。
本稿では,ピークメモリを大幅に削減するパッチ・バイ・パッチ・推論スケジューリングを提案する。
ニューラルアーキテクチャサーチによるプロセスを自動化し、ニューラルアーキテクチャと推論スケジューリングを共同で最適化し、MCUNetV2に導いた。
論文 参考訳(メタデータ) (2021-10-28T17:58:45Z) - ROSITA: Refined BERT cOmpreSsion with InTegrAted techniques [10.983311133796745]
BERTファミリーの事前訓練された言語モデルは、幅広いNLPタスクで最先端のものを定義しています。
BERTベースのモデルの性能は、主に大量のパラメータによって駆動され、リソース制限されたシナリオへの適用を妨げる。
我々は,3種類の圧縮手法(重み付きプルーニング,低ランク分解,知識蒸留)を導入し,モデルアーキテクチャに関する様々な設計について検討する。
Refined BERT cOmpreSsion with InTegrAted Technique(ROSITA)と呼ばれる私たちの最高の圧縮モデルは、7.5倍小さいです。
論文 参考訳(メタデータ) (2021-03-21T11:33:33Z) - DynaBERT: Dynamic BERT with Adaptive Width and Depth [55.18269622415814]
我々は新しい動的BERTモデル(DynaBERTと略される)を提案する。
適応的な幅と深さを選択することで、サイズとレイテンシを柔軟に調整できる。
既存のBERT圧縮手法よりずっと優れています。
論文 参考訳(メタデータ) (2020-04-08T15:06:28Z) - Incorporating BERT into Neural Machine Translation [251.54280200353674]
本稿では,入力シーケンスの表現抽出にBERTを用いたBERT融合モデルを提案する。
我々は、教師付き(文レベルと文書レベルの翻訳を含む)、半教師なしおよび教師なしの機械翻訳の実験を行い、7つのベンチマークデータセットで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-02-17T08:13:36Z) - AdaBERT: Task-Adaptive BERT Compression with Differentiable Neural
Architecture Search [79.98686989604164]
既存の方法では、BERTを小さなモデルに圧縮するが、そのような圧縮はタスクに依存しない。
本稿では,タスク適応型小型モデルにBERTを自動的に圧縮する,可変ニューラルアーキテクチャ探索を利用した新しい圧縮手法AdaBERTを提案する。
我々は,複数のNLPタスクに対してAdaBERTを評価し,これらのタスク適応型圧縮モデルが推定時間でBERTよりも12.7倍から29.3倍速く,パラメータサイズで11.5倍から17.0倍小さいことを示す。
論文 参考訳(メタデータ) (2020-01-13T14:03:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。