論文の概要: MCUFormer: Deploying Vision Transformers on Microcontrollers with
Limited Memory
- arxiv url: http://arxiv.org/abs/2310.16898v3
- Date: Thu, 21 Dec 2023 14:56:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 18:11:25.406924
- Title: MCUFormer: Deploying Vision Transformers on Microcontrollers with
Limited Memory
- Title(参考訳): MCUFormer: 限られたメモリでマイクロコントローラにビジョントランスフォーマーをデプロイする
- Authors: Yinan Liang, Ziwei Wang, Xiuwei Xu, Yansong Tang, Jie Zhou, Jiwen Lu
- Abstract要約: 我々はMCUFormerと呼ばれるハードウェア・アルゴリズムの協調最適化手法を提案し、メモリが極端に制限されたマイクロコントローラにビジョントランスフォーマーを配置する。
MCUFormerは320KBのメモリを持つ画像分類のためのImageNet上で73.62%のTop-1精度を実現している。
- 参考スコア(独自算出の注目度): 76.02294791513552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the high price and heavy energy consumption of GPUs, deploying deep
models on IoT devices such as microcontrollers makes significant contributions
for ecological AI. Conventional methods successfully enable convolutional
neural network inference of high resolution images on microcontrollers, while
the framework for vision transformers that achieve the state-of-the-art
performance in many vision applications still remains unexplored. In this
paper, we propose a hardware-algorithm co-optimizations method called MCUFormer
to deploy vision transformers on microcontrollers with extremely limited
memory, where we jointly design transformer architecture and construct the
inference operator library to fit the memory resource constraint. More
specifically, we generalize the one-shot network architecture search (NAS) to
discover the optimal architecture with highest task performance given the
memory budget from the microcontrollers, where we enlarge the existing search
space of vision transformers by considering the low-rank decomposition
dimensions and patch resolution for memory reduction. For the construction of
the inference operator library of vision transformers, we schedule the memory
buffer during inference through operator integration, patch embedding
decomposition, and token overwriting, allowing the memory buffer to be fully
utilized to adapt to the forward pass of the vision transformer. Experimental
results demonstrate that our MCUFormer achieves 73.62\% top-1 accuracy on
ImageNet for image classification with 320KB memory on STM32F746
microcontroller. Code is available at https://github.com/liangyn22/MCUFormer.
- Abstract(参考訳): GPUの高価格と高エネルギー消費のため、マイクロコントローラのようなIoTデバイスにディープモデルをデプロイすることは、エコロジーAIに大きな貢献をする。
従来の手法では、マイクロコントローラ上の高分解能画像の畳み込みニューラルネットワークの推論に成功しているが、視覚トランスフォーマーのフレームワークは、多くの視覚アプリケーションで最先端のパフォーマンスを達成している。
本稿では,超限られたメモリを持つマイクロコントローラに視覚トランスフォーマーを展開するために,mcuformerと呼ばれるハードウェア・アルゴリズムの共最適化手法を提案する。
より具体的には、1ショットネットワークアーキテクチャサーチ(NAS)を一般化し、マイクロコントローラからのメモリ予算から最高のタスク性能で最適なアーキテクチャを探索し、低ランク分解次元とメモリ削減のためのパッチ解像度を考慮して既存の視覚トランスフォーマーの探索空間を拡大する。
視覚変換器の推論演算子ライブラリを構築するために、演算子統合、パッチ埋め込み分解、トークン上書きによる推論中にメモリバッファをスケジュールし、メモリバッファを十分に活用してビジョン変換器の前方通過に適応させる。
STM32F746 マイクロコントローラ上で320KB のメモリを持つ画像分類において,MCUFormer は 73.62\% のトップ-1 の精度を実現している。
コードはhttps://github.com/liangyn22/mcuformerで入手できる。
関連論文リスト
- Efficient and accurate neural field reconstruction using resistive memory [52.68088466453264]
デジタルコンピュータにおける従来の信号再構成手法は、ソフトウェアとハードウェアの両方の課題に直面している。
本稿では,スパース入力からの信号再構成のためのソフトウェア・ハードウェア協調最適化を用いた体系的アプローチを提案する。
この研究は、AI駆動の信号復元技術を進歩させ、将来の効率的で堅牢な医療AIと3Dビジョンアプリケーションへの道を開く。
論文 参考訳(メタデータ) (2024-04-15T09:33:09Z) - Optimizing the Deployment of Tiny Transformers on Low-Power MCUs [12.905978154498499]
この作業は、商用MCU上でのエンコーダTiny Transformersの柔軟性とマルチプラットフォームデプロイメントの実現と最適化を目的としている。
我々のフレームワークは、データの再利用を最大化し、重要な注意ブロックにデータマーシャリング操作を避けるために、カーネルの最適化ライブラリを提供する。
MHSA深度優先のタイリング方式はメモリピークを最大6.19倍に減らし、融合重み付けはランタイムを1.53倍減らし、パラメータ数を25%減らすことを示した。
論文 参考訳(メタデータ) (2024-04-03T14:14:08Z) - Reversible Vision Transformers [74.3500977090597]
Reversible Vision Transformersは、視覚認識のためのメモリ効率の良いアーキテクチャである。
我々は2つの人気モデル、すなわちビジョン変換器とマルチスケールビジョン変換器を可逆的変種に適用する。
より深いモデルでは、アクティベーションを再計算する際の計算負荷が過大評価されている。
論文 参考訳(メタデータ) (2023-02-09T18:59:54Z) - Pex: Memory-efficient Microcontroller Deep Learning through Partial
Execution [11.336229510791481]
マイクロコントローラ深層学習のための新しい実行パラダイムについて論じる。
ニューラルネットワークの実行を変更して、メモリの完全なバッファーを作らないようにする。
これは演算子のプロパティを利用することで実現され、一度にインプット/アウトプットのごく一部を消費/生産することができる。
論文 参考訳(メタデータ) (2022-11-30T18:47:30Z) - Row-wise Accelerator for Vision Transformer [4.802171139840781]
本稿では,行ワイドスケジューリングによる視覚変換器のハードウェアアクセラレータを提案する。
TSMC 40nm CMOS技術の実装は、600MHzのクロック周波数で403.2 GOPSスループットを実現するのに262Kのゲート数と149KBのバッファしか必要としない。
論文 参考訳(メタデータ) (2022-05-09T01:47:44Z) - MCUNetV2: Memory-Efficient Patch-based Inference for Tiny Deep Learning [72.80896338009579]
メモリボトルネックは畳み込みニューラルネットワーク(CNN)の設計における不均衡なメモリ分布に起因する。
本稿では,ピークメモリを大幅に削減するパッチ・バイ・パッチ・推論スケジューリングを提案する。
ニューラルアーキテクチャサーチによるプロセスを自動化し、ニューラルアーキテクチャと推論スケジューリングを共同で最適化し、MCUNetV2に導いた。
論文 参考訳(メタデータ) (2021-10-28T17:58:45Z) - HRFormer: High-Resolution Transformer for Dense Prediction [99.6060997466614]
本稿では高分解能な予測タスクのための高分解能表現を学習する高分解能変換器(HRFormer)を提案する。
我々は高分解能畳み込みネットワーク(HRNet)で導入された多分解能並列設計を利用する。
人間のポーズ推定とセマンティックセグメンテーションにおける高分解能トランスフォーマの有効性を示す。
論文 参考訳(メタデータ) (2021-10-18T15:37:58Z) - Vision Transformers for Dense Prediction [77.34726150561087]
高密度予測タスクのバックボーンとして、畳み込みネットワークの代わりにビジョントランスを活用するアーキテクチャである高密度ビジョントランスを紹介します。
実験により,このアーキテクチャは高密度予測タスクにおいて大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2021-03-24T18:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。