論文の概要: MCUFormer: Deploying Vision Transformers on Microcontrollers with
Limited Memory
- arxiv url: http://arxiv.org/abs/2310.16898v3
- Date: Thu, 21 Dec 2023 14:56:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 18:11:25.406924
- Title: MCUFormer: Deploying Vision Transformers on Microcontrollers with
Limited Memory
- Title(参考訳): MCUFormer: 限られたメモリでマイクロコントローラにビジョントランスフォーマーをデプロイする
- Authors: Yinan Liang, Ziwei Wang, Xiuwei Xu, Yansong Tang, Jie Zhou, Jiwen Lu
- Abstract要約: 我々はMCUFormerと呼ばれるハードウェア・アルゴリズムの協調最適化手法を提案し、メモリが極端に制限されたマイクロコントローラにビジョントランスフォーマーを配置する。
MCUFormerは320KBのメモリを持つ画像分類のためのImageNet上で73.62%のTop-1精度を実現している。
- 参考スコア(独自算出の注目度): 76.02294791513552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the high price and heavy energy consumption of GPUs, deploying deep
models on IoT devices such as microcontrollers makes significant contributions
for ecological AI. Conventional methods successfully enable convolutional
neural network inference of high resolution images on microcontrollers, while
the framework for vision transformers that achieve the state-of-the-art
performance in many vision applications still remains unexplored. In this
paper, we propose a hardware-algorithm co-optimizations method called MCUFormer
to deploy vision transformers on microcontrollers with extremely limited
memory, where we jointly design transformer architecture and construct the
inference operator library to fit the memory resource constraint. More
specifically, we generalize the one-shot network architecture search (NAS) to
discover the optimal architecture with highest task performance given the
memory budget from the microcontrollers, where we enlarge the existing search
space of vision transformers by considering the low-rank decomposition
dimensions and patch resolution for memory reduction. For the construction of
the inference operator library of vision transformers, we schedule the memory
buffer during inference through operator integration, patch embedding
decomposition, and token overwriting, allowing the memory buffer to be fully
utilized to adapt to the forward pass of the vision transformer. Experimental
results demonstrate that our MCUFormer achieves 73.62\% top-1 accuracy on
ImageNet for image classification with 320KB memory on STM32F746
microcontroller. Code is available at https://github.com/liangyn22/MCUFormer.
- Abstract(参考訳): GPUの高価格と高エネルギー消費のため、マイクロコントローラのようなIoTデバイスにディープモデルをデプロイすることは、エコロジーAIに大きな貢献をする。
従来の手法では、マイクロコントローラ上の高分解能画像の畳み込みニューラルネットワークの推論に成功しているが、視覚トランスフォーマーのフレームワークは、多くの視覚アプリケーションで最先端のパフォーマンスを達成している。
本稿では,超限られたメモリを持つマイクロコントローラに視覚トランスフォーマーを展開するために,mcuformerと呼ばれるハードウェア・アルゴリズムの共最適化手法を提案する。
より具体的には、1ショットネットワークアーキテクチャサーチ(NAS)を一般化し、マイクロコントローラからのメモリ予算から最高のタスク性能で最適なアーキテクチャを探索し、低ランク分解次元とメモリ削減のためのパッチ解像度を考慮して既存の視覚トランスフォーマーの探索空間を拡大する。
視覚変換器の推論演算子ライブラリを構築するために、演算子統合、パッチ埋め込み分解、トークン上書きによる推論中にメモリバッファをスケジュールし、メモリバッファを十分に活用してビジョン変換器の前方通過に適応させる。
STM32F746 マイクロコントローラ上で320KB のメモリを持つ画像分類において,MCUFormer は 73.62\% のトップ-1 の精度を実現している。
コードはhttps://github.com/liangyn22/mcuformerで入手できる。
関連論文リスト
- Accelerator-driven Data Arrangement to Minimize Transformers Run-time on
Multi-core Architectures [5.46396577345121]
人工知能におけるトランスフォーマーモデルの複雑さは、計算コスト、メモリ使用量、エネルギー消費を拡大します。
ハードウェアアクセラレーターのカーネルサイズに支配される新しいメモリアレンジメント戦略を提案し,オフチップデータアクセスを効果的に最小化する。
我々の手法は、最先端の変圧器を用いた推論を実行する場合、最大2.8倍の速度向上を実現することができる。
論文 参考訳(メタデータ) (2023-12-20T13:01:25Z) - Reversible Vision Transformers [74.3500977090597]
Reversible Vision Transformersは、視覚認識のためのメモリ効率の良いアーキテクチャである。
我々は2つの人気モデル、すなわちビジョン変換器とマルチスケールビジョン変換器を可逆的変種に適用する。
より深いモデルでは、アクティベーションを再計算する際の計算負荷が過大評価されている。
論文 参考訳(メタデータ) (2023-02-09T18:59:54Z) - Dynamic Grained Encoder for Vision Transformers [150.02797954201424]
本稿では,自然画像の空間的冗長性を生かした視覚変換器のスパースクエリを提案する。
本研究では,各空間領域に適切なクエリ数を適応的に割り当てる動的変換器を提案する。
我々のエンコーダにより、最先端のビジョン変換器は、画像分類において同等の性能を維持しながら、計算複雑性を40%から60%削減できる。
論文 参考訳(メタデータ) (2023-01-10T07:55:29Z) - Pex: Memory-efficient Microcontroller Deep Learning through Partial
Execution [11.336229510791481]
マイクロコントローラ深層学習のための新しい実行パラダイムについて論じる。
ニューラルネットワークの実行を変更して、メモリの完全なバッファーを作らないようにする。
これは演算子のプロパティを利用することで実現され、一度にインプット/アウトプットのごく一部を消費/生産することができる。
論文 参考訳(メタデータ) (2022-11-30T18:47:30Z) - Row-wise Accelerator for Vision Transformer [4.802171139840781]
本稿では,行ワイドスケジューリングによる視覚変換器のハードウェアアクセラレータを提案する。
TSMC 40nm CMOS技術の実装は、600MHzのクロック周波数で403.2 GOPSスループットを実現するのに262Kのゲート数と149KBのバッファしか必要としない。
論文 参考訳(メタデータ) (2022-05-09T01:47:44Z) - MCUNetV2: Memory-Efficient Patch-based Inference for Tiny Deep Learning [70.29404271727155]
メモリボトルネックは畳み込みニューラルネットワーク(CNN)の設計における不均衡なメモリ分布に起因する。
本稿では,ピークメモリを大幅に削減するパッチ・バイ・パッチ・推論スケジューリングを提案する。
ニューラルアーキテクチャサーチによるプロセスを自動化し、ニューラルアーキテクチャと推論スケジューリングを共同で最適化し、MCUNetV2に導いた。
論文 参考訳(メタデータ) (2021-10-28T17:58:45Z) - HRFormer: High-Resolution Transformer for Dense Prediction [99.6060997466614]
本稿では高分解能な予測タスクのための高分解能表現を学習する高分解能変換器(HRFormer)を提案する。
我々は高分解能畳み込みネットワーク(HRNet)で導入された多分解能並列設計を利用する。
人間のポーズ推定とセマンティックセグメンテーションにおける高分解能トランスフォーマの有効性を示す。
論文 参考訳(メタデータ) (2021-10-18T15:37:58Z) - Vision Transformers for Dense Prediction [77.34726150561087]
高密度予測タスクのバックボーンとして、畳み込みネットワークの代わりにビジョントランスを活用するアーキテクチャである高密度ビジョントランスを紹介します。
実験により,このアーキテクチャは高密度予測タスクにおいて大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2021-03-24T18:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。