論文の概要: Pex: Memory-efficient Microcontroller Deep Learning through Partial
Execution
- arxiv url: http://arxiv.org/abs/2211.17246v1
- Date: Wed, 30 Nov 2022 18:47:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 17:32:29.656734
- Title: Pex: Memory-efficient Microcontroller Deep Learning through Partial
Execution
- Title(参考訳): Pex: 部分実行によるメモリ効率のよいマイクロコントローラディープラーニング
- Authors: Edgar Liberis, Nicholas D. Lane
- Abstract要約: マイクロコントローラ深層学習のための新しい実行パラダイムについて論じる。
ニューラルネットワークの実行を変更して、メモリの完全なバッファーを作らないようにする。
これは演算子のプロパティを利用することで実現され、一度にインプット/アウトプットのごく一部を消費/生産することができる。
- 参考スコア(独自算出の注目度): 11.336229510791481
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embedded and IoT devices, largely powered by microcontroller units (MCUs),
could be made more intelligent by leveraging on-device deep learning. One of
the main challenges of neural network inference on an MCU is the extremely
limited amount of read-write on-chip memory (SRAM, < 512 kB). SRAM is consumed
by the neural network layer (operator) input and output buffers, which,
traditionally, must be in memory (materialised) for an operator to execute. We
discuss a novel execution paradigm for microcontroller deep learning, which
modifies the execution of neural networks to avoid materialising full buffers
in memory, drastically reducing SRAM usage with no computation overhead. This
is achieved by exploiting the properties of operators, which can
consume/produce a fraction of their input/output at a time. We describe a
partial execution compiler, Pex, which produces memory-efficient execution
schedules automatically by identifying subgraphs of operators whose execution
can be split along the feature ("channel") dimension. Memory usage is reduced
further by targeting memory bottlenecks with structured pruning, leading to the
co-design of the network architecture and its execution schedule. Our
evaluation of image and audio classification models: (a) establishes
state-of-the-art performance in low SRAM usage regimes for considered tasks
with up to +2.9% accuracy increase; (b) finds that a 4x memory reduction is
possible by applying partial execution alone, or up to 10.5x when using the
compiler-pruning co-design, while maintaining the classification accuracy
compared to prior work; (c) uses the recovered SRAM to process higher
resolution inputs instead, increasing accuracy by up to +3.9% on Visual Wake
Words.
- Abstract(参考訳): 組み込みデバイスとIoTデバイスは、主にマイクロコントローラユニット(MCU)を使用しており、デバイス上でのディープラーニングを活用することで、よりインテリジェントにすることができる。
MCU上でのニューラルネットワーク推論の主な課題の1つは、極めて限られた読み取り-書き込みオンチップメモリ(SRAM, < 512 kB)である。
sramはニューラルネットワーク層(オペレータ)の入出力バッファによって消費され、従来はオペレータが実行するメモリ(具体化)でなければならない。
本稿では,メモリ内のフルバッファの実現を回避し,計算オーバーヘッドを伴わずにsram使用量を劇的に削減する,ニューラルネットワークの実行を修飾する,マイクロコントローラ深層学習のための新しい実行パラダイムについて論じる。
これは、一度に入力/出力のほんの一部を消費/生産できる演算子の特性を利用することによって実現される。
機能(チャネル)次元に沿って実行を分割できる演算子のサブグラフを識別することで、メモリ効率の良い実行スケジュールを自動的に生成する部分実行コンパイラであるPexについて説明する。
メモリ使用量はさらに削減され、構造化プルーニングによるメモリボトルネックをターゲットとし、ネットワークアーキテクチャと実行スケジュールの共同設計に繋がる。
画像と音声の分類モデルの評価
a) 最大2.9%の精度で考慮すべきタスクに対する低SRAM使用率における最先端性能を確立すること。
b) コンパイラ・プルーニング・コデザインを使用する場合において,事前の作業と比較して分類精度を維持しつつ,部分的な実行のみを10.5倍まで適用することにより,4倍のメモリ削減が可能となること。
(c) 取得したSRAMを使用して高い解像度の入力を処理し、Visual Wake Wordsでは最大で3.9%の精度で処理できる。
関連論文リスト
- Enhancing Length Extrapolation in Sequential Models with Pointer-Augmented Neural Memory [66.88278207591294]
本稿では,新しいより長いデータ列に対して,ニューラルネットワークによるシンボル処理の理解と適用を支援するために,Pointer-Augmented Neural Memory (PANM)を提案する。
PANMは、新しい物理アドレスとポインタ操作技術を使用して、人間とコンピュータのシンボル処理能力を模倣する外部のニューラルメモリを統合する。
論文 参考訳(メタデータ) (2024-04-18T03:03:46Z) - Efficient and accurate neural field reconstruction using resistive memory [52.68088466453264]
デジタルコンピュータにおける従来の信号再構成手法は、ソフトウェアとハードウェアの両方の課題に直面している。
本稿では,スパース入力からの信号再構成のためのソフトウェア・ハードウェア協調最適化を用いた体系的アプローチを提案する。
この研究は、AI駆動の信号復元技術を進歩させ、将来の効率的で堅牢な医療AIと3Dビジョンアプリケーションへの道を開く。
論文 参考訳(メタデータ) (2024-04-15T09:33:09Z) - MCUFormer: Deploying Vision Transformers on Microcontrollers with
Limited Memory [76.02294791513552]
我々はMCUFormerと呼ばれるハードウェア・アルゴリズムの協調最適化手法を提案し、メモリが極端に制限されたマイクロコントローラにビジョントランスフォーマーを配置する。
MCUFormerは320KBのメモリを持つ画像分類のためのImageNet上で73.62%のTop-1精度を実現している。
論文 参考訳(メタデータ) (2023-10-25T18:00:26Z) - Keyword Spotting System and Evaluation of Pruning and Quantization
Methods on Low-power Edge Microcontrollers [7.570300579676175]
キーワードスポッティング(KWS)は、エッジの低消費電力デバイスとの音声ベースのユーザインタラクションに有用である。
本稿では,Cortex-M7コア@216MHzと512KBの静的RAMを備えたSTM32F7マイクロコントローラ上で動作するKWSシステムについて述べる。
論文 参考訳(メタデータ) (2022-08-04T16:49:45Z) - NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。
これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。
LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文 参考訳(メタデータ) (2022-06-28T20:13:40Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z) - MCUNetV2: Memory-Efficient Patch-based Inference for Tiny Deep Learning [72.80896338009579]
メモリボトルネックは畳み込みニューラルネットワーク(CNN)の設計における不均衡なメモリ分布に起因する。
本稿では,ピークメモリを大幅に削減するパッチ・バイ・パッチ・推論スケジューリングを提案する。
ニューラルアーキテクチャサーチによるプロセスを自動化し、ニューラルアーキテクチャと推論スケジューリングを共同で最適化し、MCUNetV2に導いた。
論文 参考訳(メタデータ) (2021-10-28T17:58:45Z) - MAFAT: Memory-Aware Fusing and Tiling of Neural Networks for Accelerated
Edge Inference [1.7894377200944507]
機械学習ネットワークは、利用可能なメモリを容易に越えることができ、OSの過度なスワップによってレイテンシが増加する。
本稿では,メモリ使用量予測器と探索アルゴリズムを組み合わせることで,最適化されたファジングとタイリングの構成を提供する。
その結果、我々のアプローチはメモリの半分以下で実行でき、メモリの厳しい制約下では最大2.78の高速化を実現している。
論文 参考訳(メタデータ) (2021-07-14T19:45:49Z) - Robust High-dimensional Memory-augmented Neural Networks [13.82206983716435]
メモリ拡張ニューラルネットワークは、これらの問題を克服するために、明示的なメモリでニューラルネットワークを強化する。
この明示的なメモリへのアクセスは、各個々のメモリエントリを含むソフト読み取りおよび書き込み操作を介して行われる。
本稿では,高次元(HD)ベクトル上でのアナログインメモリ計算を行う明示メモリとして,計算メモリユニットを用いた頑健なアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-10-05T12:01:56Z) - Efficient Neural Network Deployment for Microcontroller [0.0]
本稿では,マイクロコントローラのための畳み込みニューラルネットワークの展開を探索し,一般化する。
メモリの節約と性能は、ARM Cortex-M CPU用に開発されたCMSIS-NNフレームワークと比較される。
最終的な目的は、トレーニングされたネットワーク重みを持つPyTorchモデルを消費するツールを開発することであり、低メモリ(キロバイトレベル)と限られた計算能力を持つマイクロコントローラのためにC/C++で最適化された推論エンジンとなる。
論文 参考訳(メタデータ) (2020-07-02T19:21:05Z) - In-memory Implementation of On-chip Trainable and Scalable ANN for AI/ML
Applications [0.0]
本稿では,人工知能(AI)と機械学習(ML)アプリケーションを実現するための,ANNのためのインメモリコンピューティングアーキテクチャを提案する。
我々の新しいオンチップトレーニングとインメモリアーキテクチャは、プリチャージサイクル当たりの配列の複数行を同時にアクセスすることで、エネルギーコストを削減し、スループットを向上させる。
提案したアーキテクチャはIRISデータセットでトレーニングされ、以前の分類器と比較してMAC当たりのエネルギー効率が4,6倍に向上した。
論文 参考訳(メタデータ) (2020-05-19T15:36:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。