論文の概要: MEMA Runtime Framework: Minimizing External Memory Accesses for TinyML
on Microcontrollers
- arxiv url: http://arxiv.org/abs/2304.05544v1
- Date: Wed, 12 Apr 2023 00:27:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-13 16:24:58.440522
- Title: MEMA Runtime Framework: Minimizing External Memory Accesses for TinyML
on Microcontrollers
- Title(参考訳): MEMA Runtime Framework:マイクロコントローラ上のTinyMLの外部メモリアクセスを最小化
- Authors: Andrew Sabot, Vikas Natesh, H.T. Kung, Wei-Te Ting
- Abstract要約: 本稿では,TinyMLシステムにおける行列乗算のための外部メモリアクセスを最小限に抑える,効率的な推論ランタイムのためのMEMAフレームワークを提案する。
我々は,MEMAから派生したランタイムと,ARMベースのTinyMLシステム上での既存の最先端ライブラリのパフォーマンスを比較した。
- 参考スコア(独自算出の注目度): 3.1823074562424756
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present the MEMA framework for the easy and quick derivation of efficient
inference runtimes that minimize external memory accesses for matrix
multiplication on TinyML systems. The framework accounts for hardware resource
constraints and problem sizes in analytically determining optimized schedules
and kernels that minimize memory accesses. MEMA provides a solution to a
well-known problem in the current practice, that is, optimal schedules tend to
be found only through a time consuming and heuristic search of a large
scheduling space. We compare the performance of runtimes derived from MEMA to
existing state-of-the-art libraries on ARM-based TinyML systems. For example,
for neural network benchmarks on the ARM Cortex-M4, we achieve up to a 1.8x
speedup and 44% energy reduction over CMSIS-NN.
- Abstract(参考訳): 本稿では,行列乗算のための外部メモリアクセスを最小限に抑える効率的な推論ランタイムの簡易かつ迅速な導出のためのmemaフレームワークを提案する。
このフレームワークは、メモリアクセスを最小限に抑える最適化されたスケジュールとカーネルを解析的に決定する際のハードウェアリソースの制約と問題サイズを考慮に入れている。
MEMAは、現在の実践においてよく知られた問題の解決策を提供する、すなわち、最適なスケジュールは、大規模なスケジューリング空間の時間とヒューリスティックな探索によってのみ見つかる傾向がある。
我々は,MEMAから派生したランタイムと,ARMベースのTinyMLシステム上の既存の最先端ライブラリのパフォーマンスを比較した。
例えば、ARM Cortex-M4のニューラルネットワークベンチマークでは、最大1.8倍のスピードアップと44%のエネルギー削減を実現しています。
関連論文リスト
- LiVOS: Light Video Object Segmentation with Gated Linear Matching [116.58237547253935]
LiVOSはリニアアテンションによるリニアマッチングを利用する軽量メモリネットワークである。
長くて高解像度のビデオでは、STMベースのメソッドと53%のGPUメモリで一致し、32Gの消費者向けGPU上で4096pの推論をサポートする。
論文 参考訳(メタデータ) (2024-11-05T05:36:17Z) - MicroFlow: An Efficient Rust-Based Inference Engine for TinyML [1.8902208722501446]
MicroFlowは、Rustプログラミング言語を使用した組み込みシステムにニューラルネットワーク(NN)をデプロイするためのオープンソースのフレームワークである。
NN参照モデルのデプロイにおいて、他の最先端ソリューションよりも、FlashやRAMメモリの使用が少ない。
また、中規模のNNでは既存のエンジンよりも高速な推論が可能であり、大きなNNでは同様の性能が得られる。
論文 参考訳(メタデータ) (2024-09-28T18:34:27Z) - Accelerating TinyML Inference on Microcontrollers through Approximate Kernels [3.566060656925169]
本研究では、近似計算とソフトウェアカーネル設計を組み合わせることで、マイクロコントローラ上での近似CNNモデルの推定を高速化する。
CIFAR-10データセットでトレーニングされたSTM32-Nucleoボードと2つの人気のあるCNNによる評価は、最先端の正確な推測と比較すると、平均21%のレイテンシ削減が可能であることを示している。
論文 参考訳(メタデータ) (2024-09-25T11:10:33Z) - MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。
バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。
MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文 参考訳(メタデータ) (2024-08-21T16:10:41Z) - Fast Matrix Multiplications for Lookup Table-Quantized LLMs [58.11584672945781]
FLUTEはLUT量子化LLM用のフレキシブルなルックアップテーブルエンジンである。
バッチサイズ32と量子化グループサイズ128では、FLUTEカーネルは既存のGEMMカーネルよりも2〜4倍高速である。
論文 参考訳(メタデータ) (2024-07-15T17:55:42Z) - MLonMCU: TinyML Benchmarking with Fast Retargeting [1.4319942396517]
特定のアプリケーションに対して、フレームワークとターゲットの最適な組み合わせを選択するのは簡単ではありません。
MLonMCUと呼ばれるツールが提案され,最新のTinyMLフレームワークであるTFLite for MicrocontrollersとTVMのベンチマークによって実証されている。
論文 参考訳(メタデータ) (2023-06-15T08:44:35Z) - Pex: Memory-efficient Microcontroller Deep Learning through Partial
Execution [11.336229510791481]
マイクロコントローラ深層学習のための新しい実行パラダイムについて論じる。
ニューラルネットワークの実行を変更して、メモリの完全なバッファーを作らないようにする。
これは演算子のプロパティを利用することで実現され、一度にインプット/アウトプットのごく一部を消費/生産することができる。
論文 参考訳(メタデータ) (2022-11-30T18:47:30Z) - MinUn: Accurate ML Inference on Microcontrollers [2.2638536653874195]
TinyMLとして知られる小さなデバイスで機械学習推論を実行することは、新たな研究分野である。
MinUnは、ARMマイクロコントローラの効率的なコードを生成するために、これらの問題に一様に対処する最初のTinyMLフレームワークである。
論文 参考訳(メタデータ) (2022-10-29T10:16:12Z) - NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。
これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。
LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文 参考訳(メタデータ) (2022-06-28T20:13:40Z) - MCUNetV2: Memory-Efficient Patch-based Inference for Tiny Deep Learning [72.80896338009579]
メモリボトルネックは畳み込みニューラルネットワーク(CNN)の設計における不均衡なメモリ分布に起因する。
本稿では,ピークメモリを大幅に削減するパッチ・バイ・パッチ・推論スケジューリングを提案する。
ニューラルアーキテクチャサーチによるプロセスを自動化し、ニューラルアーキテクチャと推論スケジューリングを共同で最適化し、MCUNetV2に導いた。
論文 参考訳(メタデータ) (2021-10-28T17:58:45Z) - A TinyML Platform for On-Device Continual Learning with Quantized Latent
Replays [66.62377866022221]
Latent Replay-based Continual Learning (CL)技術は、原則としてオンライン、サーバレスの適応を可能にする。
10コアのFP32対応並列超低消費電力プロセッサをベースとした,エンドツーエンドCLのためのHW/SWプラットフォームを提案する。
これらの手法を組み合わせることで,64MB未満のメモリを用いて連続学習を実現することができることを示す。
論文 参考訳(メタデータ) (2021-10-20T11:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。