論文の概要: A TinyML Platform for On-Device Continual Learning with Quantized Latent
Replays
- arxiv url: http://arxiv.org/abs/2110.10486v1
- Date: Wed, 20 Oct 2021 11:01:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-23 21:47:19.325844
- Title: A TinyML Platform for On-Device Continual Learning with Quantized Latent
Replays
- Title(参考訳): 量子化潜在リプレイによるオンデバイス連続学習のためのTinyMLプラットフォーム
- Authors: Leonardo Ravaglia, Manuele Rusci, Davide Nadalini, Alessandro
Capotondi, Francesco Conti, Luca Benini
- Abstract要約: Latent Replay-based Continual Learning (CL)技術は、原則としてオンライン、サーバレスの適応を可能にする。
10コアのFP32対応並列超低消費電力プロセッサをベースとした,エンドツーエンドCLのためのHW/SWプラットフォームを提案する。
これらの手法を組み合わせることで,64MB未満のメモリを用いて連続学習を実現することができることを示す。
- 参考スコア(独自算出の注目度): 66.62377866022221
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the last few years, research and development on Deep Learning models and
techniques for ultra-low-power devices in a word, TinyML has mainly focused on
a train-then-deploy assumption, with static models that cannot be adapted to
newly collected data without cloud-based data collection and fine-tuning.
Latent Replay-based Continual Learning (CL) techniques[1] enable online,
serverless adaptation in principle, but so farthey have still been too
computation and memory-hungry for ultra-low-power TinyML devices, which are
typically based on microcontrollers. In this work, we introduce a HW/SW
platform for end-to-end CL based on a 10-core FP32-enabled parallel
ultra-low-power (PULP) processor. We rethink the baseline Latent Replay CL
algorithm, leveraging quantization of the frozen stage of the model and Latent
Replays (LRs) to reduce their memory cost with minimal impact on accuracy. In
particular, 8-bit compression of the LR memory proves to be almost lossless
(-0.26% with 3000LR) compared to the full-precision baseline implementation,
but requires 4x less memory, while 7-bit can also be used with an additional
minimal accuracy degradation (up to 5%). We also introduce optimized primitives
for forward and backward propagation on the PULP processor. Our results show
that by combining these techniques, continual learning can be achieved in
practice using less than 64MB of memory an amount compatible with embedding in
TinyML devices. On an advanced 22nm prototype of our platform, called VEGA, the
proposed solution performs onaverage 65x faster than a low-power STM32 L4
microcontroller, being 37x more energy efficient enough for a lifetime of 535h
when learning a new mini-batch of data once every minute.
- Abstract(参考訳): ここ数年、単語中の超低消費電力デバイスのためのディープラーニングモデルと技術の研究と開発において、TinyMLは主に、クラウドベースのデータ収集と微調整なしで新たに収集されたデータに適応できない静的モデルによる、列車を配置する仮定に焦点を当ててきた。
Latent Replay-based Continual Learning (CL) Technique[1]は、オンライン、サーバレスの原則による適応を可能にするが、これまでのところ、マイクロコントローラをベースとする超低消費電力のTinyMLデバイスには、計算とメモリ不足が多すぎる。
本研究では,10コアFP32対応並列超低消費電力(PULP)プロセッサを用いたエンドツーエンドCLのためのHW/SWプラットフォームを提案する。
我々は,Latent Replay CLアルゴリズムを再考し,モデルとLatent Replays(LR)の凍結ステージの量子化を利用して,メモリコストを最小限の精度で削減する。
特に、LRメモリの8ビット圧縮は、フル精度のベースライン実装と比較してほとんどロスレス(-0.26%と3000LR)であることが証明されているが、メモリは4倍少なく、さらに7ビットは、より最小限の精度の劣化(最大5%)で使用できる。
また,PULPプロセッサ上での前方・後方伝搬に最適化プリミティブを導入する。
これらの手法を組み合わせることで,64MB未満のメモリをTinyMLデバイスに組み込むことで,連続的な学習を実現することができることを示す。
VEGAと呼ばれる先進的な22nmのプロトタイプでは、提案手法は低消費電力のSTM32 L4マイクロコントローラよりも平均65倍高速に動作し、新しいミニバッチを毎分1回学習すると、寿命535時間で37倍エネルギー効率が向上する。
関連論文リスト
- Optimizing TinyML: The Impact of Reduced Data Acquisition Rates for Time Series Classification on Microcontrollers [6.9604565273682955]
本稿では,時系列分類におけるデータ取得率の低減がTinyMLモデルに与える影響について検討する。
データサンプリング頻度を下げることで、RAM使用量、エネルギー消費、レイテンシ、MAC操作を約4倍に削減することを目指している。
論文 参考訳(メタデータ) (2024-09-17T07:21:49Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection [133.45193150403537]
LLM(Large Language Models)のトレーニングは、重み付けやGPU状態の増大によって、メモリ上の重大な問題が発生する。
本研究では,メモリ効率のトレーニング戦略としてグラディエント・ローランド・プロジェクション(GaLore)を提案する。
私たちの8ビットのGaLoreは、BF16ベースラインと比較して、メモリを82.5%、トレーニング総メモリを63.3%削減します。
論文 参考訳(メタデータ) (2024-03-06T07:29:57Z) - SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight
Compression [76.73007709690306]
Sparse-Quantized Representation (SpQR) は,新しい圧縮フォーマットと量子化技術である。
SpQRは、高精度なLLaMAとFalcon LLMのパープレキシティにおいて、1%未満の相対的精度の損失を達成している。
これにより、1台の24GBのコンシューマGPU上で33BパラメータのLSMを実行でき、15%のスピードアップでパフォーマンスの劣化は発生しない。
論文 参考訳(メタデータ) (2023-06-05T17:53:28Z) - TinyReptile: TinyML with Federated Meta-Learning [9.618821589196624]
メタラーニングとオンラインラーニングにインスパイアされた,シンプルだが効率的なアルゴリズムであるTinyReptileを提案する。
Raspberry Pi 4とCortex-M4 MCUで256KBのRAMでTinyReptileをデモした。
論文 参考訳(メタデータ) (2023-04-11T13:11:10Z) - Tiny Classifier Circuits: Evolving Accelerators for Tabular Data [0.8936201690845327]
ティニー回路は小さすぎて(すなわち300以上の論理ゲートが存在しない)「ティニー回路」と呼ばれる。
本稿では,従来の機械学習に匹敵するデータ分類のための回路の自動予測手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T19:13:39Z) - On-Device Training Under 256KB Memory [62.95579393237751]
本稿では,256KBのメモリでデバイス上でのトレーニングを可能にするアルゴリズム・システム協調設計フレームワークを提案する。
私たちのフレームワークは256KBと1MBのFlashで畳み込みニューラルネットワークのデバイス上での小さなトレーニングを可能にする最初のソリューションです。
論文 参考訳(メタデータ) (2022-06-30T17:59:08Z) - TinyML Platforms Benchmarking [0.0]
機械学習(ML)のための超低消費電力組み込みデバイス(Ultra-low Power embedded device)の最近の進歩は、新しい種類の製品を可能にしている。
TinyMLは、低消費電力の組み込みデバイス上でエッジでデータを集約して分析することで、ユニークなソリューションを提供する。
MLモデルのデプロイを容易にするため、さまざまなプラットフォーム向けに多くのTinyMLフレームワークが開発されている。
論文 参考訳(メタデータ) (2021-11-30T15:26:26Z) - BSC: Block-based Stochastic Computing to Enable Accurate and Efficient
TinyML [10.294484356351152]
マシンラーニング(ML)は、スマートフォンや自動運転など、エッジアプリケーションに成功している。
現在、多くのアプリケーションは、TinyMLとして知られる移植可能な除細動器(ICD)のような非常に限られたリソースを持つ小さなデバイスでMLを必要とする。
エッジのMLとは異なり、限られたエネルギー供給を持つTinyMLは低電力実行に対する要求が高い。
論文 参考訳(メタデータ) (2021-11-12T12:28:05Z) - TinyTL: Reduce Activations, Not Trainable Parameters for Efficient
On-Device Learning [78.80707950262214]
デバイス上での学習により、エッジデバイスはAIモデルを新しいデータに継続的に適応できる。
既存の作業は、トレーニング可能なパラメータの数を減らすことで、この問題を解決する。
メモリ効率の高いオンデバイス学習のためのTiny-Transfer-Learning(TinyTL)を提案する。
論文 参考訳(メタデータ) (2020-07-22T18:39:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。