論文の概要: On-Device Training Under 256KB Memory
- arxiv url: http://arxiv.org/abs/2206.15472v1
- Date: Thu, 30 Jun 2022 17:59:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-01 14:42:26.685360
- Title: On-Device Training Under 256KB Memory
- Title(参考訳): 256KBメモリによるオンデバイストレーニング
- Authors: Ji Lin, Ligeng Zhu, Wei-Ming Chen, Wei-Chen Wang, Chuang Gan, Song Han
- Abstract要約: 本稿では,256KBのメモリでデバイス上でのトレーニングを可能にするアルゴリズム・システム協調設計フレームワークを提案する。
私たちのフレームワークは、小さなIoTデバイス上での視覚認識のデバイス上での転送学習のための、最初の実用的なソリューションです。
- 参考スコア(独自算出の注目度): 65.76525493087847
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: On-device training enables the model to adapt to new data collected from the
sensors by fine-tuning a pre-trained model. However, the training memory
consumption is prohibitive for IoT devices that have tiny memory resources. We
propose an algorithm-system co-design framework to make on-device training
possible with only 256KB of memory. On-device training faces two unique
challenges: (1) the quantized graphs of neural networks are hard to optimize
due to mixed bit-precision and the lack of normalization; (2) the limited
hardware resource (memory and computation) does not allow full backward
computation. To cope with the optimization difficulty, we propose
Quantization-Aware Scaling to calibrate the gradient scales and stabilize
quantized training. To reduce the memory footprint, we propose Sparse Update to
skip the gradient computation of less important layers and sub-tensors. The
algorithm innovation is implemented by a lightweight training system, Tiny
Training Engine, which prunes the backward computation graph to support sparse
updates and offloads the runtime auto-differentiation to compile time. Our
framework is the first practical solution for on-device transfer learning of
visual recognition on tiny IoT devices (e.g., a microcontroller with only 256KB
SRAM), using less than 1/100 of the memory of existing frameworks while
matching the accuracy of cloud training+edge deployment for the tinyML
application VWW. Our study enables IoT devices to not only perform inference
but also continuously adapt to new data for on-device lifelong learning.
- Abstract(参考訳): オンデバイストレーニングでは、事前トレーニングされたモデルを微調整することで、センサーから収集した新しいデータに適応することができる。
しかし、トレーニングメモリ消費は、小さなメモリリソースを持つIoTデバイスでは禁じられている。
256kbのメモリしか持たないデバイス上でのトレーニングを可能にするアルゴリズムシステム設計フレームワークを提案する。
オンデバイストレーニングには2つの課題がある: 1) ニューラルネットワークの量子化グラフは、混合ビット精度と正規化の欠如により最適化が難しい; (2) 限られたハードウェアリソース(メモリと計算)は完全な後方計算を許さない。
最適化の難しさに対処するため,グラデーションスケールを校正し,量子化トレーニングを安定化する量子化対応スケーリングを提案する。
メモリフットプリントを削減するために,重要でないレイヤやサブテンソルの勾配計算を省略するスパース更新を提案する。
アルゴリズムの革新は、軽量なトレーニングシステムであるtiny training engineによって実装され、後方の計算グラフをいじって、スパースな更新をサポートし、ランタイムの自動微分をコンパイル時にオフロードする。
私たちのフレームワークは、小さなIoTデバイス(例えば256KB SRAMしか持たないマイクロコントローラ)上での視覚的認識のオンデバイス移行学習のための最初の実用的なソリューションであり、既存のフレームワークのメモリの1/100未満を使用し、小さなMLアプリケーションであるVWWのクラウドトレーニングとエッジデプロイメントの正確さに適合しています。
我々の研究は、IoTデバイスが推論だけでなく、デバイス上での生涯学習のための新しいデータにも継続的に適応できるようにする。
関連論文リスト
- Time-, Memory- and Parameter-Efficient Visual Adaptation [75.28557015773217]
バックボーンを介して勾配をバックプロパゲートしない適応法を提案する。
凍結した、事前訓練されたバックボーンの機能を利用する軽量ネットワークを並列に設計することで、これを実現する。
論文 参考訳(メタデータ) (2024-02-05T10:55:47Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of
Language Model [92.55145016562867]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Fast offset corrected in-memory training [0.0]
インメモリコンピューティングのための新しいアルゴリズムと改良アルゴリズムを2つ提案する。
Chopped-TTv2 (c-TTv2) と Analog Gradient Accumulation with Dynamic Reference (AGAD) は同じランタイムの複雑さを維持しているが、チョッパーを使用した残りのオフセットに対して正しい。
論文 参考訳(メタデータ) (2023-03-08T17:07:09Z) - Incremental Online Learning Algorithms Comparison for Gesture and Visual
Smart Sensors [68.8204255655161]
本稿では,加速度センサデータに基づくジェスチャー認識と画像分類の2つの実例として,最先端の4つのアルゴリズムを比較した。
以上の結果から,これらのシステムの信頼性と小型メモリMCUへのデプロイの可能性が確認された。
論文 参考訳(メタデータ) (2022-09-01T17:05:20Z) - POET: Training Neural Networks on Tiny Devices with Integrated
Rematerialization and Paging [35.397804171588476]
エッジデバイスの微調整モデルは、機密データに対するプライバシー保護のパーソナライゼーションを可能にする。
バッテリー駆動エッジデバイス上での大規模ニューラルネットワークのトレーニングを可能にするアルゴリズムであるPOETを提案する。
論文 参考訳(メタデータ) (2022-07-15T18:36:29Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z) - Layered gradient accumulation and modular pipeline parallelism: fast and
efficient training of large language models [0.0]
分散トレーニングのさまざまな構成について、可能な限り最短のトレーニング時間を分析します。
本稿では,最短トレーニング時間を半減する2つの新しい手法,テキスト層勾配蓄積法とテキストモジュールパイプライン並列化法を提案する。
論文 参考訳(メタデータ) (2021-06-04T19:21:49Z) - Improving compute efficacy frontiers with SliceOut [31.864949424541344]
SliceOut - 最終テスト精度に影響を与えることなく、ディープラーニングモデルを高速にトレーニングするためのドロップアウトインスパイアされたスキームだ。
テスト時に、SliceOutをオフにすると、テストの正確性を保持する一連のアーキテクチャに暗黙のアンサンブルが実行される。
これにより、大規模な計算ワークロード全体の処理が高速化され、結果として生じるエネルギー消費とCO2エミッションが大幅に削減される。
論文 参考訳(メタデータ) (2020-07-21T15:59:09Z) - One-step regression and classification with crosspoint resistive memory
arrays [62.997667081978825]
高速で低エネルギーのコンピュータは、エッジでリアルタイム人工知能を実現するために要求されている。
ワンステップ学習は、ボストンの住宅のコスト予測と、MNIST桁認識のための2層ニューラルネットワークのトレーニングによって支援される。
結果は、クロスポイントアレイ内の物理計算、並列計算、アナログ計算のおかげで、1つの計算ステップで得られる。
論文 参考訳(メタデータ) (2020-05-05T08:00:07Z) - Low-rank Gradient Approximation For Memory-Efficient On-device Training
of Deep Neural Network [9.753369031264532]
モバイルデバイス上で機械学習モデルをトレーニングすることは、モデルのプライバシと精度の両方を改善する可能性がある。
この目標を達成する上での大きな障害のひとつは、モバイルデバイスのメモリ制限である。
本稿では,低ランクパラメータ化を用いた深層ニューラルネットワークの勾配行列の近似手法を提案する。
論文 参考訳(メタデータ) (2020-01-24T05:12:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。