論文の概要: On-Device Training Under 256KB Memory
- arxiv url: http://arxiv.org/abs/2206.15472v1
- Date: Thu, 30 Jun 2022 17:59:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-01 14:42:26.685360
- Title: On-Device Training Under 256KB Memory
- Title(参考訳): 256KBメモリによるオンデバイストレーニング
- Authors: Ji Lin, Ligeng Zhu, Wei-Ming Chen, Wei-Chen Wang, Chuang Gan, Song Han
- Abstract要約: 本稿では,256KBのメモリでデバイス上でのトレーニングを可能にするアルゴリズム・システム協調設計フレームワークを提案する。
私たちのフレームワークは、小さなIoTデバイス上での視覚認識のデバイス上での転送学習のための、最初の実用的なソリューションです。
- 参考スコア(独自算出の注目度): 65.76525493087847
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: On-device training enables the model to adapt to new data collected from the
sensors by fine-tuning a pre-trained model. However, the training memory
consumption is prohibitive for IoT devices that have tiny memory resources. We
propose an algorithm-system co-design framework to make on-device training
possible with only 256KB of memory. On-device training faces two unique
challenges: (1) the quantized graphs of neural networks are hard to optimize
due to mixed bit-precision and the lack of normalization; (2) the limited
hardware resource (memory and computation) does not allow full backward
computation. To cope with the optimization difficulty, we propose
Quantization-Aware Scaling to calibrate the gradient scales and stabilize
quantized training. To reduce the memory footprint, we propose Sparse Update to
skip the gradient computation of less important layers and sub-tensors. The
algorithm innovation is implemented by a lightweight training system, Tiny
Training Engine, which prunes the backward computation graph to support sparse
updates and offloads the runtime auto-differentiation to compile time. Our
framework is the first practical solution for on-device transfer learning of
visual recognition on tiny IoT devices (e.g., a microcontroller with only 256KB
SRAM), using less than 1/100 of the memory of existing frameworks while
matching the accuracy of cloud training+edge deployment for the tinyML
application VWW. Our study enables IoT devices to not only perform inference
but also continuously adapt to new data for on-device lifelong learning.
- Abstract(参考訳): オンデバイストレーニングでは、事前トレーニングされたモデルを微調整することで、センサーから収集した新しいデータに適応することができる。
しかし、トレーニングメモリ消費は、小さなメモリリソースを持つIoTデバイスでは禁じられている。
256kbのメモリしか持たないデバイス上でのトレーニングを可能にするアルゴリズムシステム設計フレームワークを提案する。
オンデバイストレーニングには2つの課題がある: 1) ニューラルネットワークの量子化グラフは、混合ビット精度と正規化の欠如により最適化が難しい; (2) 限られたハードウェアリソース(メモリと計算)は完全な後方計算を許さない。
最適化の難しさに対処するため,グラデーションスケールを校正し,量子化トレーニングを安定化する量子化対応スケーリングを提案する。
メモリフットプリントを削減するために,重要でないレイヤやサブテンソルの勾配計算を省略するスパース更新を提案する。
アルゴリズムの革新は、軽量なトレーニングシステムであるtiny training engineによって実装され、後方の計算グラフをいじって、スパースな更新をサポートし、ランタイムの自動微分をコンパイル時にオフロードする。
私たちのフレームワークは、小さなIoTデバイス(例えば256KB SRAMしか持たないマイクロコントローラ)上での視覚的認識のオンデバイス移行学習のための最初の実用的なソリューションであり、既存のフレームワークのメモリの1/100未満を使用し、小さなMLアプリケーションであるVWWのクラウドトレーニングとエッジデプロイメントの正確さに適合しています。
我々の研究は、IoTデバイスが推論だけでなく、デバイス上での生涯学習のための新しいデータにも継続的に適応できるようにする。
関連論文リスト
- Block Selective Reprogramming for On-device Training of Vision Transformers [12.118303034660531]
本稿では,事前学習したモデルのブロック全体のごく一部のみを微調整するブロック選択型再プログラミング(BSR)を提案する。
既存の代替手法と比較して、トレーニングメモリを最大1.4倍、計算コストを最大2倍に削減する。
論文 参考訳(メタデータ) (2024-03-25T08:41:01Z) - Time-, Memory- and Parameter-Efficient Visual Adaptation [75.28557015773217]
バックボーンを介して勾配をバックプロパゲートしない適応法を提案する。
凍結した、事前訓練されたバックボーンの機能を利用する軽量ネットワークを並列に設計することで、これを実現する。
論文 参考訳(メタデータ) (2024-02-05T10:55:47Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - TinyTrain: Resource-Aware Task-Adaptive Sparse Training of DNNs at the Data-Scarce Edge [27.533985670823945]
TinyTrainは、モデルの一部を選択的に更新することで、トレーニング時間を劇的に短縮するオンデバイストレーニングアプローチである。
TinyTrainはネットワーク全体のバニラ微調整を3.6-5.0%精度で上回る。
9.5倍の高速化と3.5倍のエネルギー効率のトレーニングを実現している。
論文 参考訳(メタデータ) (2023-07-19T13:49:12Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Incremental Online Learning Algorithms Comparison for Gesture and Visual
Smart Sensors [68.8204255655161]
本稿では,加速度センサデータに基づくジェスチャー認識と画像分類の2つの実例として,最先端の4つのアルゴリズムを比較した。
以上の結果から,これらのシステムの信頼性と小型メモリMCUへのデプロイの可能性が確認された。
論文 参考訳(メタデータ) (2022-09-01T17:05:20Z) - POET: Training Neural Networks on Tiny Devices with Integrated
Rematerialization and Paging [35.397804171588476]
エッジデバイスの微調整モデルは、機密データに対するプライバシー保護のパーソナライゼーションを可能にする。
バッテリー駆動エッジデバイス上での大規模ニューラルネットワークのトレーニングを可能にするアルゴリズムであるPOETを提案する。
論文 参考訳(メタデータ) (2022-07-15T18:36:29Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z) - Improving compute efficacy frontiers with SliceOut [31.864949424541344]
SliceOut - 最終テスト精度に影響を与えることなく、ディープラーニングモデルを高速にトレーニングするためのドロップアウトインスパイアされたスキームだ。
テスト時に、SliceOutをオフにすると、テストの正確性を保持する一連のアーキテクチャに暗黙のアンサンブルが実行される。
これにより、大規模な計算ワークロード全体の処理が高速化され、結果として生じるエネルギー消費とCO2エミッションが大幅に削減される。
論文 参考訳(メタデータ) (2020-07-21T15:59:09Z) - Low-rank Gradient Approximation For Memory-Efficient On-device Training
of Deep Neural Network [9.753369031264532]
モバイルデバイス上で機械学習モデルをトレーニングすることは、モデルのプライバシと精度の両方を改善する可能性がある。
この目標を達成する上での大きな障害のひとつは、モバイルデバイスのメモリ制限である。
本稿では,低ランクパラメータ化を用いた深層ニューラルネットワークの勾配行列の近似手法を提案する。
論文 参考訳(メタデータ) (2020-01-24T05:12:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。