Fugu-MT 論文翻訳(概要): On-Device Training Under 256KB Memory

論文の概要: On-Device Training Under 256KB Memory

arxiv url: http://arxiv.org/abs/2206.15472v1
Date: Thu, 30 Jun 2022 17:59:08 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-01 14:42:26.685360
Title: On-Device Training Under 256KB Memory
Title（参考訳）: 256KBメモリによるオンデバイストレーニング
Authors: Ji Lin, Ligeng Zhu, Wei-Ming Chen, Wei-Chen Wang, Chuang Gan, Song Han
Abstract要約: 本稿では,256KBのメモリでデバイス上でのトレーニングを可能にするアルゴリズム・システム協調設計フレームワークを提案する。私たちのフレームワークは、小さなIoTデバイス上での視覚認識のデバイス上での転送学習のための、最初の実用的なソリューションです。
参考スコア（独自算出の注目度）: 65.76525493087847
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: On-device training enables the model to adapt to new data collected from the sensors by fine-tuning a pre-trained model. However, the training memory consumption is prohibitive for IoT devices that have tiny memory resources. We propose an algorithm-system co-design framework to make on-device training possible with only 256KB of memory. On-device training faces two unique challenges: (1) the quantized graphs of neural networks are hard to optimize due to mixed bit-precision and the lack of normalization; (2) the limited hardware resource (memory and computation) does not allow full backward computation. To cope with the optimization difficulty, we propose Quantization-Aware Scaling to calibrate the gradient scales and stabilize quantized training. To reduce the memory footprint, we propose Sparse Update to skip the gradient computation of less important layers and sub-tensors. The algorithm innovation is implemented by a lightweight training system, Tiny Training Engine, which prunes the backward computation graph to support sparse updates and offloads the runtime auto-differentiation to compile time. Our framework is the first practical solution for on-device transfer learning of visual recognition on tiny IoT devices (e.g., a microcontroller with only 256KB SRAM), using less than 1/100 of the memory of existing frameworks while matching the accuracy of cloud training+edge deployment for the tinyML application VWW. Our study enables IoT devices to not only perform inference but also continuously adapt to new data for on-device lifelong learning.
Abstract（参考訳）: オンデバイストレーニングでは、事前トレーニングされたモデルを微調整することで、センサーから収集した新しいデータに適応することができる。しかし、トレーニングメモリ消費は、小さなメモリリソースを持つIoTデバイスでは禁じられている。 256kbのメモリしか持たないデバイス上でのトレーニングを可能にするアルゴリズムシステム設計フレームワークを提案する。オンデバイストレーニングには2つの課題がある: 1) ニューラルネットワークの量子化グラフは、混合ビット精度と正規化の欠如により最適化が難しい; (2) 限られたハードウェアリソース(メモリと計算)は完全な後方計算を許さない。最適化の難しさに対処するため,グラデーションスケールを校正し,量子化トレーニングを安定化する量子化対応スケーリングを提案する。メモリフットプリントを削減するために,重要でないレイヤやサブテンソルの勾配計算を省略するスパース更新を提案する。アルゴリズムの革新は、軽量なトレーニングシステムであるtiny training engineによって実装され、後方の計算グラフをいじって、スパースな更新をサポートし、ランタイムの自動微分をコンパイル時にオフロードする。私たちのフレームワークは、小さなIoTデバイス(例えば256KB SRAMしか持たないマイクロコントローラ)上での視覚的認識のオンデバイス移行学習のための最初の実用的なソリューションであり、既存のフレームワークのメモリの1/100未満を使用し、小さなMLアプリケーションであるVWWのクラウドトレーニングとエッジデプロイメントの正確さに適合しています。我々の研究は、IoTデバイスが推論だけでなく、デバイス上での生涯学習のための新しいデータにも継続的に適応できるようにする。

関連論文リスト

Block Selective Reprogramming for On-device Training of Vision Transformers [12.118303034660531]
本稿では,事前学習したモデルのブロック全体のごく一部のみを微調整するブロック選択型再プログラミング(BSR)を提案する。既存の代替手法と比較して、トレーニングメモリを最大1.4倍、計算コストを最大2倍に削減する。
論文参考訳（メタデータ） (2024-03-25T08:41:01Z)
Time-, Memory- and Parameter-Efficient Visual Adaptation [75.28557015773217]
バックボーンを介して勾配をバックプロパゲートしない適応法を提案する。凍結した、事前訓練されたバックボーンの機能を利用する軽量ネットワークを並列に設計することで、これを実現する。
論文参考訳（メタデータ） (2024-02-05T10:55:47Z)
AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。 AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文参考訳（メタデータ） (2023-10-16T09:04:28Z)
TinyTrain: Resource-Aware Task-Adaptive Sparse Training of DNNs at the Data-Scarce Edge [27.533985670823945]
TinyTrainは、モデルの一部を選択的に更新することで、トレーニング時間を劇的に短縮するオンデバイストレーニングアプローチである。 TinyTrainはネットワーク全体のバニラ微調整を3.6-5.0%精度で上回る。 9.5倍の高速化と3.5倍のエネルギー効率のトレーニングを実現している。
論文参考訳（メタデータ） (2023-07-19T13:49:12Z)
Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-05-24T15:52:08Z)
Incremental Online Learning Algorithms Comparison for Gesture and Visual Smart Sensors [68.8204255655161]
本稿では,加速度センサデータに基づくジェスチャー認識と画像分類の2つの実例として,最先端の4つのアルゴリズムを比較した。以上の結果から,これらのシステムの信頼性と小型メモリMCUへのデプロイの可能性が確認された。
論文参考訳（メタデータ） (2022-09-01T17:05:20Z)
POET: Training Neural Networks on Tiny Devices with Integrated Rematerialization and Paging [35.397804171588476]
エッジデバイスの微調整モデルは、機密データに対するプライバシー保護のパーソナライゼーションを可能にする。バッテリー駆動エッジデバイス上での大規模ニューラルネットワークのトレーニングを可能にするアルゴリズムであるPOETを提案する。
論文参考訳（メタデータ） (2022-07-15T18:36:29Z)
Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。 Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。 ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文参考訳（メタデータ） (2021-11-22T11:23:01Z)
Improving compute efficacy frontiers with SliceOut [31.864949424541344]
SliceOut - 最終テスト精度に影響を与えることなく、ディープラーニングモデルを高速にトレーニングするためのドロップアウトインスパイアされたスキームだ。テスト時に、SliceOutをオフにすると、テストの正確性を保持する一連のアーキテクチャに暗黙のアンサンブルが実行される。これにより、大規模な計算ワークロード全体の処理が高速化され、結果として生じるエネルギー消費とCO2エミッションが大幅に削減される。
論文参考訳（メタデータ） (2020-07-21T15:59:09Z)
Low-rank Gradient Approximation For Memory-Efficient On-device Training of Deep Neural Network [9.753369031264532]
モバイルデバイス上で機械学習モデルをトレーニングすることは、モデルのプライバシと精度の両方を改善する可能性がある。この目標を達成する上での大きな障害のひとつは、モバイルデバイスのメモリ制限である。本稿では,低ランクパラメータ化を用いた深層ニューラルネットワークの勾配行列の近似手法を提案する。
論文参考訳（メタデータ） (2020-01-24T05:12:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。