論文の概要: Poor Man's Training on MCUs: A Memory-Efficient Quantized Back-Propagation-Free Approach
- arxiv url: http://arxiv.org/abs/2411.05873v1
- Date: Thu, 07 Nov 2024 22:42:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:13:07.300400
- Title: Poor Man's Training on MCUs: A Memory-Efficient Quantized Back-Propagation-Free Approach
- Title(参考訳): MCUのトレーニング: メモリ効率の良い量子化バックプロパゲーションフリーアプローチ
- Authors: Yequan Zhao, Hai Li, Ian Young, Zheng Zhang,
- Abstract要約: バックプロパゲーション(BP)は、ニューラルネットワークトレーニングにおける勾配計算のデフォルトのソリューションである。
FPGA、マイクロコントローラ(MCU)、アナログコンピューティングプラットフォームなど、さまざまなエッジデバイス上でBPベースのトレーニングを実装することは、さまざまな課題に直面している。
本稿では、エッジトレーニングハードウェア設計を推論ハードウェア設計と同じくらい簡単にする、シンプルなBPフリートレーニングスキームをMCU上で提案する。
- 参考スコア(独自算出の注目度): 9.199493064055586
- License:
- Abstract: Back propagation (BP) is the default solution for gradient computation in neural network training. However, implementing BP-based training on various edge devices such as FPGA, microcontrollers (MCUs), and analog computing platforms face multiple major challenges, such as the lack of hardware resources, long time-to-market, and dramatic errors in a low-precision setting. This paper presents a simple BP-free training scheme on an MCU, which makes edge training hardware design as easy as inference hardware design. We adopt a quantized zeroth-order method to estimate the gradients of quantized model parameters, which can overcome the error of a straight-through estimator in a low-precision BP scheme. We further employ a few dimension reduction methods (e.g., node perturbation, sparse training) to improve the convergence of zeroth-order training. Experiment results show that our BP-free training achieves comparable performance as BP-based training on adapting a pre-trained image classifier to various corrupted data on resource-constrained edge devices (e.g., an MCU with 1024-KB SRAM for dense full-model training, or an MCU with 256-KB SRAM for sparse training). This method is most suitable for application scenarios where memory cost and time-to-market are the major concerns, but longer latency can be tolerated.
- Abstract(参考訳): バックプロパゲーション(BP)は、ニューラルネットワークトレーニングにおける勾配計算のデフォルトのソリューションである。
しかし、FPGA、マイクロコントローラ(MCU)、アナログコンピューティングプラットフォームといった様々なエッジデバイス上でBPベースのトレーニングを実装することは、ハードウェアリソースの不足、市場投入までの長い時間、低精度環境での劇的なエラーなど、いくつかの大きな課題に直面している。
本稿では、エッジトレーニングハードウェア設計を推論ハードウェア設計と同じくらい簡単にする、シンプルなBPフリートレーニングスキームをMCU上で提案する。
低精度BP方式において、ストレートスルー推定器の誤差を克服できる量子化モデルパラメータの勾配を推定するために、量子化ゼロ階法を採用する。
さらに,数次元縮小法(ノード摂動,スパーストレーニングなど)を用いて,ゼロオーダートレーニングの収束性を向上させる。
実験結果から,BPフリートレーニングは,リソース制約エッジデバイス上での各種劣化データに事前学習した画像分類器を適応するためのBPベーストレーニングと同等の性能を示した(例えば,高密度フルモデルトレーニングに1024KBのSRAMを持つMCU,スパーストレーニングに256KBのSRAMを持つMCUなど)。
この方法は、メモリコストと市場投入までの時間が主な関心事であるアプリケーションシナリオに最も適しているが、より長いレイテンシを許容できる。
関連論文リスト
- Stepping Forward on the Last Mile [8.756033984943178]
本稿では,バックプロパゲーションと比較してメモリフットプリントと精度のギャップを低減させるアルゴリズムの一連の拡張を提案する。
その結果、エッジデバイス上でのモデルカスタマイズの最後のマイルでは、固定点前方勾配によるトレーニングが実現可能で実践的なアプローチであることが示されている。
論文 参考訳(メタデータ) (2024-11-06T16:33:21Z) - When Foresight Pruning Meets Zeroth-Order Optimization: Efficient Federated Learning for Low-Memory Devices [36.23767349592602]
Federated Learning (FL)は、AIoT(Artificial Intelligence of Things)設計における協調学習を可能にする。
FLはメモリ使用量が多いため、低メモリのAIoTデバイスでは動作しない。
本稿では,フェデレートされたBPフリートレーニングフレームワークとシームレスに統合可能な,ニューラル・タンジェント・カーネル(NTK)に基づくフェデレーションフォレスト・プルーニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-08T02:24:09Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Tensor-Compressed Back-Propagation-Free Training for (Physics-Informed)
Neural Networks [15.188785164091987]
後方伝播(BP)は、ニューラルネットワークトレーニングの勾配を計算するために広く使われている。
自動微分をサポートするハードウェアやソフトウェアリソースが不足しているため、エッジデバイス上でBPを実装するのは難しい。
本稿では,現実的なニューラルネットワークを学習するためには,前方伝播のみを必要とする,完全にBPフリーなフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-18T23:56:50Z) - Aggregating Capacity in FL through Successive Layer Training for
Computationally-Constrained Devices [3.4530027457862]
フェデレートラーニング(FL)は通常、リソース制約されたエッジデバイス上で実行される。
FLトレーニングプロセスはそのような制約に合わせて調整されるべきである。
本研究では,FLモデルのパラメータをデバイス上で連続的に凍結・訓練する手法を提案する。
論文 参考訳(メタデータ) (2023-05-26T15:04:06Z) - On-Device Training Under 256KB Memory [62.95579393237751]
本稿では,256KBのメモリでデバイス上でのトレーニングを可能にするアルゴリズム・システム協調設計フレームワークを提案する。
私たちのフレームワークは256KBと1MBのFlashで畳み込みニューラルネットワークのデバイス上での小さなトレーニングを可能にする最初のソリューションです。
論文 参考訳(メタデータ) (2022-06-30T17:59:08Z) - BackLink: Supervised Local Training with Backward Links [2.104758015212034]
この研究は、モジュール間の後方依存性を導入し、モジュール間でエラーを流すことが可能な、新しいローカルトレーニングアルゴリズムであるBackLinkを提案する。
提案手法は,ResNet110のメモリコストを79%削減し,ResNet110のシミュレーションランタイムを52%削減する。
論文 参考訳(メタデータ) (2022-05-14T21:49:47Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - Towards Efficient Post-training Quantization of Pre-trained Language
Models [85.68317334241287]
PLMのポストトレーニング量子化(PTQ)について検討し,モジュール単位の量子化誤差最小化(MREM)を提案する。
GLUEとSQuADベンチマークの実験により、提案したPTQソリューションはQATに近く動作するだけでなく、トレーニング時間、メモリオーバーヘッド、データ消費を大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2021-09-30T12:50:06Z) - GDP: Stabilized Neural Network Pruning via Gates with Differentiable
Polarization [84.57695474130273]
ゲートベースまたは重要度に基づくプルーニング手法は、重要度が最小のチャネルを削除することを目的としている。
GDPは、各チャネルのオン・アンド・オフを制御するために、ベルやホイッスルのない畳み込み層の前に接続することができる。
CIFAR-10とImageNetデータセットを用いて行った実験は、提案したGDPが最先端のパフォーマンスを達成することを示している。
論文 参考訳(メタデータ) (2021-09-06T03:17:10Z) - Predicting Training Time Without Training [120.92623395389255]
我々は、事前訓練された深層ネットワークが損失関数の所定の値に収束する必要がある最適化ステップの数を予測する問題に取り組む。
我々は、微調整中の深部ネットワークのトレーニングダイナミクスが線形化モデルによってよく近似されているという事実を活用する。
トレーニングをする必要なく、特定の損失にモデルを微調整するのに要する時間を予測できます。
論文 参考訳(メタデータ) (2020-08-28T04:29:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。