論文の概要: Efficient On-device Training via Gradient Filtering
- arxiv url: http://arxiv.org/abs/2301.00330v1
- Date: Sun, 1 Jan 2023 02:33:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 13:41:36.840422
- Title: Efficient On-device Training via Gradient Filtering
- Title(参考訳): グラディエントフィルタによるデバイス教育の効率化
- Authors: Yuedong Yang, Guihong Li, Radu Marculescu
- Abstract要約: 本稿では,デバイス上でのDNNモデルトレーニングを可能にする勾配フィルタリング手法を提案する。
本手法は,勾配マップの特異な要素が少なく,学習中のバック伝搬の計算複雑性とメモリ消費を著しく低減する特別な構造を創出する。
例えば、SOTAと比較して、ImageNet分類で最大19$times$スピードアップと77.1%のメモリ節約を達成でき、精度はわずか0.1%である。
- 参考スコア(独自算出の注目度): 14.484604762427717
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite its importance for federated learning, continuous learning and many
other applications, on-device training remains an open problem for EdgeAI. The
problem stems from the large number of operations (e.g., floating point
multiplications and additions) and memory consumption required during training
by the back-propagation algorithm. Consequently, in this paper, we propose a
new gradient filtering approach which enables on-device DNN model training.
More precisely, our approach creates a special structure with fewer unique
elements in the gradient map, thus significantly reducing the computational
complexity and memory consumption of back propagation during training.
Extensive experiments on image classification and semantic segmentation with
multiple DNN models (e.g., MobileNet, DeepLabV3, UPerNet) and devices (e.g.,
Raspberry Pi and Jetson Nano) demonstrate the effectiveness and wide
applicability of our approach. For example, compared to SOTA, we achieve up to
19$\times$ speedup and 77.1% memory savings on ImageNet classification with
only 0.1% accuracy loss. Finally, our method is easy to implement and deploy;
over 20$\times$ speedup and 90% energy savings have been observed compared to
highly optimized baselines in MKLDNN and CUDNN on NVIDIA Jetson Nano.
Consequently, our approach opens up a new direction of research with a huge
potential for on-device training.
- Abstract(参考訳): フェデレーション学習、継続的学習、その他多くのアプリケーションにおいて重要であるにもかかわらず、デバイス上でのトレーニングはEdgeAIにとってオープンな問題である。
この問題は、大量の演算(浮動小数点乗算や加算など)と、バックプロパゲーションアルゴリズムによるトレーニングに必要なメモリ消費に起因している。
そこで本研究では,デバイス上でのDNNモデルトレーニングを可能にする勾配フィルタリング手法を提案する。
より正確には,本手法は勾配マップの特異な要素が少なく,学習中のバック伝搬の計算複雑性とメモリ消費を著しく低減する特別な構造を生成する。
複数のDNNモデル(MobileNet、DeepLabV3、UPerNetなど)とデバイス(Raspberry PiやJetson Nanoなど)による画像分類とセマンティックセグメンテーションに関する広範な実験は、このアプローチの有効性と幅広い適用性を示している。
例えば、SOTAと比較して、ImageNet分類で最大19$\times$スピードアップと77.1%のメモリ節約を達成でき、精度はわずか0.1%である。
NVIDIA Jetson Nano上でのMKLDNNとCUDNNの高度に最適化されたベースラインと比較して,20ドル以上のスピードアップと90%の省エネが観測されている。
その結果,本手法はデバイス上でのトレーニングに大きな可能性を持つ新たな研究の方向性を開く。
関連論文リスト
- Center-Sensitive Kernel Optimization for Efficient On-Device Incremental Learning [88.78080749909665]
現在のオンデバイストレーニング手法は、破滅的な忘れを考慮せずに、効率的なトレーニングにのみ焦点をあてている。
本稿では,単純だが効果的なエッジフレンドリーなインクリメンタル学習フレームワークを提案する。
本手法は,メモリの削減と近似計算により,平均精度38.08%の高速化を実現する。
論文 参考訳(メタデータ) (2024-06-13T05:49:29Z) - Fast-NTK: Parameter-Efficient Unlearning for Large-Scale Models [17.34908967455907]
マシン・アンラーニング'は、スクラッチから再トレーニングすることなく、不要なデータの選択的削除を提案する。
Fast-NTKはNTKベースの新しいアンラーニングアルゴリズムであり、計算複雑性を大幅に削減する。
論文 参考訳(メタデータ) (2023-12-22T18:55:45Z) - Towards Memory- and Time-Efficient Backpropagation for Training Spiking
Neural Networks [70.75043144299168]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックコンピューティングのためのエネルギー効率の高いモデルである。
本研究では,学習効率を大幅に向上させつつ,高い性能を達成できる空間学習時間(SLTT)法を提案する。
BPTTと比較して, メモリコストとトレーニング時間は, それぞれ70%以上, 50%以上削減されている。
論文 参考訳(メタデータ) (2023-02-28T05:01:01Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - FastHebb: Scaling Hebbian Training of Deep Neural Networks to ImageNet
Level [7.410940271545853]
我々は、Hebbian学習のための効率的でスケーラブルなソリューションであるFastHebbを紹介する。
FastHebbはトレーニングのスピードで、これまでのソリューションを最大50倍のパフォーマンスで上回っている。
私たちは初めて、HebbianアルゴリズムをImageNetスケールに持ち込むことができます。
論文 参考訳(メタデータ) (2022-07-07T09:04:55Z) - On-Device Training Under 256KB Memory [62.95579393237751]
本稿では,256KBのメモリでデバイス上でのトレーニングを可能にするアルゴリズム・システム協調設計フレームワークを提案する。
私たちのフレームワークは256KBと1MBのFlashで畳み込みニューラルネットワークのデバイス上での小さなトレーニングを可能にする最初のソリューションです。
論文 参考訳(メタデータ) (2022-06-30T17:59:08Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - perf4sight: A toolflow to model CNN training performance on Edge GPUs [16.61258138725983]
この研究は、CNNのトレーニングメモリフットプリントとレイテンシを予測する正確なモデルを開発するための自動化手法であるperf4sightを提案する。
フレームワークはPyTorch、ターゲットデバイスはNVIDIA Jetson TX2、それぞれ95%と91%の精度でトレーニングメモリフットプリントとレイテンシを予測する。
論文 参考訳(メタデータ) (2021-08-12T07:55:37Z) - FracTrain: Fractionally Squeezing Bit Savings Both Temporally and
Spatially for Efficient DNN Training [81.85361544720885]
アクティベーション、ウェイト、グラデーションの精度を徐々に高めるプログレッシブ分数量子化を統合したFracTrainを提案します。
FracTrainはDNNトレーニングの計算コストとハードウェア量子化エネルギー/レイテンシを削減し、同等以上の精度(-0.12%+1.87%)を達成する。
論文 参考訳(メタデータ) (2020-12-24T05:24:10Z) - Enabling On-Device CNN Training by Self-Supervised Instance Filtering
and Error Map Pruning [17.272561332310303]
この研究は、トレーニング時の計算コストを削減し、デバイス上での畳み込みニューラルネットワーク(CNN)のトレーニングを可能にすることを目的としている。
CNNモデルは、通常高性能コンピュータ上で訓練され、訓練されたモデルのみがエッジデバイスにデプロイされる。
論文 参考訳(メタデータ) (2020-07-07T05:52:37Z) - Multi-Precision Policy Enforced Training (MuPPET): A precision-switching
strategy for quantised fixed-point training of CNNs [13.83645579871775]
大規模な畳み込みニューラルネットワーク(CNN)は、数時間から数週間にわたる非常に長いトレーニング時間に悩まされる。
この研究は、複数の精度を利用するマルチレベルアプローチを採用することで、定量化トレーニングの境界を押し上げる。
MuPPETは、トレーニング時のスピードアップを最大1.84$times$、ネットワーク全体の平均スピードアップを1.58$times$とすることで、通常の完全精度トレーニングと同じ精度を達成する。
論文 参考訳(メタデータ) (2020-06-16T10:14:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。