論文の概要: TinyTrain: Resource-Aware Task-Adaptive Sparse Training of DNNs at the Data-Scarce Edge
- arxiv url: http://arxiv.org/abs/2307.09988v2
- Date: Mon, 10 Jun 2024 20:57:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 01:18:21.081193
- Title: TinyTrain: Resource-Aware Task-Adaptive Sparse Training of DNNs at the Data-Scarce Edge
- Title(参考訳): TinyTrain: Data-Scarce EdgeにおけるDNNのリソース対応タスク適応スパーストレーニング
- Authors: Young D. Kwon, Rui Li, Stylianos I. Venieris, Jagmohan Chauhan, Nicholas D. Lane, Cecilia Mascolo,
- Abstract要約: TinyTrainは、モデルの一部を選択的に更新することで、トレーニング時間を劇的に短縮するオンデバイストレーニングアプローチである。
TinyTrainはネットワーク全体のバニラ微調整を3.6-5.0%精度で上回る。
9.5倍の高速化と3.5倍のエネルギー効率のトレーニングを実現している。
- 参考スコア(独自算出の注目度): 27.533985670823945
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: On-device training is essential for user personalisation and privacy. With the pervasiveness of IoT devices and microcontroller units (MCUs), this task becomes more challenging due to the constrained memory and compute resources, and the limited availability of labelled user data. Nonetheless, prior works neglect the data scarcity issue, require excessively long training time (e.g. a few hours), or induce substantial accuracy loss (>10%). In this paper, we propose TinyTrain, an on-device training approach that drastically reduces training time by selectively updating parts of the model and explicitly coping with data scarcity. TinyTrain introduces a task-adaptive sparse-update method that dynamically selects the layer/channel to update based on a multi-objective criterion that jointly captures user data, the memory, and the compute capabilities of the target device, leading to high accuracy on unseen tasks with reduced computation and memory footprint. TinyTrain outperforms vanilla fine-tuning of the entire network by 3.6-5.0% in accuracy, while reducing the backward-pass memory and computation cost by up to 1,098x and 7.68x, respectively. Targeting broadly used real-world edge devices, TinyTrain achieves 9.5x faster and 3.5x more energy-efficient training over status-quo approaches, and 2.23x smaller memory footprint than SOTA methods, while remaining within the 1 MB memory envelope of MCU-grade platforms.
- Abstract(参考訳): デバイス上でのトレーニングは、ユーザのパーソナライゼーションとプライバシにとって不可欠である。
IoTデバイスとマイクロコントローラユニット(MCU)の普及により、メモリと計算リソースの制約やラベル付きユーザデータの可用性の制限により、このタスクはより困難になる。
それでも、事前の作業はデータ不足の問題を無視し、過度に長いトレーニング時間(例えば数時間)を必要とするか、あるいは相当な精度の損失(>10%)を引き起こす。
本稿では、モデルの一部を選択的に更新し、データ不足に明示的に対処することにより、トレーニング時間を劇的に短縮する、デバイス上でのトレーニングアプローチであるTinyTrainを提案する。
TinyTrainはタスク適応スパース更新方式を導入し、マルチオブジェクトの基準に基づいて動的にレイヤ/チャネルを選択して、ユーザデータ、メモリ、およびターゲットデバイスの計算能力を共同でキャプチャし、計算量とメモリフットプリントを削減した未確認タスクの精度を高める。
TinyTrainは、ネットワーク全体のバニラ微調整を3.6-5.0%精度で上回り、後方通過メモリと計算コストを1,098xと7.68xに下げる。
広く使われている現実世界のエッジデバイスをターゲットとして、TinyTrainは9.5倍高速で3.5倍のエネルギー効率のトレーニングを実現し、MCUグレードプラットフォームの1MBメモリエンベロープ内に留まりながら、SOTA法よりも2.23倍少ないメモリフットプリントを実現している。
関連論文リスト
- Block Selective Reprogramming for On-device Training of Vision Transformers [12.118303034660531]
本稿では,事前学習したモデルのブロック全体のごく一部のみを微調整するブロック選択型再プログラミング(BSR)を提案する。
既存の代替手法と比較して、トレーニングメモリを最大1.4倍、計算コストを最大2倍に削減する。
論文 参考訳(メタデータ) (2024-03-25T08:41:01Z) - SCoTTi: Save Computation at Training Time with an adaptive framework [7.780766187171572]
デバイス上でのトレーニングは、エッジデバイス上でモデルをトレーニングする機械学習における新たなアプローチである。
本研究では,SCoTTi(Save Computation at Training Time)を提案する。
提案手法は, 様々なベンチマークにおいて, 計算資源の節約に関する最先端手法と比較して, 優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-19T16:19:33Z) - Fast Machine Unlearning Without Retraining Through Selective Synaptic
Dampening [51.34904967046097]
Selective Synaptic Dampening (SSD)は高速で、訓練データの長期保存を必要としない。
高速で性能が高く,トレーニングデータの長期保存を必要としない,新しい2段階のポストホック,リトレーニングフリーなマシンアンラーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-15T11:30:45Z) - Peeling the Onion: Hierarchical Reduction of Data Redundancy for
Efficient Vision Transformer Training [110.79400526706081]
ビジョントランス (ViT) は近年多くのアプリケーションで成功を収めているが、その計算量とメモリ使用量によって一般化が制限されている。
従来の圧縮アルゴリズムは通常、事前訓練された高密度モデルから始まり、効率的な推論のみに焦点を当てる。
本稿では,3つのスパースの観点から,Tri-Level E-ViTと呼ばれるエンドツーエンドの効率的なトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-19T21:15:47Z) - POET: Training Neural Networks on Tiny Devices with Integrated
Rematerialization and Paging [35.397804171588476]
エッジデバイスの微調整モデルは、機密データに対するプライバシー保護のパーソナライゼーションを可能にする。
バッテリー駆動エッジデバイス上での大規模ニューラルネットワークのトレーニングを可能にするアルゴリズムであるPOETを提案する。
論文 参考訳(メタデータ) (2022-07-15T18:36:29Z) - On-Device Training Under 256KB Memory [62.95579393237751]
本稿では,256KBのメモリでデバイス上でのトレーニングを可能にするアルゴリズム・システム協調設計フレームワークを提案する。
私たちのフレームワークは256KBと1MBのFlashで畳み込みニューラルネットワークのデバイス上での小さなトレーニングを可能にする最初のソリューションです。
論文 参考訳(メタデータ) (2022-06-30T17:59:08Z) - Knowledge Distillation as Efficient Pre-training: Faster Convergence,
Higher Data-efficiency, and Better Transferability [53.27240222619834]
効率的な事前学習としての知識蒸留は、学習した特徴表現を学習済みモデルから将来の下流タスクのための新しい学生モデルに効率的に転送することを目的としている。
提案手法は,3つの下流タスクにおける教師付き事前学習タスクと,10倍少ないデータと5倍少ない事前学習時間を必要とする9つの下流データセットとを比較検討する。
論文 参考訳(メタデータ) (2022-03-10T06:23:41Z) - FracTrain: Fractionally Squeezing Bit Savings Both Temporally and
Spatially for Efficient DNN Training [81.85361544720885]
アクティベーション、ウェイト、グラデーションの精度を徐々に高めるプログレッシブ分数量子化を統合したFracTrainを提案します。
FracTrainはDNNトレーニングの計算コストとハードウェア量子化エネルギー/レイテンシを削減し、同等以上の精度(-0.12%+1.87%)を達成する。
論文 参考訳(メタデータ) (2020-12-24T05:24:10Z) - Improving compute efficacy frontiers with SliceOut [31.864949424541344]
SliceOut - 最終テスト精度に影響を与えることなく、ディープラーニングモデルを高速にトレーニングするためのドロップアウトインスパイアされたスキームだ。
テスト時に、SliceOutをオフにすると、テストの正確性を保持する一連のアーキテクチャに暗黙のアンサンブルが実行される。
これにより、大規模な計算ワークロード全体の処理が高速化され、結果として生じるエネルギー消費とCO2エミッションが大幅に削減される。
論文 参考訳(メタデータ) (2020-07-21T15:59:09Z) - Rapid Structural Pruning of Neural Networks with Set-based Task-Adaptive
Meta-Pruning [83.59005356327103]
既存のプルーニング技術に共通する制限は、プルーニングの前に少なくとも1回はネットワークの事前トレーニングが必要であることである。
本稿では,ターゲットデータセットの関数としてプルーニングマスクを生成することにより,大規模な参照データセット上で事前訓練されたネットワークをタスク適応的にプルークするSTAMPを提案する。
ベンチマークデータセット上での最近の先進的なプルーニング手法に対するSTAMPの有効性を検証する。
論文 参考訳(メタデータ) (2020-06-22T10:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。