論文の概要: RCT: Resource Constrained Training for Edge AI
- arxiv url: http://arxiv.org/abs/2103.14493v1
- Date: Fri, 26 Mar 2021 14:33:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-29 16:16:04.574635
- Title: RCT: Resource Constrained Training for Edge AI
- Title(参考訳): RCT:エッジAIのためのリソース制約付きトレーニング
- Authors: Tian Huang, Tao Luo, Ming Yan, Joey Tianyi Zhou, Rick Goh
- Abstract要約: 既存のコンパクトモデルのトレーニング方法は、メモリとエネルギーの予算が豊富な強力なサーバ上で動くように設計されている。
これらの問題を解決するため、RCT(Resource Constrained Training)を提案します。
RCTは、トレーニング中、量子化されたモデルのみを調整し、トレーニング中のモデルパラメータのメモリ要求を低減します。
- 参考スコア(独自算出の注目度): 35.11160947555767
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural networks training on edge terminals is essential for edge AI
computing, which needs to be adaptive to evolving environment. Quantised models
can efficiently run on edge devices, but existing training methods for these
compact models are designed to run on powerful servers with abundant memory and
energy budget. For example, quantisation-aware training (QAT) method involves
two copies of model parameters, which is usually beyond the capacity of on-chip
memory in edge devices. Data movement between off-chip and on-chip memory is
energy demanding as well. The resource requirements are trivial for powerful
servers, but critical for edge devices. To mitigate these issues, We propose
Resource Constrained Training (RCT). RCT only keeps a quantised model
throughout the training, so that the memory requirements for model parameters
in training is reduced. It adjusts per-layer bitwidth dynamically in order to
save energy when a model can learn effectively with lower precision. We carry
out experiments with representative models and tasks in image application and
natural language processing. Experiments show that RCT saves more than 86\%
energy for General Matrix Multiply (GEMM) and saves more than 46\% memory for
model parameters, with limited accuracy loss. Comparing with QAT-based method,
RCT saves about half of energy on moving model parameters.
- Abstract(参考訳): エッジ端末上でのニューラルネットワークトレーニングは、進化する環境に適応する必要があるエッジAIコンピューティングに不可欠である。
量子モデルはエッジデバイス上で効率的に動作するが、これらのモデルのための既存のトレーニング方法は、メモリとエネルギーの予算が豊富な強力なサーバ上で実行されるように設計されている。
例えば、量子化対応トレーニング(QAT)法では、モデルパラメータのコピーが2つ含まれており、通常はエッジデバイスにおけるオンチップメモリの容量を超える。
オフチップとオンチップメモリ間のデータ移動もエネルギーを必要とする。
リソースの要求は強力なサーバには自明だが、エッジデバイスには不可欠だ。
これらの問題を緩和するため,資源制約訓練(Resource Constrained Training, RRT)を提案する。
RCTはトレーニングを通してのみ量子化されたモデルを保持するため、トレーニング中のモデルパラメータのメモリ要求が減少する。
モデルが低い精度で効果的に学習できるとき、エネルギーを節約するために層ごとのビット幅を動的に調整する。
画像アプリケーションと自然言語処理における代表モデルとタスクを用いて実験を行う。
実験により、RDTは一般行列乗算(GEMM)の86%以上のエネルギーを節約し、モデルパラメータの66%以上のメモリを節約し、精度の低下が制限された。
QAT法と比較して、RCTは移動モデルパラメータのエネルギーの約半分を節約する。
関連論文リスト
- Block Selective Reprogramming for On-device Training of Vision Transformers [12.118303034660531]
本稿では,事前学習したモデルのブロック全体のごく一部のみを微調整するブロック選択型再プログラミング(BSR)を提案する。
既存の代替手法と比較して、トレーニングメモリを最大1.4倍、計算コストを最大2倍に削減する。
論文 参考訳(メタデータ) (2024-03-25T08:41:01Z) - Low-rank Attention Side-Tuning for Parameter-Efficient Fine-Tuning [19.17362588650503]
低ランク・アテンション・サイドチューニング (LAST) は低ランク・アテンション・モジュールのみで構成されるサイドネットワークを訓練する。
LASTは、複数の最適化目標に対して高い並列性を示し、下流タスク適応において非常に効率的である。
論文 参考訳(メタデータ) (2024-02-06T14:03:15Z) - Time-, Memory- and Parameter-Efficient Visual Adaptation [75.28557015773217]
バックボーンを介して勾配をバックプロパゲートしない適応法を提案する。
凍結した、事前訓練されたバックボーンの機能を利用する軽量ネットワークを並列に設計することで、これを実現する。
論文 参考訳(メタデータ) (2024-02-05T10:55:47Z) - READ: Recurrent Adaptation of Large Transformers [7.982905666062059]
モデルサイズとタスク数が増加するにつれて、微調整の大規模トランスフォーマーは実用的ではない。
textbfREcurrent textbfADaption (READ) を導入する。
論文 参考訳(メタデータ) (2023-05-24T16:59:41Z) - POET: Training Neural Networks on Tiny Devices with Integrated
Rematerialization and Paging [35.397804171588476]
エッジデバイスの微調整モデルは、機密データに対するプライバシー保護のパーソナライゼーションを可能にする。
バッテリー駆動エッジデバイス上での大規模ニューラルネットワークのトレーニングを可能にするアルゴリズムであるPOETを提案する。
論文 参考訳(メタデータ) (2022-07-15T18:36:29Z) - On-Device Training Under 256KB Memory [62.95579393237751]
本稿では,256KBのメモリでデバイス上でのトレーニングを可能にするアルゴリズム・システム協調設計フレームワークを提案する。
私たちのフレームワークは256KBと1MBのFlashで畳み込みニューラルネットワークのデバイス上での小さなトレーニングを可能にする最初のソリューションです。
論文 参考訳(メタデータ) (2022-06-30T17:59:08Z) - Efficient Fine-Tuning of BERT Models on the Edge [12.768368718187428]
BERTのようなモデルのためのメモリ効率のよいトレーニングシステムであるFreeze And Reconfigure (FAR)を提案する。
FARは、DistilBERTモデルとCoLAデータセットの微調整時間を30%削減し、メモリ操作に費やした時間を47%削減する。
より広い範囲では、GLUEとSQuADデータセットのメトリックパフォーマンスの低下は平均で約1%である。
論文 参考訳(メタデータ) (2022-05-03T14:51:53Z) - LCS: Learning Compressible Subspaces for Adaptive Network Compression at
Inference Time [57.52251547365967]
本稿では,ニューラルネットワークの「圧縮可能な部分空間」を訓練する手法を提案する。
構造的・非構造的空間に対する推定時間における微粒な精度・効率のトレードオフを任意に達成するための結果を示す。
我々のアルゴリズムは、可変ビット幅での量子化にまで拡張し、個別に訓練されたネットワークと同等の精度を実現する。
論文 参考訳(メタデータ) (2021-10-08T17:03:34Z) - M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion
Parameter Pretraining [55.16088793437898]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。
本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。
論文 参考訳(メタデータ) (2021-10-08T04:24:51Z) - Training Recommender Systems at Scale: Communication-Efficient Model and
Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。
DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。
最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文 参考訳(メタデータ) (2020-10-18T01:44:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。