論文の概要: Dynamic Gradient Sparse Update for Edge Training
- arxiv url: http://arxiv.org/abs/2503.17959v1
- Date: Sun, 23 Mar 2025 06:32:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:34:29.180899
- Title: Dynamic Gradient Sparse Update for Edge Training
- Title(参考訳): エッジトレーニングのための動的グラディエントスパース更新
- Authors: I-Hsuan Li, Tian-Sheuan Chang,
- Abstract要約: トレーニングにおけるバックプロパゲーションの勾配計算は、中間機能と計算損失を格納するために、大きなメモリバッファを必要とする。
これはマイクロコントローラのようなメモリ制限されたエッジデバイスでは受け入れられない。
本稿では,メモリ使用量を削減するために動的勾配スパース更新を用いたトレーニングアクセラレーション手法を提案する。
- 参考スコア(独自算出の注目度): 0.0502254944841629
- License:
- Abstract: Training on edge devices enables personalized model fine-tuning to enhance real-world performance and maintain data privacy. However, the gradient computation for backpropagation in the training requires significant memory buffers to store intermediate features and compute losses. This is unacceptable for memory-constrained edge devices such as microcontrollers. To tackle this issue, we propose a training acceleration method using dynamic gradient sparse updates. This method updates the important channels and layers only and skips gradient computation for the less important channels and layers to reduce memory usage for each update iteration. In addition, the channel selection is dynamic for different iterations to traverse most of the parameters in the update layers along the time dimension for better performance. The experimental result shows that the proposed method enables an ImageNet pre-trained MobileNetV2 trained on CIFAR-10 to achieve an accuracy of 85.77\% while updating only 2\% of convolution weights within 256KB on-chip memory. This results in a remarkable 98\% reduction in feature memory usage compared to dense model training.
- Abstract(参考訳): エッジデバイスのトレーニングにより、パーソナライズされたモデル微調整が現実のパフォーマンスを高め、データのプライバシを維持することができる。
しかし、トレーニングにおけるバックプロパゲーションの勾配計算は、中間機能と計算損失を格納するためにかなりのメモリバッファを必要とする。
これはマイクロコントローラのようなメモリ制限されたエッジデバイスでは受け入れられない。
この問題に対処するために,動的勾配スパース更新を用いたトレーニングアクセラレーション手法を提案する。
この方法は重要なチャネルとレイヤのみを更新し、重要でないチャネルとレイヤの勾配計算をスキップし、更新イテレーション毎にメモリ使用量を削減する。
さらに、チャンネル選択は異なるイテレーションに対して動的であり、更新レイヤ内のほとんどのパラメータを時間次元に沿ってトラバースし、パフォーマンスを向上させる。
実験結果から,CIFAR-10でトレーニングしたImageNet Pre-trained MobileNetV2は,256KBオンチップメモリ内の畳み込み重みの2倍しか更新せず,85.77\%の精度を実現することができた。
その結果,高密度モデルトレーニングと比較して,特徴記憶使用率の98.%が著しく低下した。
関連論文リスト
- Stepping Forward on the Last Mile [8.756033984943178]
本稿では,バックプロパゲーションと比較してメモリフットプリントと精度のギャップを低減させるアルゴリズムの一連の拡張を提案する。
その結果、エッジデバイス上でのモデルカスタマイズの最後のマイルでは、固定点前方勾配によるトレーニングが実現可能で実践的なアプローチであることが示されている。
論文 参考訳(メタデータ) (2024-11-06T16:33:21Z) - Block Selective Reprogramming for On-device Training of Vision Transformers [12.118303034660531]
本稿では,事前学習したモデルのブロック全体のごく一部のみを微調整するブロック選択型再プログラミング(BSR)を提案する。
既存の代替手法と比較して、トレーニングメモリを最大1.4倍、計算コストを最大2倍に削減する。
論文 参考訳(メタデータ) (2024-03-25T08:41:01Z) - Time-, Memory- and Parameter-Efficient Visual Adaptation [75.28557015773217]
バックボーンを介して勾配をバックプロパゲートしない適応法を提案する。
凍結した、事前訓練されたバックボーンの機能を利用する軽量ネットワークを並列に設計することで、これを実現する。
論文 参考訳(メタデータ) (2024-02-05T10:55:47Z) - TinyTrain: Resource-Aware Task-Adaptive Sparse Training of DNNs at the Data-Scarce Edge [27.533985670823945]
TinyTrainは、モデルの一部を選択的に更新することで、トレーニング時間を劇的に短縮するオンデバイストレーニングアプローチである。
TinyTrainはネットワーク全体のバニラ微調整を3.6-5.0%精度で上回る。
9.5倍の高速化と3.5倍のエネルギー効率のトレーニングを実現している。
論文 参考訳(メタデータ) (2023-07-19T13:49:12Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - On-Device Training Under 256KB Memory [62.95579393237751]
本稿では,256KBのメモリでデバイス上でのトレーニングを可能にするアルゴリズム・システム協調設計フレームワークを提案する。
私たちのフレームワークは256KBと1MBのFlashで畳み込みニューラルネットワークのデバイス上での小さなトレーニングを可能にする最初のソリューションです。
論文 参考訳(メタデータ) (2022-06-30T17:59:08Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z) - Improving compute efficacy frontiers with SliceOut [31.864949424541344]
SliceOut - 最終テスト精度に影響を与えることなく、ディープラーニングモデルを高速にトレーニングするためのドロップアウトインスパイアされたスキームだ。
テスト時に、SliceOutをオフにすると、テストの正確性を保持する一連のアーキテクチャに暗黙のアンサンブルが実行される。
これにより、大規模な計算ワークロード全体の処理が高速化され、結果として生じるエネルギー消費とCO2エミッションが大幅に削減される。
論文 参考訳(メタデータ) (2020-07-21T15:59:09Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Software-Level Accuracy Using Stochastic Computing With
Charge-Trap-Flash Based Weight Matrix [2.580765958706854]
チャージトラップフラッシュ(CTF)メモリは飽和前に大量のレベルを持つが、非線形性は変化しない。
シミュレーションにより、最適範囲の選択において、我々のシステムは正確な浮動小数点演算を用いて訓練されたモデルとほぼ同等の性能を示すことを示す。
また,Q-Learningにおける価値関数近似に使用される強化学習にも応用し,約146ステップでマウンテンカー制御問題を完成させる。
論文 参考訳(メタデータ) (2020-03-09T02:45:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。