論文の概要: EF-Train: Enable Efficient On-device CNN Training on FPGA Through Data
Reshaping for Online Adaptation or Personalization
- arxiv url: http://arxiv.org/abs/2202.10935v1
- Date: Fri, 18 Feb 2022 18:27:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-23 14:59:11.500060
- Title: EF-Train: Enable Efficient On-device CNN Training on FPGA Through Data
Reshaping for Online Adaptation or Personalization
- Title(参考訳): EF-Train: オンライン適応やパーソナライゼーションのためのデータ再構成によるFPGA上での効率的なCNNトレーニングを可能にする
- Authors: Yue Tang, Xinyi Zhang, Peipei Zhou, Jingtong Hu
- Abstract要約: EF-Trainは、チャネルレベルの並列性に基づく畳み込みカーネルを統一した、効率的なDNNトレーニングアクセラレータである。
リソース制限された低消費電力エッジレベルFPGAのエンドツーエンドトレーニングを実現することができる。
我々の設計ではスループットとエネルギー効率の点で46.99GFLOPSと6.09GFLOPS/Wを実現している。
- 参考スコア(独自算出の注目度): 11.44696439060875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conventionally, DNN models are trained once in the cloud and deployed in edge
devices such as cars, robots, or unmanned aerial vehicles (UAVs) for real-time
inference. However, there are many cases that require the models to adapt to
new environments, domains, or new users. In order to realize such domain
adaption or personalization, the models on devices need to be continuously
trained on the device. In this work, we design EF-Train, an efficient DNN
training accelerator with a unified channel-level parallelism-based convolution
kernel that can achieve end-to-end training on resource-limited low-power
edge-level FPGAs. It is challenging to implement on-device training on
resource-limited FPGAs due to the low efficiency caused by different memory
access patterns among forward, backward propagation, and weight update.
Therefore, we developed a data reshaping approach with intra-tile continuous
memory allocation and weight reuse. An analytical model is established to
automatically schedule computation and memory resources to achieve high energy
efficiency on edge FPGAs. The experimental results show that our design
achieves 46.99 GFLOPS and 6.09GFLOPS/W in terms of throughput and energy
efficiency, respectively.
- Abstract(参考訳): 従来、DNNモデルはクラウドで一度トレーニングされ、リアルタイム推論のために車、ロボット、無人航空機(UAV)などのエッジデバイスにデプロイされる。
しかし、新しい環境やドメイン、あるいは新しいユーザに対応するためにモデルを必要とするケースはたくさんあります。
このようなドメイン適応やパーソナライズを実現するためには、デバイス上のモデルをデバイス上で継続的にトレーニングする必要がある。
本研究では,リソース制限された低消費電力エッジレベルFPGAのエンドツーエンドトレーニングを実現するために,チャネルレベルの並列性に基づく畳み込みカーネルを統一した,効率的なDNNトレーニングアクセラレータであるEF-Trainを設計する。
メモリアクセスパターンの異なる前向き、後向きの伝搬、および重み更新によって生じる低効率のため、リソース制限FPGAのオンデバイストレーニングを実装するのは難しい。
そこで我々は,タイル内連続メモリ割り当てと重み付け再利用によるデータ再構成手法を開発した。
エッジFPGA上での高エネルギー効率を実現するために,計算資源とメモリ資源を自動的にスケジュールする解析モデルを構築した。
その結果, スループットとエネルギー効率の両面で46.99GFLOPSと6.09GFLOPS/Wを実現した。
関連論文リスト
- Toward Efficient Convolutional Neural Networks With Structured Ternary Patterns [1.1965844936801797]
畳み込みニューラルネットワーク(ConvNets)は、ローカルデバイスリソースに厳しい要求を課す。
本稿では,静的畳み込みフィルタを用いて効率的なConvNetアーキテクチャの設計を行う。
論文 参考訳(メタデータ) (2024-07-20T10:18:42Z) - Energy-Efficient Federated Edge Learning with Streaming Data: A Lyapunov Optimization Approach [34.00679567444125]
本研究では,長期エネルギー制約下でのデータ到着や資源の可利用性に固有のランダム性に対処する動的スケジューリングと資源割当アルゴリズムを開発した。
提案アルゴリズムは, デバイススケジューリング, 計算容量調整, 帯域幅の割り当ておよび各ラウンドの送信電力を適応的に決定する。
本手法の有効性をシミュレーションにより検証し,ベースライン方式と比較して学習性能とエネルギー効率が向上したことを示す。
論文 参考訳(メタデータ) (2024-05-20T14:13:22Z) - Auto-Train-Once: Controller Network Guided Automatic Network Pruning from Scratch [72.26822499434446]
オートトレインオース (Auto-Train-Once, ATO) は、DNNの計算コストと記憶コストを自動的に削減するために設計された、革新的なネットワークプルーニングアルゴリズムである。
総合的な収束解析と広範な実験を行い,本手法が様々なモデルアーキテクチャにおける最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2024-03-21T02:33:37Z) - Efficient Language Model Architectures for Differentially Private
Federated Learning [21.280600854272716]
クロスデバイス・フェデレーション・ラーニング(Cross-device Federated Learning, FL)は、デバイスを離れることなく、数百万のエッジデバイスに分散したデータ上でモデルをトレーニングするテクニックである。
言語モデルの集中的なトレーニングでは、安定性とパフォーマンスの向上を提供するため、適応が望ましい。
ニューラルリカレントセルにおけるシグモイドとタンハの活性化を修飾することにより、SI CIFG (Coupled Input Forget Gate) 再カレントネットワークを提案する。
論文 参考訳(メタデータ) (2024-03-12T22:21:48Z) - Efficient Asynchronous Federated Learning with Sparsification and
Quantization [55.6801207905772]
フェデレートラーニング(FL)は、生データを転送することなく、機械学習モデルを協調的にトレーニングするために、ますます注目を集めている。
FLは一般的に、モデルトレーニングの全プロセス中にパラメータサーバーと多数のエッジデバイスを利用する。
TEASQ-Fedは、エッジデバイスを利用して、タスクに積極的に適用することで、トレーニングプロセスに非同期に参加する。
論文 参考訳(メタデータ) (2023-12-23T07:47:07Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - FTPipeHD: A Fault-Tolerant Pipeline-Parallel Distributed Training
Framework for Heterogeneous Edge Devices [21.513786638743234]
FTPipeHDは、異種デバイス間でディープラーニングモデルをトレーニングする新しいフレームワークである。
FTPipeHDは、最高のデバイスの計算能力が最悪のものより10倍大きい場合、アートメソッドの状態よりもトレーニングで6.8倍高速であることが示されている。
論文 参考訳(メタデータ) (2021-10-06T14:00:22Z) - perf4sight: A toolflow to model CNN training performance on Edge GPUs [16.61258138725983]
この研究は、CNNのトレーニングメモリフットプリントとレイテンシを予測する正確なモデルを開発するための自動化手法であるperf4sightを提案する。
フレームワークはPyTorch、ターゲットデバイスはNVIDIA Jetson TX2、それぞれ95%と91%の精度でトレーニングメモリフットプリントとレイテンシを予測する。
論文 参考訳(メタデータ) (2021-08-12T07:55:37Z) - FracTrain: Fractionally Squeezing Bit Savings Both Temporally and
Spatially for Efficient DNN Training [81.85361544720885]
アクティベーション、ウェイト、グラデーションの精度を徐々に高めるプログレッシブ分数量子化を統合したFracTrainを提案します。
FracTrainはDNNトレーニングの計算コストとハードウェア量子化エネルギー/レイテンシを削減し、同等以上の精度(-0.12%+1.87%)を達成する。
論文 参考訳(メタデータ) (2020-12-24T05:24:10Z) - Fast-Convergent Federated Learning [82.32029953209542]
フェデレーション学習は、モバイルデバイスの現代的なネットワークを介して機械学習タスクを分散するための、有望なソリューションである。
本稿では,FOLBと呼ばれる高速収束型フェデレーション学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-26T14:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。