論文の概要: Incremental Training and Group Convolution Pruning for Runtime DNN
Performance Scaling on Heterogeneous Embedded Platforms
- arxiv url: http://arxiv.org/abs/2105.03600v1
- Date: Sat, 8 May 2021 05:38:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-13 10:28:57.205051
- Title: Incremental Training and Group Convolution Pruning for Runtime DNN
Performance Scaling on Heterogeneous Embedded Platforms
- Title(参考訳): 不均一な組み込みプラットフォーム上での実行時DNNパフォーマンススケーリングのためのインクリメンタルトレーニングとグループ畳み込み
- Authors: Lei Xun, Long Tran-Thanh, Bashir M Al-Hashimi, Geoff V. Merrett
- Abstract要約: Deep Neural Networksの推論は、モバイルおよび組み込みプラットフォームでローカルに実行されるようになっている。
本稿では,インクリメンタルトレーニングとグループ畳み込みプルーニングを用いた動的DNNを提案する。
タスクマッピングとDVFSを組み合わせて10.6倍(エネルギー)と41.6倍(時間)のダイナミックレンジを達成した。
- 参考スコア(独自算出の注目度): 23.00896228073755
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inference for Deep Neural Networks is increasingly being executed locally on
mobile and embedded platforms due to its advantages in latency, privacy and
connectivity. Since modern System on Chips typically execute a combination of
different and dynamic workloads concurrently, it is challenging to consistently
meet inference time/energy budget at runtime because of the local computing
resources available to the DNNs vary considerably. To address this challenge, a
variety of dynamic DNNs were proposed. However, these works have significant
memory overhead, limited runtime recoverable compression rate and narrow
dynamic ranges of performance scaling. In this paper, we present a dynamic DNN
using incremental training and group convolution pruning. The channels of the
DNN convolution layer are divided into groups, which are then trained
incrementally. At runtime, following groups can be pruned for inference
time/energy reduction or added back for accuracy recovery without model
retraining. In addition, we combine task mapping and Dynamic Voltage Frequency
Scaling (DVFS) with our dynamic DNN to deliver finer trade-off between accuracy
and time/power/energy over a wider dynamic range. We illustrate the approach by
modifying AlexNet for the CIFAR10 image dataset and evaluate our work on two
heterogeneous hardware platforms: Odroid XU3 (ARM big.LITTLE CPUs) and Nvidia
Jetson Nano (CPU and GPU). Compared to the existing works, our approach can
provide up to 2.36x (energy) and 2.73x (time) wider dynamic range with a 2.4x
smaller memory footprint at the same compression rate. It achieved 10.6x
(energy) and 41.6x (time) wider dynamic range by combining with task mapping
and DVFS.
- Abstract(参考訳): Deep Neural Networksの推論は、レイテンシ、プライバシ、接続性の利点から、モバイルおよび組み込みプラットフォームでローカルに実行されるようになっている。
現代のSystem on Chipsは、通常、異なるワークロードと動的ワークロードの組み合わせを同時に実行するため、DNNで利用可能なローカルコンピューティングリソースが異なるため、実行時に推論時間/エネルギー予算を一貫して満たすことは困難である。
この課題に対処するために、様々な動的DNNが提案された。
しかしながら、これらの作業には大きなメモリオーバーヘッド、ランタイム回復可能な圧縮速度の制限、パフォーマンススケーリングのダイナミックレンジの制限がある。
本稿では,インクリメンタルトレーニングとグループ畳み込みプルーニングを用いた動的DNNを提案する。
dnn畳み込み層のチャネルはグループに分割され、段階的に訓練される。
実行時に、以下のグループは推論時間/エネルギー削減のためにプルーニングしたり、モデルの再トレーニングなしで精度回復のために追加することができる。
さらに、タスクマッピングと動的電圧周波数スケーリング(DVFS)を動的DNNと組み合わせることで、より広いダイナミックレンジでの精度と時間/電力/エネルギーのトレードオフをより細かくする。
我々は、CIFAR10イメージデータセットのためにAlexNetを修正し、Odroid XU3(ARM Big.LITTLE CPU)とNvidia Jetson Nano(CPUとGPU)という2つの異種ハードウェアプラットフォーム上での作業を評価した。
既存の作品と比較して、このアプローチは最大2.36倍(エネルギー)と2.73倍(時間)のダイナミックレンジを提供し、同じ圧縮レートで2.4倍のメモリフットプリントを削減できる。
タスクマッピングとDVFSを組み合わせて10.6倍(エネルギー)と41.6倍(時間)のダイナミックレンジを達成した。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Optimizing DNN Inference on Multi-Accelerator SoCs at Training-time [5.05866540830123]
我々は,様々なチップのCUの中から,ディープニューラルネットワーク(DNN)の細粒度マッピングを効率的に探索するハードウェア認識ツールであるODiMOを提案する。
ODiMOはDarkside上で実行されるDNNの遅延を、手動のマッピングに比べて最大8倍の精度で削減することを示す。
エネルギーを目標とする場合、ODiMOはより効率的なマッピングを最大50.8倍に生成し、精度は最小限に抑えた。
論文 参考訳(メタデータ) (2024-09-27T09:10:44Z) - Dynamic DNNs and Runtime Management for Efficient Inference on
Mobile/Embedded Devices [2.8851756275902476]
ディープニューラルネットワーク(DNN)推論は、モバイルおよび組み込みプラットフォームでますます実行されています。
システムレベルの性能とエネルギー効率を最大化する新しいDynamic Super-Networksを共同で設計した。
SOTAと比較すると、Jetson Xavier NXのGPU上でのImageNetを用いた実験結果は、類似のImageNet Top-1精度で2.4倍、類似のレイテンシで5.1%高速であることを示している。
論文 参考訳(メタデータ) (2024-01-17T04:40:30Z) - Sparse-DySta: Sparsity-Aware Dynamic and Static Scheduling for Sparse
Multi-DNN Workloads [65.47816359465155]
複数のディープニューラルネットワーク(DNN)を並列に実行することは、両エッジデバイスで新たなワークロードとなっている。
スパースマルチDNNスケジューリングに静的なスケジューラパターンと動的スケジューラ情報の両方を利用する新しいスケジューラDystaを提案する。
提案手法は, 遅延制約違反率を最大10%削減し, 平均正規化ターンアラウンド時間で約4倍に向上する。
論文 参考訳(メタデータ) (2023-10-17T09:25:17Z) - Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。
3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。
これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文 参考訳(メタデータ) (2023-08-30T10:57:41Z) - Dynamic Split Computing for Efficient Deep Edge Intelligence [78.4233915447056]
通信チャネルの状態に基づいて最適な分割位置を動的に選択する動的分割計算を導入する。
本研究では,データレートとサーバ負荷が時間とともに変化するエッジコンピューティング環境において,動的スプリットコンピューティングが高速な推論を実現することを示す。
論文 参考訳(メタデータ) (2022-05-23T12:35:18Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and
Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。
我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:57:21Z) - Dynamic-OFA: Runtime DNN Architecture Switching for Performance Scaling
on Heterogeneous Embedded Platforms [3.3197851873862385]
本稿では,最新のプラットフォーム対応NASモデル(すなわち,新しい動的DNNアプローチであるDynamic-OFAを提案する。
once-for-all network (OFA))
最新技術と比較して,Jetson Xavier NX を用いた実験結果から,この手法は ImageNet Top-1 の精度で 3.5 倍高速であることがわかった。
論文 参考訳(メタデータ) (2021-05-08T05:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。