論文の概要: All-in-One: A Highly Representative DNN Pruning Framework for Edge
Devices with Dynamic Power Management
- arxiv url: http://arxiv.org/abs/2212.05122v1
- Date: Fri, 9 Dec 2022 21:30:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 14:50:43.943316
- Title: All-in-One: A Highly Representative DNN Pruning Framework for Edge
Devices with Dynamic Power Management
- Title(参考訳): All-in-One: 動的電力管理を備えたエッジデバイスのための高代表的DNNプルーニングフレームワーク
- Authors: Yifan Gong, Zheng Zhan, Pu Zhao, Yushu Wu, Chao Wu, Caiwen Ding,
Weiwen Jiang, Minghai Qin, Yanzhi Wang
- Abstract要約: 一般的に、エッジデバイスは、(サーバーやワークステーションのほとんど無制限のエネルギーサポートではなく)バッテリーによるエネルギーの予算を持つ
彼らの動的電力管理は、広く使われているダイナミック電圧および周波数スケーリング(DVFS)技術のように、実行頻度を頻繁に変更する。
DVFSを用いた動的電力管理を実現するために,高代表的プルーニングフレームワークであるAll-in-Oneを提案する。
- 参考スコア(独自算出の注目度): 39.11804352535389
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: During the deployment of deep neural networks (DNNs) on edge devices, many
research efforts are devoted to the limited hardware resource. However, little
attention is paid to the influence of dynamic power management. As edge devices
typically only have a budget of energy with batteries (rather than almost
unlimited energy support on servers or workstations), their dynamic power
management often changes the execution frequency as in the widely-used dynamic
voltage and frequency scaling (DVFS) technique. This leads to highly unstable
inference speed performance, especially for computation-intensive DNN models,
which can harm user experience and waste hardware resources. We firstly
identify this problem and then propose All-in-One, a highly representative
pruning framework to work with dynamic power management using DVFS. The
framework can use only one set of model weights and soft masks (together with
other auxiliary parameters of negligible storage) to represent multiple models
of various pruning ratios. By re-configuring the model to the corresponding
pruning ratio for a specific execution frequency (and voltage), we are able to
achieve stable inference speed, i.e., keeping the difference in speed
performance under various execution frequencies as small as possible. Our
experiments demonstrate that our method not only achieves high accuracy for
multiple models of different pruning ratios, but also reduces their variance of
inference latency for various frequencies, with minimal memory consumption of
only one model and one soft mask.
- Abstract(参考訳): エッジデバイスにディープニューラルネットワーク(DNN)をデプロイする際、ハードウェアリソースの制限に多くの研究活動が費やされている。
しかし,動的電力管理の影響にはほとんど注意が払われていない。
エッジデバイスは通常、バッテリーによるエネルギーの予算(サーバやワークステーションでのほとんど無制限のエネルギーサポートではなく)しか持たないため、その動的電力管理は広く使われているダイナミック電圧と周波数スケーリング(DVFS)技術のように実行頻度を変化させることが多い。
これにより、特に計算集約型DNNモデルでは、非常に不安定な推論速度のパフォーマンスが向上し、ユーザエクスペリエンスやハードウェアリソースの浪費を損なう可能性がある。
まず、この問題を特定し、次にDVFSを用いた動的電力管理を扱うための高代表的プルーニングフレームワークAll-in-Oneを提案する。
このフレームワークは、1組のモデルウェイトとソフトマスク(無視可能なストレージの他の補助パラメータとともに)のみを使用して、様々なプラニング比の複数のモデルを表現することができる。
特定の実行周波数(および電圧)に対する対応するプルーニング比にモデルを再設定することで、様々な実行周波数における速度性能の差を可能な限り小さく抑えながら、安定した推論速度を実現できる。
実験により, 異なるプルーニング比の複数のモデルに対して高い精度を実現するだけでなく, 各種周波数における推論遅延のばらつきを低減し, 1つのモデルと1つのソフトマスクのメモリ消費を最小限に抑えた。
関連論文リスト
- SpiDR: A Reconfigurable Digital Compute-in-Memory Spiking Neural Network Accelerator for Event-based Perception [8.968583287058959]
スパイキングニューラルネットワーク(SNN)は、ダイナミックビジョンセンサー(DVS)によって生成された非同期時間データを効率的に処理する方法を提供する。
既存のSNNアクセラレータは、多様なニューロンモデル、ビット精度、ネットワークサイズへの適応性の制限に悩まされている。
本稿では,CIM (Citical Compute-in-Memory) SNNアクセラレーターを,拡張性および再構成性を備えたチップ名として提案する。
論文 参考訳(メタデータ) (2024-11-05T06:59:02Z) - LPViT: Low-Power Semi-structured Pruning for Vision Transformers [42.91130720962956]
画像解析タスクのための畳み込みニューラルネットワークの代替手段として、ビジョントランスフォーマー(ViT)が登場した。
ViTの重大な欠点の1つは、リソース集約性であり、メモリフットプリント、複雑性、消費電力が増加することである。
我々は,ViTの資源集約的な問題に対処するため,新しいブロック構造プルーニングを導入し,精度とハードウェアアクセラレーションのバランスのとれたトレードオフを提供する。
論文 参考訳(メタデータ) (2024-07-02T08:58:19Z) - Separate, Dynamic and Differentiable (SMART) Pruner for Block/Output Channel Pruning on Computer Vision Tasks [6.199556554833467]
Deep Neural Network(DNN)プルーニングは、モデルサイズを削減し、レイテンシを改善し、アクセラレータの消費電力を削減するための重要な戦略として登場した。
ブロックおよび出力チャネルプルーニングのための分離された動的かつ微分可能な()プルーナを導入する。
実験では,SMARTプルーナーは既存のプルーニング法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-03-29T04:28:06Z) - Dynamic DNNs and Runtime Management for Efficient Inference on
Mobile/Embedded Devices [2.8851756275902476]
ディープニューラルネットワーク(DNN)推論は、モバイルおよび組み込みプラットフォームでますます実行されています。
システムレベルの性能とエネルギー効率を最大化する新しいDynamic Super-Networksを共同で設計した。
SOTAと比較すると、Jetson Xavier NXのGPU上でのImageNetを用いた実験結果は、類似のImageNet Top-1精度で2.4倍、類似のレイテンシで5.1%高速であることを示している。
論文 参考訳(メタデータ) (2024-01-17T04:40:30Z) - Sparse-DySta: Sparsity-Aware Dynamic and Static Scheduling for Sparse
Multi-DNN Workloads [65.47816359465155]
複数のディープニューラルネットワーク(DNN)を並列に実行することは、両エッジデバイスで新たなワークロードとなっている。
スパースマルチDNNスケジューリングに静的なスケジューラパターンと動的スケジューラ情報の両方を利用する新しいスケジューラDystaを提案する。
提案手法は, 遅延制約違反率を最大10%削減し, 平均正規化ターンアラウンド時間で約4倍に向上する。
論文 参考訳(メタデータ) (2023-10-17T09:25:17Z) - DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and
Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。
我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:57:21Z) - Energy-Efficient Model Compression and Splitting for Collaborative
Inference Over Time-Varying Channels [52.60092598312894]
本稿では,エッジノードとリモートノード間のモデル圧縮と時間変化モデル分割を利用して,エッジデバイスにおける総エネルギーコストを削減する手法を提案する。
提案手法は, 検討されたベースラインと比較して, エネルギー消費が最小限であり, 排出コストが$CO$となる。
論文 参考訳(メタデータ) (2021-06-02T07:36:27Z) - Incremental Training and Group Convolution Pruning for Runtime DNN
Performance Scaling on Heterogeneous Embedded Platforms [23.00896228073755]
Deep Neural Networksの推論は、モバイルおよび組み込みプラットフォームでローカルに実行されるようになっている。
本稿では,インクリメンタルトレーニングとグループ畳み込みプルーニングを用いた動的DNNを提案する。
タスクマッピングとDVFSを組み合わせて10.6倍(エネルギー)と41.6倍(時間)のダイナミックレンジを達成した。
論文 参考訳(メタデータ) (2021-05-08T05:38:01Z) - Dynamic Slimmable Network [105.74546828182834]
ダイナミックスリム化システム「ダイナミックスリム化ネットワーク(DS-Net)」を開発。
ds-netは,提案するダブルヘッド動的ゲートによる動的推論機能を備えている。
静的圧縮法と最先端の静的および動的モデル圧縮法を一貫して上回っている。
論文 参考訳(メタデータ) (2021-03-24T15:25:20Z) - Learning Frequency-aware Dynamic Network for Efficient Super-Resolution [56.98668484450857]
本稿では、離散コサイン変換(dct)領域の係数に応じて入力を複数の部分に分割する新しい周波数認識動的ネットワークについて検討する。
実際、高周波部は高価な操作で処理され、低周波部は計算負荷を軽減するために安価な操作が割り当てられる。
ベンチマークSISRモデルおよびデータセット上での実験は、周波数認識動的ネットワークが様々なSISRニューラルネットワークに使用できることを示している。
論文 参考訳(メタデータ) (2021-03-15T12:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。