論文の概要: Hardware-Aware DNN Compression for Homogeneous Edge Devices
- arxiv url: http://arxiv.org/abs/2501.15240v1
- Date: Sat, 25 Jan 2025 15:14:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:58:48.588022
- Title: Hardware-Aware DNN Compression for Homogeneous Edge Devices
- Title(参考訳): 均一エッジデバイスのためのハードウェア対応DNN圧縮
- Authors: Kunlong Zhang, Guiying Li, Ning Lu, Peng Yang, Ke Tang,
- Abstract要約: ホモジニアス・デバイス・アウェア・プルーニング(HDAP)は、すべてのデバイスで圧縮されたモデルの最適平均性能を達成することを目的としている。
HDAPはすべてのデバイスを複数のデバイスクラスタに分割する。
実験の結果,HDAPは最先端の手法に比べて平均推論遅延が低いことがわかった。
- 参考スコア(独自算出の注目度): 14.60818325379295
- License:
- Abstract: Deploying deep neural networks (DNNs) across homogeneous edge devices (the devices with the same SKU labeled by the manufacturer) often assumes identical performance among them. However, once a device model is widely deployed, the performance of each device becomes different after a period of running. This is caused by the differences in user configurations, environmental conditions, manufacturing variances, battery degradation, etc. Existing DNN compression methods have not taken this scenario into consideration and can not guarantee good compression results in all homogeneous edge devices. To address this, we propose Homogeneous-Device Aware Pruning (HDAP), a hardware-aware DNN compression framework explicitly designed for homogeneous edge devices, aiming to achieve optimal average performance of the compressed model across all devices. To deal with the difficulty of time-consuming hardware-aware evaluations for thousands or millions of homogeneous edge devices, HDAP partitions all the devices into several device clusters, which can dramatically reduce the number of devices to evaluate and use the surrogate-based evaluation instead of hardware evaluation in real-time. Experiments on ResNet50 and MobileNetV1 with the ImageNet dataset show that HDAP consistently achieves lower average inference latency compared with state-of-the-art methods, with substantial speedup gains (e.g., 2.86 $\times$ speedup at 1.0G FLOPs for ResNet50) on the homogeneous device clusters. HDAP offers an effective solution for scalable, high-performance DNN deployment methods for homogeneous edge devices.
- Abstract(参考訳): 深層ニューラルネットワーク(DNN)を均質エッジデバイス(メーカーによってラベル付けされた同じSKUを持つデバイス)にデプロイすることは、その間に同じパフォーマンスを仮定することが多い。
しかし、一度デバイスモデルが広くデプロイされると、実行期間後に各デバイスの性能が変わる。
これは、ユーザ構成、環境条件、製造のばらつき、バッテリーの劣化などの違いによって引き起こされる。
既存のDNN圧縮手法はこのシナリオを考慮に入れておらず、全ての均一エッジデバイスにおいて良好な圧縮結果を保証できない。
そこで本研究では,ハードウェア対応DNN圧縮フレームワークであるHymogeneous-Device Aware Pruning (HDAP)を提案する。
数千から数百万の同質エッジデバイスに対する時間的ハードウェア認識評価の難しさに対処するため、HDAPはすべてのデバイスを複数のデバイスクラスタに分割する。
ImageNetデータセットを用いたResNet50とMobileNetV1の実験では、同種デバイスクラスタ上でのHDAPの速度アップ(例えば、ResNet50の1.0G FLOPsで2.86$\times$スピードアップ)により、最先端の手法に比べて平均推論レイテンシが一貫して低いことが示されている。
HDAPは、均一エッジデバイスのためのスケーラブルで高性能なDNNデプロイメント手法に効果的なソリューションを提供する。
関連論文リスト
- MAPLE-X: Latency Prediction with Explicit Microprocessor Prior Knowledge [87.41163540910854]
ディープニューラルネットワーク(DNN)レイテンシのキャラクタリゼーションは、時間を要するプロセスである。
ハードウェアデバイスの事前知識とDNNアーキテクチャのレイテンシを具体化し,MAPLEを拡張したMAPLE-Xを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:08:20Z) - MAPLE-Edge: A Runtime Latency Predictor for Edge Devices [80.01591186546793]
汎用ハードウェアの最先端遅延予測器であるMAPLEのエッジデバイス指向拡張であるMAPLE-Edgeを提案する。
MAPLEと比較して、MAPLE-Edgeはより小さなCPUパフォーマンスカウンタを使用して、ランタイムとターゲットデバイスプラットフォームを記述することができる。
また、共通ランタイムを共有するデバイスプール上でトレーニングを行うMAPLEとは異なり、MAPLE-Edgeは実行時に効果的に一般化できることを示す。
論文 参考訳(メタデータ) (2022-04-27T14:00:48Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Automatic Mapping of the Best-Suited DNN Pruning Schemes for Real-Time
Mobile Acceleration [71.80326738527734]
本稿では,汎用的,きめ細かな構造化プルーニング手法とコンパイラの最適化を提案する。
提案手法は,より微細な構造化プルーニング手法とともに,最先端のDNN最適化フレームワークよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-22T23:53:14Z) - One Proxy Device Is Enough for Hardware-Aware Neural Architecture Search [21.50120377137633]
畳み込みニューラルネットワーク(CNN)は、ビジョンベースの自律運転やビデオコンテンツ分析など、多くの現実世界のアプリケーションで使用されている。
さまざまなターゲットデバイス上でCNN推論を実行するためには、ハードウェア対応のニューラルアーキテクチャサーチ(NAS)が不可欠である。
本稿では、遅延単調性を大幅に向上させる効率的なプロキシ適応手法を提案する。
論文 参考訳(メタデータ) (2021-11-01T18:56:42Z) - Multi-task Federated Edge Learning (MtFEEL) in Wireless Networks [1.9250873974729816]
フェデレートラーニング(FL)は、エッジデバイス間の分散機械学習を扱うための有望な技術として進化してきた。
保証付き無線環境でのパーソナライズドラーニングのための通信効率の良いFLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-08-05T10:54:38Z) - A Privacy-Preserving-Oriented DNN Pruning and Mobile Acceleration
Framework [56.57225686288006]
モバイルエッジデバイスの限られたストレージとコンピューティング能力を満たすために、ディープニューラルネットワーク(DNN)の軽量プルーニングが提案されている。
従来のプルーニング手法は主に、ユーザデータのプライバシを考慮せずに、モデルのサイズを減らしたり、パフォーマンスを向上させることに重点を置いていた。
プライベートトレーニングデータセットを必要としないプライバシ保護指向のプルーニングおよびモバイルアクセラレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-13T23:52:03Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。