論文の概要: Precision-aware Latency and Energy Balancing on Multi-Accelerator
Platforms for DNN Inference
- arxiv url: http://arxiv.org/abs/2306.05060v1
- Date: Thu, 8 Jun 2023 09:23:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 15:15:56.279212
- Title: Precision-aware Latency and Energy Balancing on Multi-Accelerator
Platforms for DNN Inference
- Title(参考訳): DNN推論用マルチ加速器プラットフォームにおける高精度レイテンシとエネルギーバランス
- Authors: Matteo Risso, Alessio Burrello, Giuseppe Maria Sarda, Luca Benini,
Enrico Macii, Massimo Poncino, Marian Verhelst, Daniele Jahier Pagliari
- Abstract要約: 我々は,チップ上で異なるアクセラレーター間で細粒度マッピングを行うハードウェア認識ツールであるODiMOを提案する。
ODiMOは,手動マッピングと比較して,限界精度低下(-0.53%/-0.32%)で,最大33%/31%のエネルギー/遅延を減少させることを示した。
- 参考スコア(独自算出の注目度): 22.9834921448069
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The need to execute Deep Neural Networks (DNNs) at low latency and low power
at the edge has spurred the development of new heterogeneous Systems-on-Chips
(SoCs) encapsulating a diverse set of hardware accelerators. How to optimally
map a DNN onto such multi-accelerator systems is an open problem. We propose
ODiMO, a hardware-aware tool that performs a fine-grain mapping across
different accelerators on-chip, splitting individual layers and executing them
in parallel, to reduce inference energy consumption or latency, while taking
into account each accelerator's quantization precision to maintain accuracy.
Pareto-optimal networks in the accuracy vs. energy or latency space are pursued
for three popular dataset/DNN pairs, and deployed on the DIANA heterogeneous
ultra-low power edge AI SoC. We show that ODiMO reduces energy/latency by up to
33%/31% with limited accuracy drop (-0.53%/-0.32%) compared to manual heuristic
mappings.
- Abstract(参考訳): 低レイテンシとエッジでの低消費電力でDeep Neural Networks(DNN)を実行する必要性により、さまざまなハードウェアアクセラレーターをカプセル化した新しい異種システムオンチップ(SoC)の開発が加速された。
このようなマルチアクセラレータシステムにDNNを最適にマッピングする方法は、オープンな問題である。
ODiMOは、各アクセラレータの量子化精度を考慮して、チップ上の異なるアクセラレータをまたいで細粒度マッピングを行い、個々のレイヤを分割して並列に実行し、推論エネルギー消費や遅延を低減するハードウェア対応ツールである。
3つの一般的なデータセット/DNNペアに対して、精度対エネルギーまたはレイテンシ空間のパレート最適ネットワークを追求し、DIANAの不均一な超低電力エッジAI SoCにデプロイする。
ODiMOは,手動ヒューリスティックマッピングと比較して,限界精度低下(-0.53%/-0.32%)で最大33%/31%のエネルギー/遅延を減少させることを示した。
関連論文リスト
- Hardware-Aware DNN Compression via Diverse Pruning and Mixed-Precision
Quantization [1.0235078178220354]
本稿では, プルーニングと量子化を併用してハードウェアに配慮したディープニューラルネットワーク(DNN)の自動圧縮フレームワークを提案する。
われわれのフレームワークはデータセットの平均エネルギー消費量を39%減らし、平均精度損失を1.7%減らし、最先端のアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2023-12-23T18:50:13Z) - EPIM: Efficient Processing-In-Memory Accelerators based on Epitome [82.74500224090265]
畳み込みのような機能を提供する軽量神経オペレータであるEpitomeを紹介する。
ソフトウェア側では,PIMアクセラレータ上でのエピトームのレイテンシとエネルギを評価する。
ハードウェア効率を向上させるため,PIM対応層設計手法を提案する。
論文 参考訳(メタデータ) (2023-11-12T17:56:39Z) - Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。
3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。
これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文 参考訳(メタデータ) (2023-08-30T10:57:41Z) - DVFO: Learning-Based DVFS for Energy-Efficient Edge-Cloud Collaborative
Inference [12.095934624748686]
本稿では,新しいDVFS対応エッジクラウド協調推論フレームワークであるDVFOを提案する。
エッジデバイスのCPU、GPU、メモリの周波数を自動的に最適化し、機能マップをクラウドサーバにオフロードする。
最先端の計画に比べて、エネルギー消費を平均で33%削減する。
論文 参考訳(メタデータ) (2023-06-02T07:00:42Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and
Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。
我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:57:21Z) - Positive/Negative Approximate Multipliers for DNN Accelerators [3.1921317895626493]
本稿では,重みを近似乗算器の適切なモードにマッピングするフィルタ指向近似法を提案する。
提案手法では,4つの異なるデータセット上で平均7つのNNで18.33%のエネルギーゲインを達成し,最大精度の低下は1%に留まった。
論文 参考訳(メタデータ) (2021-07-20T09:36:24Z) - EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware
Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。
We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文 参考訳(メタデータ) (2020-11-28T19:21:47Z) - DNA: Differentiable Network-Accelerator Co-Search [36.68587348474986]
そこで我々は,一致したネットワークやアクセラレータを自動的に検索する,差別化可能なネットワーク加速器のコサーチフレームワークであるDNAを提案する。
1)DNNアクセラレータの汎用設計スペースと、アルゴリズム探索を可能にするPyTorchなどのDNNフレームワークとの互換性。
実験およびアブレーション研究により、DNAによって生成されたマッチングネットワークと加速器は、常に最先端(SOTA)のDNNや加速器より優れていることが示されている。
論文 参考訳(メタデータ) (2020-10-28T05:57:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。