論文の概要: Precision-aware Latency and Energy Balancing on Multi-Accelerator
Platforms for DNN Inference
- arxiv url: http://arxiv.org/abs/2306.05060v1
- Date: Thu, 8 Jun 2023 09:23:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 15:15:56.279212
- Title: Precision-aware Latency and Energy Balancing on Multi-Accelerator
Platforms for DNN Inference
- Title(参考訳): DNN推論用マルチ加速器プラットフォームにおける高精度レイテンシとエネルギーバランス
- Authors: Matteo Risso, Alessio Burrello, Giuseppe Maria Sarda, Luca Benini,
Enrico Macii, Massimo Poncino, Marian Verhelst, Daniele Jahier Pagliari
- Abstract要約: 我々は,チップ上で異なるアクセラレーター間で細粒度マッピングを行うハードウェア認識ツールであるODiMOを提案する。
ODiMOは,手動マッピングと比較して,限界精度低下(-0.53%/-0.32%)で,最大33%/31%のエネルギー/遅延を減少させることを示した。
- 参考スコア(独自算出の注目度): 22.9834921448069
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The need to execute Deep Neural Networks (DNNs) at low latency and low power
at the edge has spurred the development of new heterogeneous Systems-on-Chips
(SoCs) encapsulating a diverse set of hardware accelerators. How to optimally
map a DNN onto such multi-accelerator systems is an open problem. We propose
ODiMO, a hardware-aware tool that performs a fine-grain mapping across
different accelerators on-chip, splitting individual layers and executing them
in parallel, to reduce inference energy consumption or latency, while taking
into account each accelerator's quantization precision to maintain accuracy.
Pareto-optimal networks in the accuracy vs. energy or latency space are pursued
for three popular dataset/DNN pairs, and deployed on the DIANA heterogeneous
ultra-low power edge AI SoC. We show that ODiMO reduces energy/latency by up to
33%/31% with limited accuracy drop (-0.53%/-0.32%) compared to manual heuristic
mappings.
- Abstract(参考訳): 低レイテンシとエッジでの低消費電力でDeep Neural Networks(DNN)を実行する必要性により、さまざまなハードウェアアクセラレーターをカプセル化した新しい異種システムオンチップ(SoC)の開発が加速された。
このようなマルチアクセラレータシステムにDNNを最適にマッピングする方法は、オープンな問題である。
ODiMOは、各アクセラレータの量子化精度を考慮して、チップ上の異なるアクセラレータをまたいで細粒度マッピングを行い、個々のレイヤを分割して並列に実行し、推論エネルギー消費や遅延を低減するハードウェア対応ツールである。
3つの一般的なデータセット/DNNペアに対して、精度対エネルギーまたはレイテンシ空間のパレート最適ネットワークを追求し、DIANAの不均一な超低電力エッジAI SoCにデプロイする。
ODiMOは,手動ヒューリスティックマッピングと比較して,限界精度低下(-0.53%/-0.32%)で最大33%/31%のエネルギー/遅延を減少させることを示した。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Optimizing DNN Inference on Multi-Accelerator SoCs at Training-time [5.05866540830123]
我々は,様々なチップのCUの中から,ディープニューラルネットワーク(DNN)の細粒度マッピングを効率的に探索するハードウェア認識ツールであるODiMOを提案する。
ODiMOはDarkside上で実行されるDNNの遅延を、手動のマッピングに比べて最大8倍の精度で削減することを示す。
エネルギーを目標とする場合、ODiMOはより効率的なマッピングを最大50.8倍に生成し、精度は最小限に抑えた。
論文 参考訳(メタデータ) (2024-09-27T09:10:44Z) - Exploring Quantization and Mapping Synergy in Hardware-Aware Deep Neural Network Accelerators [0.20971479389679332]
CNN推論アクセラレータに実装された畳み込みニューラルネットワーク(CNN)のエネルギー効率とメモリフットプリントは多くの要因に依存する。
実装中にリッチな混合量子化スキームを有効にすることで、以前に隠れていたマッピングの空間を開放できることが示される。
量子化重みとアクティベーションと適切なマッピングを利用するCNNは、精度、エネルギ、メモリ要求間のトレードオフを大幅に改善することができる。
論文 参考訳(メタデータ) (2024-04-08T10:10:30Z) - Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。
3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。
これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文 参考訳(メタデータ) (2023-08-30T10:57:41Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and
Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。
我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:57:21Z) - Positive/Negative Approximate Multipliers for DNN Accelerators [3.1921317895626493]
本稿では,重みを近似乗算器の適切なモードにマッピングするフィルタ指向近似法を提案する。
提案手法では,4つの異なるデータセット上で平均7つのNNで18.33%のエネルギーゲインを達成し,最大精度の低下は1%に留まった。
論文 参考訳(メタデータ) (2021-07-20T09:36:24Z) - EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware
Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。
We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文 参考訳(メタデータ) (2020-11-28T19:21:47Z) - DNA: Differentiable Network-Accelerator Co-Search [36.68587348474986]
そこで我々は,一致したネットワークやアクセラレータを自動的に検索する,差別化可能なネットワーク加速器のコサーチフレームワークであるDNAを提案する。
1)DNNアクセラレータの汎用設計スペースと、アルゴリズム探索を可能にするPyTorchなどのDNNフレームワークとの互換性。
実験およびアブレーション研究により、DNAによって生成されたマッチングネットワークと加速器は、常に最先端(SOTA)のDNNや加速器より優れていることが示されている。
論文 参考訳(メタデータ) (2020-10-28T05:57:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。