論文の概要: A Heterogeneous In-Memory Computing Cluster For Flexible End-to-End
Inference of Real-World Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2201.01089v1
- Date: Tue, 4 Jan 2022 11:12:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-05 14:38:46.013111
- Title: A Heterogeneous In-Memory Computing Cluster For Flexible End-to-End
Inference of Real-World Deep Neural Networks
- Title(参考訳): 実世界深層ニューラルネットワークのフレキシブルエンド・ツー・エンド推論のための異種インメモリ計算クラスタ
- Authors: Angelo Garofalo, Gianmarco Ottavi, Francesco Conti, Geethan
Karunaratne, Irem Boybat, Luca Benini and Davide Rossi
- Abstract要約: 最新のTinyMLタスクを小さなバッテリに制約されたIoTデバイスにデプロイするには、高い計算エネルギー効率が必要である。
非揮発性メモリ(NVM)を使用したアナログメモリコンピューティング(IMC)は、ディープニューラルネットワーク(DNN)推論の大幅な効率向上を実現する。
8つのRISC-Vコア、インメモリ・コンピューティング・アクセラレータ(IMA)、デジタル・アクセラレータを統合した異種密結合アーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 12.361842554233558
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deployment of modern TinyML tasks on small battery-constrained IoT devices
requires high computational energy efficiency. Analog In-Memory Computing (IMC)
using non-volatile memory (NVM) promises major efficiency improvements in deep
neural network (DNN) inference and serves as on-chip memory storage for DNN
weights. However, IMC's functional flexibility limitations and their impact on
performance, energy, and area efficiency are not yet fully understood at the
system level. To target practical end-to-end IoT applications, IMC arrays must
be enclosed in heterogeneous programmable systems, introducing new system-level
challenges which we aim at addressing in this work. We present a heterogeneous
tightly-coupled clustered architecture integrating 8 RISC-V cores, an in-memory
computing accelerator (IMA), and digital accelerators. We benchmark the system
on a highly heterogeneous workload such as the Bottleneck layer from a
MobileNetV2, showing 11.5x performance and 9.5x energy efficiency improvements,
compared to highly optimized parallel execution on the cores. Furthermore, we
explore the requirements for end-to-end inference of a full mobile-grade DNN
(MobileNetV2) in terms of IMC array resources, by scaling up our heterogeneous
architecture to a multi-array accelerator. Our results show that our solution,
on the end-to-end inference of the MobileNetV2, is one order of magnitude
better in terms of execution latency than existing programmable architectures
and two orders of magnitude better than state-of-the-art heterogeneous
solutions integrating in-memory computing analog cores.
- Abstract(参考訳): バッテリー制限の小さなIoTデバイスに最新のTinyMLタスクをデプロイするには、高い計算エネルギー効率が必要である。
非揮発性メモリ(NVM)を使用したアナログメモリコンピューティング(IMC)は、ディープニューラルネットワーク(DNN)推論を大幅に効率化し、DNN重みのオンチップメモリストレージとして機能する。
しかし、IMCの機能的柔軟性の制限と性能、エネルギー、面積効率への影響は、システムレベルではまだ完全には理解されていない。
実用的なエンドツーエンドIoTアプリケーションをターゲットにするためには、MCアレイを異種プログラマブルシステムに囲まなければならない。
8つのRISC-Vコア、インメモリ・コンピューティング・アクセラレータ(IMA)、デジタル・アクセラレータを統合した異種密結合クラスタアーキテクチャを提案する。
我々は,MobileNetV2 の Bottleneck 層のような高度に異質なワークロードをベンチマークし,コア上での並列実行に対して 11.5 倍の性能と 9.5 倍のエネルギー効率向上を示す。
さらに、IMCアレイリソースの観点からモバイルグレードDNN(MobileNetV2)のエンドツーエンド推論の要件について検討し、異種アーキテクチャをマルチアレイ加速器にスケールアップする。
この結果から,MobileNetV2のエンドツーエンド推論では,既存のプログラマブルアーキテクチャよりも実行レイテンシが1桁,インメモリ・アナログコアを統合した最先端の異種ソリューションよりも2桁よいことがわかった。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Full-Stack Optimization for CAM-Only DNN Inference [2.0837295518447934]
本稿では,3次重み付けニューラルネットワークと連想プロセッサのアルゴリズム最適化の組み合わせについて検討する。
演算強度を低減し,APの畳み込みを最適化する新しいコンパイルフローを提案する。
本研究では,イメージネット上でのResNet-18推論のエネルギー効率を,クロスバーメモリアクセラレータと比較して7.5倍向上させる。
論文 参考訳(メタデータ) (2024-01-23T10:27:38Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Adaptive DNN Surgery for Selfish Inference Acceleration with On-demand
Edge Resource [25.274288063300844]
ディープニューラルネットワーク(DNN)は、モバイルデバイス上のインテリジェントアプリケーションの精度を大幅に改善した。
DNN手術は、モバイルデバイスの計算能力に制限があるにもかかわらず、リアルタイムの推論を可能にする。
本稿では,分散DNN手術(Decentralized DNN Surgery, DDS)フレームワークについて紹介する。
論文 参考訳(メタデータ) (2023-06-21T11:32:28Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Heterogeneous Data-Centric Architectures for Modern Data-Intensive
Applications: Case Studies in Machine Learning and Databases [9.927754948343326]
Processing-in-Memory(PIM)は、現代のアプリケーションにおけるデータ移動のボトルネックを軽減する、有望な実行パラダイムである。
本稿では,2つの現代的なデータ集約型アプリケーションに対して,PIMパラダイムの活用方法を示す。
論文 参考訳(メタデータ) (2022-05-29T13:43:17Z) - Dynamic Split Computing for Efficient Deep Edge Intelligence [78.4233915447056]
通信チャネルの状態に基づいて最適な分割位置を動的に選択する動的分割計算を導入する。
本研究では,データレートとサーバ負荷が時間とともに変化するエッジコンピューティング環境において,動的スプリットコンピューティングが高速な推論を実現することを示す。
論文 参考訳(メタデータ) (2022-05-23T12:35:18Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Towards Memory-Efficient Neural Networks via Multi-Level in situ
Generation [10.563649948220371]
ディープニューラルネットワーク(DNN)は、様々なタスクにおいて優れたパフォーマンスを示している。
それらが急速に進化するにつれて、そのエスカレーション計算とメモリ要求により、リソースに制約のあるエッジデバイスへのデプロイが困難になる。
超高速なオンチップ計算で高価なメモリトランザクションを交換するための汎用的で統一的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-25T18:50:24Z) - Efficiency-driven Hardware Optimization for Adversarially Robust Neural
Networks [3.125321230840342]
効率性の高いハードウェア最適化を通じて、Deep Neural Networks(DNN)の対比ロバスト性に対処する方法に焦点を当てます。
そのようなアプローチの1つは、低電力運転をもたらす供給スケーリング(Vdd)を可能にするハイブリッド6T-8TセルによるおよそのデジタルCMOSメモリです。
別のメモリ最適化アプローチは、低エネルギーと面積の要件でマトリックス乗算(MVM)を効率的に実行する記念的なクロスバーの作成を含む。
論文 参考訳(メタデータ) (2021-05-09T19:26:25Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。