論文の概要: Efficient Deployment of CNN Models on Multiple In-Memory Computing Units
- arxiv url: http://arxiv.org/abs/2511.04682v1
- Date: Thu, 09 Oct 2025 14:03:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-16 06:38:30.965916
- Title: Efficient Deployment of CNN Models on Multiple In-Memory Computing Units
- Title(参考訳): 複数メモリ・コンピューティング・ユニットにおけるCNNモデルの効率的な展開
- Authors: Eleni Bougioukou, Theodore Antonakopoulos,
- Abstract要約: インメモリコンピューティング(IMC)は、ディープラーニングの加速におけるパラダイムシフトである。
本稿では,効率的な資源利用による処理速度の最大化とレイテンシの最小化を目的としたLoad-Balance-Longest-Path (LBLP)アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-Memory Computing (IMC) represents a paradigm shift in deep learning acceleration by mitigating data movement bottlenecks and leveraging the inherent parallelism of memory-based computations. The efficient deployment of Convolutional Neural Networks (CNNs) on IMC-based hardware necessitates the use of advanced task allocation strategies for achieving maximum computational efficiency. In this work, we exploit an IMC Emulator (IMCE) with multiple Processing Units (PUs) for investigating how the deployment of a CNN model in a multi-processing system affects its performance, in terms of processing rate and latency. For that purpose, we introduce the Load-Balance-Longest-Path (LBLP) algorithm, that dynamically assigns all CNN nodes to the available IMCE PUs, for maximizing the processing rate and minimizing latency due to efficient resources utilization. We are benchmarking LBLP against other alternative scheduling strategies for a number of CNN models and experimental results demonstrate the effectiveness of the proposed algorithm.
- Abstract(参考訳): インメモリコンピューティング(IMC)は、データ移動ボトルネックを緩和し、メモリベースの計算に固有の並列性を活用することによって、ディープラーニングの加速のパラダイムシフトを表す。
IMCベースのハードウェア上での畳み込みニューラルネットワーク(CNN)の効率的な展開は、最大計算効率を達成するために高度なタスク割り当て戦略を使用する必要がある。
本研究では,マルチプロセッサシステムにおけるCNNモデルの展開が,処理速度とレイテンシの面で,その性能に与える影響を調査するために,複数の処理ユニット(PU)を備えたIMCE(IMCE)を利用する。
そこで我々は,すべてのCNNノードを利用可能なIMCE PUに動的に割り当て,処理速度の最大化と資源利用の効率化によるレイテンシの最小化を行うLoad-Balance-Longest-Path (LBLP)アルゴリズムを提案する。
我々は,多数のCNNモデルに対する他のスケジューリング手法に対してLBLPをベンチマークし,提案アルゴリズムの有効性を実験的に示す。
関連論文リスト
- CAMP-HiVe: Cyclic Pair Merging based Efficient DNN Pruning with Hessian-Vector Approximation for Resource-Constrained Systems [3.343542849202802]
CAMP-HiVeは,Hessian Vector近似を用いたサイクリックペアマージベースプルーニングである。
実験により,提案手法が計算要求の大幅な削減を実現することを示す。
既存の最先端のニューラルプルーニング法よりも優れています。
論文 参考訳(メタデータ) (2025-11-09T07:58:36Z) - Intra-DP: A High Performance Collaborative Inference System for Mobile Edge Computing [67.98609858326951]
Intra-DPはモバイルデバイス上でのディープニューラルネットワーク(DNN)に最適化された高性能な協調推論システムである。
推論毎のレイテンシを最大50%削減し、最先端のベースラインと比較してエネルギー消費量を最大75%削減する。
評価の結果,DP内の遅延は,最先端のベースラインと比較して最大50%,エネルギー消費は最大75%減少することがわかった。
論文 参考訳(メタデータ) (2025-07-08T09:50:57Z) - USEFUSE: Uniform Stride for Enhanced Performance in Fused Layer Architecture of Deep Neural Networks [0.6435156676256051]
本研究では,低レイテンシ左から右へのビットシリアル演算を用いた畳み込みのためのSum-of-Products (SOP)ユニットを提案する。
有効メカニズムは、ReLU層の後、非効率な畳み込みを検出し、スキップし、消費電力を最小化する。
ひとつはミッションクリティカルなアプリケーションの応答時間を最小限にすること、もうひとつはリソースに制約のあるデバイスに同じレイテンシでフォーカスすることである。
論文 参考訳(メタデータ) (2024-12-18T11:04:58Z) - Energy-Aware FPGA Implementation of Spiking Neural Network with LIF Neurons [0.5243460995467893]
スパイキングニューラルネットワーク(SNN)は、TinyMLの最先端ソリューションとして際立っている。
本稿では,第1次Leaky Integrate-and-Fire(LIF)ニューロンモデルに基づく新しいSNNアーキテクチャを提案する。
ハードウェアフレンドリーなLIF設計も提案され、Xilinx Artix-7 FPGA上で実装されている。
論文 参考訳(メタデータ) (2024-11-03T16:42:10Z) - Switchable Decision: Dynamic Neural Generation Networks [98.61113699324429]
本稿では,各データインスタンスのリソースを動的に割り当てることで,推論を高速化するスイッチブルな決定を提案する。
提案手法は, 同一の精度を維持しながら, 推論時のコスト低減に有効である。
論文 参考訳(メタデータ) (2024-05-07T17:44:54Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - A Heterogeneous In-Memory Computing Cluster For Flexible End-to-End
Inference of Real-World Deep Neural Networks [12.361842554233558]
最新のTinyMLタスクを小さなバッテリに制約されたIoTデバイスにデプロイするには、高い計算エネルギー効率が必要である。
非揮発性メモリ(NVM)を使用したアナログメモリコンピューティング(IMC)は、ディープニューラルネットワーク(DNN)推論の大幅な効率向上を実現する。
8つのRISC-Vコア、インメモリ・コンピューティング・アクセラレータ(IMA)、デジタル・アクセラレータを統合した異種密結合アーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-01-04T11:12:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。