論文の概要: A Collaborative PIM Computing Optimization Framework for Multi-Tenant DNN
- arxiv url: http://arxiv.org/abs/2408.04812v1
- Date: Fri, 9 Aug 2024 01:46:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-12 16:58:32.959925
- Title: A Collaborative PIM Computing Optimization Framework for Multi-Tenant DNN
- Title(参考訳): マルチテナントDNNのための協調型PIM最適化フレームワーク
- Authors: Bojing Li, Duo Zhong, Xiang Chen, Chenchen Liu,
- Abstract要約: 現代の人工知能(AI)アプリケーションは、マルチテナントディープニューラルネットワーク(DNN)をますます活用している
本稿では,ReRAMベースのPIM設計におけるマルチテナントDNNの効率的な展開を可能にする,ReRAMベースのインメモリ・コンピューティング・フレームワークを提案する。
従来のReRAMベースのPIM設計の直接デプロイと比較して,提案するPIMコンピューティングフレームワークは,速度(1.75xから60.43x)とエネルギー(最大1.89x)の大幅な向上を実現している。
- 参考スコア(独自算出の注目度): 8.688432179052441
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern Artificial Intelligence (AI) applications are increasingly utilizing multi-tenant deep neural networks (DNNs), which lead to a significant rise in computing complexity and the need for computing parallelism. ReRAM-based processing-in-memory (PIM) computing, with its high density and low power consumption characteristics, holds promising potential for supporting the deployment of multi-tenant DNNs. However, direct deployment of complex multi-tenant DNNs on exsiting ReRAM-based PIM designs poses challenges. Resource contention among different tenants can result in sever under-utilization of on-chip computing resources. Moreover, area-intensive operators and computation-intensive operators require excessively large on-chip areas and long processing times, leading to high overall latency during parallel computing. To address these challenges, we propose a novel ReRAM-based in-memory computing framework that enables efficient deployment of multi-tenant DNNs on ReRAM-based PIM designs. Our approach tackles the resource contention problems by iteratively partitioning the PIM hardware at tenant level. In addition, we construct a fine-grained reconstructed processing pipeline at the operator level to handle area-intensive operators. Compared to the direct deployments on traditional ReRAM-based PIM designs, our proposed PIM computing framework achieves significant improvements in speed (ranges from 1.75x to 60.43x) and energy(up to 1.89x).
- Abstract(参考訳): 現代の人工知能(AI)アプリケーションは、マルチテナントディープニューラルネットワーク(DNN)の利用が増えている。
ReRAMベースのプロセッシング・イン・メモリ(PIM)コンピューティングは、高密度かつ低消費電力特性を持ち、マルチテナントDNNの展開をサポートする有望な可能性を持っている。
しかし、ReRAMベースのPIM設計への複雑なマルチテナントDNNの直接配置が課題となっている。
異なるテナント間のリソース競合は、オンチップコンピューティングリソースの過小評価につながる可能性がある。
さらに、領域集約演算子と計算集約演算子は、過度に大きなオンチップ領域と長い処理時間を必要とするため、並列コンピューティングにおける全体的なレイテンシが高くなる。
これらの課題に対処するため,ReRAM ベースの PIM 設計にマルチテナント DNN を効率よく展開できる,ReRAM ベースのインメモリ・コンピューティング・フレームワークを提案する。
提案手法は,PIMハードウェアをテナントレベルで反復的に分割することで資源競合問題に対処する。
さらに,面積集中型演算子を扱うために,演算子レベルで微細に再構成された処理パイプラインを構築する。
従来のReRAMベースのPIM設計の直接デプロイと比較して,提案するPIMコンピューティングフレームワークは,速度(1.75xから60.43x)とエネルギー(最大1.89x)の大幅な向上を実現している。
関連論文リスト
- DNN Partitioning, Task Offloading, and Resource Allocation in Dynamic Vehicular Networks: A Lyapunov-Guided Diffusion-Based Reinforcement Learning Approach [49.56404236394601]
本稿では,Vehicular Edge Computingにおける共同DNNパーティショニング,タスクオフロード,リソース割り当ての問題を定式化する。
我々の目標は、時間とともにシステムの安定性を保証しながら、DNNベースのタスク完了時間を最小化することである。
拡散モデルの革新的利用を取り入れたマルチエージェント拡散に基づく深層強化学習(MAD2RL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-11T06:31:03Z) - Dataflow-Aware PIM-Enabled Manycore Architecture for Deep Learning Workloads [16.67441258454545]
PIM(Processing-in-Memory)は、ディープラーニング(DL)ワークロードのエネルギー効率と高性能アクセラレーションの実現手段として登場した。
抵抗型ランダムアクセスメモリ(ReRAM)は、PIMを実装する上で最も有望な技術の一つである。
既存のPIMベースのアーキテクチャは、主に通信の役割を無視しながら計算に焦点を当てている。
論文 参考訳(メタデータ) (2024-03-28T00:29:15Z) - Full-Stack Optimization for CAM-Only DNN Inference [2.0837295518447934]
本稿では,3次重み付けニューラルネットワークと連想プロセッサのアルゴリズム最適化の組み合わせについて検討する。
演算強度を低減し,APの畳み込みを最適化する新しいコンパイルフローを提案する。
本研究では,イメージネット上でのResNet-18推論のエネルギー効率を,クロスバーメモリアクセラレータと比較して7.5倍向上させる。
論文 参考訳(メタデータ) (2024-01-23T10:27:38Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Reconfigurable Distributed FPGA Cluster Design for Deep Learning
Accelerators [59.11160990637615]
エッジコンピューティングアプリケーション用に設計された低消費電力組み込みFPGAに基づく分散システムを提案する。
提案システムは,様々なニューラルネットワーク(NN)モデルを同時に実行し,パイプライン構造にグラフを配置し,NNグラフの最も計算集約的な層により大きなリソースを手動で割り当てる。
論文 参考訳(メタデータ) (2023-05-24T16:08:55Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。
パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。
接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文 参考訳(メタデータ) (2021-06-07T11:37:03Z) - Computation Offloading in Multi-Access Edge Computing Networks: A
Multi-Task Learning Approach [7.203439085947118]
マルチアクセスエッジコンピューティング(MEC)は、いくつかのタスクをMECサーバ(MES)に統合された近接アクセスポイント(AP)にオフロードすることで、モバイル機器が計算集約的なアプリケーションに対応できるようにする可能性をすでに示している。
しかし,MESのネットワーク条件や計算資源が限られているため,モバイル端末によるオフロード決定やMESが割り当てる計算資源は,低コストで効率よく達成できない。
我々はMECネットワークのための動的オフロードフレームワークを提案し、アップリンク非直交多重アクセス(NOMA)を用いて複数のデバイスがアップロードできるようにする。
論文 参考訳(メタデータ) (2020-06-29T15:11:10Z) - Iterative Algorithm Induced Deep-Unfolding Neural Networks: Precoding
Design for Multiuser MIMO Systems [59.804810122136345]
本稿では,AIIDNN(ディープ・アンフォールディング・ニューラルネット)を一般化した,ディープ・アンフォールディングのためのフレームワークを提案する。
古典的重み付き最小二乗誤差(WMMSE)反復アルゴリズムの構造に基づく効率的なIAIDNNを提案する。
提案したIAIDNNは,計算複雑性を低減した反復WMMSEアルゴリズムの性能を効率よく向上することを示す。
論文 参考訳(メタデータ) (2020-06-15T02:57:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。