論文の概要: Hardware-Assisted Virtualization of Neural Processing Units for Cloud Platforms
- arxiv url: http://arxiv.org/abs/2408.04104v3
- Date: Fri, 13 Sep 2024 02:48:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-16 22:38:12.960673
- Title: Hardware-Assisted Virtualization of Neural Processing Units for Cloud Platforms
- Title(参考訳): クラウドプラットフォーム向けニューラルネットワークユニットのハードウェア支援仮想化
- Authors: Yuqi Xue, Yiqi Liu, Lifeng Nai, Jian Huang,
- Abstract要約: 我々は、総合的なNPU仮想化フレームワークであるNeu10を紹介する。
Neu10は、(1)物理NPU(pNPU)における不均一な計算ユニットの詳細な仮想化を可能にするvNPUと呼ばれるフレキシブルなNPU抽象化、(2)リソース利用とコスト効率を改善するためにペイ・アズ・ユー・ゴーコンピューティングモデルと柔軟なvNPU-to-pNPUマッピングを可能にするvNPUリソースアロケータ、(3)複数のvNPUのためのきめ細かいテンソル演算のスケジューリングを容易にする最新のNPUアーキテクチャのISA拡張からなる。
- 参考スコア(独自算出の注目度): 3.93151902626205
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Cloud platforms today have been deploying hardware accelerators like neural processing units (NPUs) for powering machine learning (ML) inference services. To maximize the resource utilization while ensuring reasonable quality of service, a natural approach is to virtualize NPUs for efficient resource sharing for multi-tenant ML services. However, virtualizing NPUs for modern cloud platforms is not easy. This is not only due to the lack of system abstraction support for NPU hardware, but also due to the lack of architectural and ISA support for enabling fine-grained dynamic operator scheduling for virtualized NPUs. We present Neu10, a holistic NPU virtualization framework. We investigate virtualization techniques for NPUs across the entire software and hardware stack. Neu10 consists of (1) a flexible NPU abstraction called vNPU, which enables fine-grained virtualization of the heterogeneous compute units in a physical NPU (pNPU); (2) a vNPU resource allocator that enables pay-as-you-go computing model and flexible vNPU-to-pNPU mappings for improved resource utilization and cost-effectiveness; (3) an ISA extension of modern NPU architecture for facilitating fine-grained tensor operator scheduling for multiple vNPUs. We implement Neu10 based on a production-level NPU simulator. Our experiments show that Neu10 improves the throughput of ML inference services by up to 1.4$\times$ and reduces the tail latency by up to 4.6$\times$, while improving the NPU utilization by 1.2$\times$ on average, compared to state-of-the-art NPU sharing approaches.
- Abstract(参考訳): 今日、クラウドプラットフォームは、機械学習(ML)推論サービスを支えるニューラルネットワークユニット(NPU)のようなハードウェアアクセラレータをデプロイしている。
サービスの適切な品質を確保しつつ、リソース利用を最大化するために、マルチテナントMLサービスの効率的なリソース共有のためにNPUを仮想化するのが自然なアプローチである。
しかし、現代のクラウドプラットフォーム向けのNPUの仮想化は容易ではない。
これは、NPUハードウェアのシステム抽象化サポートの欠如に加えて、仮想化NPUのきめ細かい動的演算子スケジューリングを可能にするアーキテクチャとISAサポートの欠如によるものである。
我々は、総合的なNPU仮想化フレームワークであるNeu10を紹介する。
ソフトウェアおよびハードウェアスタック全体にわたるNPUの仮想化技術について検討する。
Neu10は、(1)物理NPU(pNPU)における不均一な計算ユニットの詳細な仮想化を可能にするvNPUと呼ばれるフレキシブルなNPU抽象化、(2)リソース利用とコスト効率を改善するためにペイ・アズ・ユー・ゴーコンピューティングモデルと柔軟なvNPU-to-pNPUマッピングを可能にするvNPUリソースアロケータ、(3)複数のvNPUのためのきめ細かいテンソル演算のスケジューリングを容易にする最新のNPUアーキテクチャのISA拡張からなる。
実運用レベルのNPUシミュレータをベースとしたNeu10を実装した。
我々の実験によると、Neu10はML推論サービスのスループットを1.4$\times$に改善し、テールレイテンシを4.6$\times$に削減し、NPUの利用率を1.2$\times$に改善している。
関連論文リスト
- Flex-TPU: A Flexible TPU with Runtime Reconfigurable Dataflow Architecture [0.0]
この作業はFlex-TPUと呼ばれる再構成可能なデータフローTPUの開発で構成されており、実行時に層ごとのデータフローを動的に変更することができる。
その結果,Flex-TPUの設計は従来のTPUに比べて2.75倍の大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2024-07-11T17:33:38Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - TPU-MLIR: A Compiler For TPU Using MLIR [2.6519283973116963]
TPU-MLIRは、TPU(Processing Unit)と呼ばれるカスタムASICに、トレーニング済みニューラルネットワーク(NN)モデルをデプロイする
NNモデルはTOP方言に変換され、チップの構成に応じて異なるTPUのためにTPU方言に低下する。
MLIRパスパイプラインを使用してTPU上で最適化を行い、マシンコードを生成する方法を示す。
論文 参考訳(メタデータ) (2022-10-23T10:45:54Z) - Fluid Batching: Exit-Aware Preemptive Serving of Early-Exit Neural
Networks on Edge NPUs [74.83613252825754]
スマートエコシステム(smart ecosystems)"は、スタンドアロンではなく、センセーションが同時に行われるように形成されています。
これはデバイス上の推論パラダイムを、エッジにニューラル処理ユニット(NPU)をデプロイする方向にシフトしている。
そこで本研究では,実行時のプリエンプションが到着・終了プロセスによってもたらされる動的性を考慮に入れた,新しい早期終了スケジューリングを提案する。
論文 参考訳(メタデータ) (2022-09-27T15:04:01Z) - MAPLE-X: Latency Prediction with Explicit Microprocessor Prior Knowledge [87.41163540910854]
ディープニューラルネットワーク(DNN)レイテンシのキャラクタリゼーションは、時間を要するプロセスである。
ハードウェアデバイスの事前知識とDNNアーキテクチャのレイテンシを具体化し,MAPLEを拡張したMAPLE-Xを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:08:20Z) - U-Boost NAS: Utilization-Boosted Differentiable Neural Architecture
Search [50.33956216274694]
ターゲットプラットフォームにおけるリソース利用の最適化は、DNN推論時に高いパフォーマンスを達成するための鍵となる。
本稿では,タスクの正確性や推論遅延を最適化するだけでなく,資源利用のためのハードウェア対応NASフレームワークを提案する。
我々は,従来のハードウェア対応NAS法と比較して,DNN推論の2.8~4倍の高速化を実現している。
論文 参考訳(メタデータ) (2022-03-23T13:44:15Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Compiling ONNX Neural Network Models Using MLIR [51.903932262028235]
本稿では,深層ニューラルネットワークモデルの推論のためのコードを生成するonnx-mlirコンパイラについて予備報告を行う。
Onnx-mlirは、最近LLVMプロジェクトに統合されたMulti-Level Intermediate Representation (MLIR)インフラストラクチャに依存している。
論文 参考訳(メタデータ) (2020-08-19T05:28:08Z) - Dopant Network Processing Units: Towards Efficient Neural-network
Emulators with High-capacity Nanoelectronic Nodes [0.0]
DNPU(Dopant Network Processing Units)はエネルギー効率が高く,スループットも高い可能性がある。
我々は、DNPUを高容量ニューロンとして導入し、単一ニューロンからマルチニューロンフレームワークに移行する。
フィードフォワードDNPUネットワークは,1つのDNPUの性能を77%から94%に向上することを示した。
論文 参考訳(メタデータ) (2020-07-24T06:35:44Z) - Fully-parallel Convolutional Neural Network Hardware [0.7829352305480285]
本稿では,ハードウェアにArticial Neural Networks(ANN)を実装するための,新しい電力・面積効率アーキテクチャを提案する。
LENET-5として完全に並列なCNNを1つのFPGAに埋め込んでテストするのが初めてである。
論文 参考訳(メタデータ) (2020-06-22T17:19:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。