論文の概要: Opara: Exploiting Operator Parallelism for Expediting DNN Inference on GPUs
- arxiv url: http://arxiv.org/abs/2312.10351v2
- Date: Thu, 30 May 2024 08:01:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 23:32:48.340134
- Title: Opara: Exploiting Operator Parallelism for Expediting DNN Inference on GPUs
- Title(参考訳): Opara:GPU上のDNN推論を高速化する演算子並列処理
- Authors: Aodong Chen, Fei Xu, Li Han, Yuan Dong, Li Chen, Zhi Zhou, Fangming Liu,
- Abstract要約: emphOparaは、GPU上のDeep Neural Network(DNN)推論を高速化する、リソースと干渉対応のスケジューリングフレームワークである。
我々はPyTorchをベースとしたemphOparaのプロトタイプを,emphnon-intrusiveな方法で実装し,オープンソース化する。
代表的DNNとTransformerベースのモデルによるプロトタイプ実験は、emphoparaがPyTorchのデフォルトシーケンシャルな textttCUDA Graph よりも優れていることを示した。
- 参考スコア(独自算出の注目度): 20.506357657234755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: GPUs have become the \emph{defacto} hardware devices for accelerating Deep Neural Network (DNN) inference workloads. However, the conventional \emph{sequential execution mode of DNN operators} in mainstream deep learning frameworks cannot fully utilize GPU resources, even with the operator fusion enabled, due to the increasing complexity of model structures and a greater diversity of operators. Moreover, the \emph{inadequate operator launch order} in parallelized execution scenarios can lead to GPU resource wastage and unexpected performance interference among operators. In this paper, we propose \emph{Opara}, a resource- and interference-aware DNN \underline{Op}erator \underline{para}llel scheduling framework to accelerate DNN inference on GPUs. Specifically, \emph{Opara} first employs \texttt{CUDA Streams} and \texttt{CUDA Graph} to \emph{parallelize} the execution of multiple operators automatically. To further expedite DNN inference, \emph{Opara} leverages the resource demands of operators to judiciously adjust the operator launch order on GPUs, overlapping the execution of compute-intensive and memory-intensive operators. We implement and open source a prototype of \emph{Opara} based on PyTorch in a \emph{non-intrusive} manner. Extensive prototype experiments with representative DNN and Transformer-based models demonstrate that \emph{Opara} outperforms the default sequential \texttt{CUDA Graph} in PyTorch and the state-of-the-art operator parallelism systems by up to $1.68\times$ and $1.29\times$, respectively, yet with acceptable runtime overhead.
- Abstract(参考訳): GPUは、Deep Neural Network(DNN)推論ワークロードを加速するための、‘emph{defacto’ハードウェアデバイスになった。
しかし、DNN演算子の従来の 'emph{sequential execution mode} は、モデル構造が複雑化し、演算子の多様性が増すため、演算子融合が有効であったとしても、GPUリソースを十分に活用できない。
さらに、並列実行シナリオにおける \emph{inadequate operator launch order} は、GPUリソースの浪費と演算子間の予期しないパフォーマンス干渉につながる可能性がある。
本稿では、GPU上でのDNN推論を高速化するために、リソースと干渉を意識したDNN \underline{Op}erator \underline{para}llel スケジューリングフレームワークである \emph{Opara} を提案する。
具体的には、最初に \emph{Opara} は、複数の演算子の自動実行に \texttt{CUDA Streams} と \texttt{CUDA Graph} を使用します。
DNN推論をさらに高速にするために、 \emph{Opara} は演算子のリソース要求を利用してGPU上の演算子起動順序を任意に調整し、計算集約演算子とメモリ集約演算子の実行を重複させる。
我々は PyTorch に基づいた \emph{Opara} のプロトタイプを \emph{non-intrusive} 形式で実装し,オープンソース化する。
代表的DNNとTransformerベースのモデルによる大規模なプロトタイプ実験では、PyTorchのデフォルトのシーケンシャルな \texttt{CUDA Graph} と、最先端の演算子並列処理システムをそれぞれ1.68\times$と1.29\times$で上回っているが、ランタイムオーバーヘッドは許容できる。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Tensor Slicing and Optimization for Multicore NPUs [2.670309629218727]
本稿では,Slicing Optimization (TSO) と呼ばれるマルチコアNPUに対するコンパイラ最適化パスを提案する。
TSOは、一連のCNNモデルの実行時間を最小化する最高のテンソルスライシングを特定する。
その結果、TSOは一連のCNNモデルの実行時間を最小化する最適なテンソルスライシングを識別できることがわかった。
論文 参考訳(メタデータ) (2023-04-06T12:03:03Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Dynamic Split Computing for Efficient Deep Edge Intelligence [78.4233915447056]
通信チャネルの状態に基づいて最適な分割位置を動的に選択する動的分割計算を導入する。
本研究では,データレートとサーバ負荷が時間とともに変化するエッジコンピューティング環境において,動的スプリットコンピューティングが高速な推論を実現することを示す。
論文 参考訳(メタデータ) (2022-05-23T12:35:18Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - VersaGNN: a Versatile accelerator for Graph neural networks [81.1667080640009]
我々は,超効率的なサイストリックアレイベースの多用途ハードウェアアクセラレータである textitVersaGNN を提案する。
textitVersaGNNは平均3712$times$ speedup with 1301.25$times$ energy reduction on CPU、35.4$times$ speedup with 17.66$times$ energy reduction on GPUを達成している。
論文 参考訳(メタデータ) (2021-05-04T04:10:48Z) - IOS: Inter-Operator Scheduler for CNN Acceleration [17.509887924568435]
我々は、複数の演算子の並列実行を自動的にスケジュールするInter-Operator Scheduler (IOS)を提案する。
IOSは最新のCNNベンチマークにおいて、最先端のライブラリ(例えばIOSRT)を1.1から1.5倍上回っている。
論文 参考訳(メタデータ) (2020-11-02T20:42:26Z) - Efficient Algorithms for Device Placement of DNN Graph Operators [12.871398348743591]
現代の機械学習ワークロードは、実行に非常にコストがかかる複雑な構造を持つ大規模なモデルを使用する。
複雑なモデルを実行するデバイスは、CPUに加えて、ハードウェアアクセラレータとして提供されるドメイン固有のアクセラレータが盛んになるにつれて、ますます異質になりつつある。
近年の研究では、モデルの並列性、すなわちニューラルネットワークの計算グラフを複数のデバイスに分割することで、大きな利益が得られることが示されている。
本稿では,DNN演算子のデバイス配置のコアとなる構造的最適化問題を,特に現代のパイプライン環境において,推論とトレーニングの両方のために同定し,分離する。
論文 参考訳(メタデータ) (2020-06-29T22:45:01Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。