Fugu-MT 論文翻訳(概要): Opara: Exploiting Operator Parallelism for Expediting DNN Inference on GPUs

論文の概要: Opara: Exploiting Operator Parallelism for Expediting DNN Inference on GPUs

arxiv url: http://arxiv.org/abs/2312.10351v1
Date: Sat, 16 Dec 2023 06:48:11 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-19 17:03:54.099475
Title: Opara: Exploiting Operator Parallelism for Expediting DNN Inference on GPUs
Title（参考訳）: Opara:GPU上のDNN推論を高速化する演算子並列処理
Authors: Aodong Chen, Fei Xu, Li Han, Yuan Dong, Li Chen, Zhi Zhou, Fangming Liu
Abstract要約: 我々は,Oparaリソースと干渉を考慮したDNN演算子並列スケジューリングフレームワークを提案する。 OparaはまずStreamsとGraphを使用して、複数のDNNオペレータの実行を自動的に並列化する。我々は、OparaベースのPyTorchとTransformerベースのモデルのプロトタイプを実装し、オープンソース化する。
参考スコア（独自算出の注目度）: 21.534663739771656
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: GPUs have become the defacto hardware devices to accelerate Deep Neural Network (DNN) inference in deep learning(DL) frameworks. However, the conventional sequential execution mode of DNN operators in mainstream DL frameworks cannot fully utilize GPU resources, due to the increasing complexity of DNN model structures and the progressively smaller computational sizes of DNN operators. Moreover, the inadequate operator launch order in parallelized execution scenarios can lead to GPU resource wastage and unexpected performance interference among operators. To address such performance issues above, we propose Opara, a resource- and interference-aware DNN Operator parallel scheduling framework to accelerate the execution of DNN inference on GPUs. Specifically, Opara first employs CUDA Streams and CUDA Graph to automatically parallelize the execution of multiple DNN operators. It further leverages the resource demands of DNN operators to judiciously adjust the operator launch order on GPUs by overlapping the execution of compute-intensive and memory-intensive operators, so as to expedite DNN inference. We implement and open source a prototype of Opara based on PyTorch in a non-intrusive manner. Extensive prototype experiments with representative DNN and Transformer-based models demonstrate that Opara outperforms the default sequential CUDA Graph in PyTorch and the state-of-the-art DNN operator parallelism systems by up to 1.68$\times$ and 1.29$\times$, respectively, yet with acceptable runtime overhead.
Abstract（参考訳）: GPUはディープラーニング(DL)フレームワークにおけるディープニューラルネットワーク(DNN)推論を加速するデファクトハードウェアデバイスになっている。しかし、DNNモデル構造が複雑化し、DNN演算子の計算サイズが徐々に小さくなるため、主流のDLフレームワークにおける従来のDNN演算子のシーケンシャル実行モードではGPUリソースを十分に利用できない。さらに、並列実行シナリオにおける不適切なオペレータの起動順序は、オペレータ間のgpuリソースのwastageと予期しないパフォーマンスの干渉につながる可能性がある。このような性能問題に対処するため、GPU上でのDNN推論の実行を高速化するリソースと干渉を考慮したDNN演算子並列スケジューリングフレームワークであるOparaを提案する。具体的には、まずCUDA StreamsとCUDA Graphを使用して、複数のDNNオペレータの実行を自動的に並列化する。さらに、DNN演算子のリソース要求を活用して、GPU上の演算子起動順序を計算集約演算子とメモリ集約演算子の実行を重複させ、DNN推論を高速化する。我々はPyTorchをベースとしたOparaのプロトタイプを非侵襲的に実装し、オープンソース化する。代表的DNNとTransformerベースのモデルによる大規模なプロトタイプ実験では、OparaはPyTorchにおけるデフォルトの逐次CUDAグラフと、最先端のDNN演算子並列処理システムを最大1.68$\times$と1.29$\times$で上回っているが、実行時のオーバーヘッドは許容できる。

関連論文リスト

Changing Base Without Losing Pace: A GPU-Efficient Alternative to MatMul in DNNs [1.8911962184174564]
ディープニューラルネットワーク(DNN)における行列乗算に対するより安価な代替バイリニア演算子を提案する。 STLで線状層を置換し,スクラッチからトレーニングし,FLOPの因子x2.7を0.5倍の精度で減少させることを示した。 Slim Pajamaデータセット上のSTL層でTinyLlama citetinyllama24を微調整すると、x2.2 FLOPのスピードアップが後者のx1.7と比べて2:4と同等の精度が得られる。
論文参考訳（メタデータ） (2025-03-15T17:31:36Z)
AMPLE: Event-Driven Accelerator for Mixed-Precision Inference of Graph Neural Networks [6.4509395505998235]
グラフニューラルネットワーク(GNN)は、非ユークリッドデータのパフォーマンスのために最近注目を集めている。我々は,新しいイベント駆動プログラミングフローを活用するFPGAアクセラレータである textbfAMPLE (Accelerated Message Passing Logic Engine) を紹介する。我々はGNN推論をノードレベルの粒度で定量化できる混合パラメータアーキテクチャを開発した。
論文参考訳（メタデータ） (2025-02-28T16:14:16Z)
FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45～9.39倍の高速化を実現可能であることを示す。
論文参考訳（メタデータ） (2024-10-16T16:13:19Z)
Tensor Slicing and Optimization for Multicore NPUs [2.670309629218727]
本稿では,Slicing Optimization (TSO) と呼ばれるマルチコアNPUに対するコンパイラ最適化パスを提案する。 TSOは、一連のCNNモデルの実行時間を最小化する最高のテンソルスライシングを特定する。その結果、TSOは一連のCNNモデルの実行時間を最小化する最適なテンソルスライシングを識別できることがわかった。
論文参考訳（メタデータ） (2023-04-06T12:03:03Z)
Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文参考訳（メタデータ） (2022-11-19T15:44:08Z)
Dynamic Split Computing for Efficient Deep Edge Intelligence [78.4233915447056]
通信チャネルの状態に基づいて最適な分割位置を動的に選択する動的分割計算を導入する。本研究では,データレートとサーバ負荷が時間とともに変化するエッジコンピューティング環境において,動的スプリットコンピューティングが高速な推論を実現することを示す。
論文参考訳（メタデータ） (2022-05-23T12:35:18Z)
An Adaptive Device-Edge Co-Inference Framework Based on Soft Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文参考訳（メタデータ） (2022-01-09T09:31:50Z)
VersaGNN: a Versatile accelerator for Graph neural networks [81.1667080640009]
我々は,超効率的なサイストリックアレイベースの多用途ハードウェアアクセラレータである textitVersaGNN を提案する。 textitVersaGNNは平均3712$times$ speedup with 1301.25$times$ energy reduction on CPU、35.4$times$ speedup with 17.66$times$ energy reduction on GPUを達成している。
論文参考訳（メタデータ） (2021-05-04T04:10:48Z)
IOS: Inter-Operator Scheduler for CNN Acceleration [17.509887924568435]
我々は、複数の演算子の並列実行を自動的にスケジュールするInter-Operator Scheduler (IOS)を提案する。 IOSは最新のCNNベンチマークにおいて、最先端のライブラリ(例えばIOSRT)を1.1から1.5倍上回っている。
論文参考訳（メタデータ） (2020-11-02T20:42:26Z)
Efficient Algorithms for Device Placement of DNN Graph Operators [12.871398348743591]
現代の機械学習ワークロードは、実行に非常にコストがかかる複雑な構造を持つ大規模なモデルを使用する。複雑なモデルを実行するデバイスは、CPUに加えて、ハードウェアアクセラレータとして提供されるドメイン固有のアクセラレータが盛んになるにつれて、ますます異質になりつつある。近年の研究では、モデルの並列性、すなわちニューラルネットワークの計算グラフを複数のデバイスに分割することで、大きな利益が得られることが示されている。本稿では,DNN演算子のデバイス配置のコアとなる構造的最適化問題を,特に現代のパイプライン環境において,推論とトレーニングの両方のために同定し,分離する。
論文参考訳（メタデータ） (2020-06-29T22:45:01Z)
PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文参考訳（メタデータ） (2020-01-01T04:52:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。