論文の概要: RTGPU: Real-Time GPU Scheduling of Hard Deadline Parallel Tasks with
Fine-Grain Utilization
- arxiv url: http://arxiv.org/abs/2101.10463v2
- Date: Wed, 27 Jan 2021 02:22:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-14 18:58:16.394192
- Title: RTGPU: Real-Time GPU Scheduling of Hard Deadline Parallel Tasks with
Fine-Grain Utilization
- Title(参考訳): RTGPU: 細粒度利用によるハードデッドライン並列タスクのリアルタイムGPUスケジューリング
- Authors: An Zou, Jing Li, Christopher D. Gill, and Xuan Zhang
- Abstract要約: 本論文では,複数のGPUアプリケーションの実行をリアルタイムにスケジュール可能なRTGPUを提案する。
提案手法は,従来の作業に比べてスケジューリング性に優れ,複数のGPUアプリケーションに厳しい期限をリアルタイムに保証する。
- 参考スコア(独自算出の注目度): 5.02836935036198
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many emerging cyber-physical systems, such as autonomous vehicles and robots,
rely heavily on artificial intelligence and machine learning algorithms to
perform important system operations. Since these highly parallel applications
are computationally intensive, they need to be accelerated by graphics
processing units (GPUs) to meet stringent timing constraints. However, despite
the wide adoption of GPUs, efficiently scheduling multiple GPU applications
while providing rigorous real-time guarantees remains a challenge. In this
paper, we propose RTGPU, which can schedule the execution of multiple GPU
applications in real-time to meet hard deadlines. Each GPU application can have
multiple CPU execution and memory copy segments, as well as GPU kernels. We
start with a model to explicitly account for the CPU and memory copy segments
of these applications. We then consider the GPU architecture in the development
of a precise timing model for the GPU kernels and leverage a technique known as
persistent threads to implement fine-grained kernel scheduling with improved
performance through interleaved execution. Next, we propose a general method
for scheduling parallel GPU applications in real time. Finally, to schedule
multiple parallel GPU applications, we propose a practical real-time scheduling
algorithm based on federated scheduling and grid search (for GPU kernel
segments) with uniprocessor fixed priority scheduling (for multiple CPU and
memory copy segments). Our approach provides superior schedulability compared
with previous work, and gives real-time guarantees to meet hard deadlines for
multiple GPU applications according to comprehensive validation and evaluation
on a real NVIDIA GTX1080Ti GPU system.
- Abstract(参考訳): 自動運転車やロボットなどの新しいサイバー物理システムの多くは、重要なシステム操作を実行するために人工知能と機械学習アルゴリズムに大きく依存しています。
これらの高並列アプリケーションは計算集約性が高いため、厳密なタイミング制約を満たすためにグラフィクス処理ユニット(GPU)によって加速する必要がある。
しかし、GPUの広範な採用にもかかわらず、複数のGPUアプリケーションを効率的にスケジューリングし、厳格なリアルタイム保証を提供することは依然として課題です。
本論文では,複数のGPUアプリケーションの実行をリアルタイムにスケジュールし,厳しい納期に耐えるRTGPUを提案する。
各GPUアプリケーションは、GPUカーネルと同様に、複数のCPU実行およびメモリコピーセグメントを持つことができる。
まず、これらのアプリケーションのCPUとメモリコピーセグメントを明示的に考慮するモデルから始めます。
次に、GPUアーキテクチャをGPUカーネルの正確なタイミングモデルの開発に考慮し、永続スレッドと呼ばれる技術を利用して、インターリーブ実行によるパフォーマンス向上による細かい粒度のカーネルスケジューリングを実装します。
次に,並列GPUアプリケーションをリアルタイムにスケジューリングする一般的な手法を提案する。
最後に,複数の並列gpuアプリケーションをスケジューリングするために,単プロセッサ固定優先度スケジューリング(複数cpuおよびメモリコピーセグメント)によるフェデレーションスケジューリングとグリッド探索(gpuカーネルセグメント)に基づく実用的なリアルタイムスケジューリングアルゴリズムを提案する。
提案手法は,複数のGPUアプリケーションに対して,実際のNVIDIA GTX1080Ti GPUシステムに対する総合的な検証と評価に従って,複数のGPUアプリケーションのハードデッドラインをリアルタイムに保証する。
関連論文リスト
- Heterogeneous Acceleration Pipeline for Recommendation System Training [2.346585343935306]
レコメンデーションシステムは、深層学習と大規模な埋め込みテーブルによる計算強度とメモリ強度の融合を示す。
本稿では、これらの懸念を克服するために、Hotlineと呼ばれる異種加速パイプラインを提供する。
Hotlineは、Intelが最適化したCPU-GPU DLRMとHugeCTRが最適化したGPUのみのベースラインと比較して、平均トレーニング時間を3倍と1.8倍に短縮する。
論文 参考訳(メタデータ) (2022-04-11T23:10:41Z) - PARIS and ELSA: An Elastic Scheduling Algorithm for Reconfigurable
Multi-GPU Inference Servers [0.9854614058492648]
NVIDIAのAmpere GPUアーキテクチャは、1つの大きなモノリシックGPUを複数の小さな"GPUパーティション"に"再構成"する機能を提供する。
本稿では,この新しいGPUアーキテクチャを再構成性で検討し,高性能なマルチGPUML推論サーバを開発する。
論文 参考訳(メタデータ) (2022-02-27T23:30:55Z) - PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。
しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。
PLSSVMはLVMのドロップイン代替として使用できる。
論文 参考訳(メタデータ) (2022-02-25T13:24:23Z) - SMORE: Knowledge Graph Completion and Multi-hop Reasoning in Massive
Knowledge Graphs [147.73127662757335]
我々は、知識グラフ(KG)におけるシングルホップおよびマルチホップ推論のための最初の汎用フレームワークであるスケーラブルなマルチホップ推論(SMORE)を提案する。
シングルマシンのSMOREはFreebase KG(86Mエンティティ、338Mエッジ)でマルチホップ推論を行うことができる。
SMOREは、従来のマルチホップKGフレームワークよりもスループット(トレーニング速度)を、最小のGPUメモリ要件で2.2倍向上させる。
論文 参考訳(メタデータ) (2021-10-28T05:02:33Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - Semantic Scene Segmentation for Robotics Applications [51.66271681532262]
様々な設定の下で,最も成功したセマンティックシーンセグメンテーションモデルの動作を,展開(推論)速度の観点から検討する。
この研究の目的は、ロボット工学の応用要件に最も適合しているものを選択するために、現在の最先端セグメンテーションモデルの比較研究を提供することである。
論文 参考訳(メタデータ) (2021-08-25T08:55:20Z) - Providing Meaningful Data Summarizations Using Examplar-based Clustering
in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。
提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2021-05-25T15:55:14Z) - DistGNN: Scalable Distributed Training for Large-Scale Graph Neural
Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。
本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。
4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文 参考訳(メタデータ) (2021-04-14T08:46:35Z) - GateKeeper-GPU: Fast and Accurate Pre-Alignment Filtering in Short Read
Mapping [7.680154692488026]
GateKeeper-GPUはシーケンスアライメントのための高速で正確な事前調整フィルタである。
多数のGPUスレッドを使用して、多数のシーケンスペアを迅速かつ同時に検査します。
GateKeeper-GPUはシーケンスアライメントを最大2.9倍に高速化し、包括的な読み取りマッパーのエンドツーエンド実行時間に最大1.4倍のスピードアップを提供する。
論文 参考訳(メタデータ) (2021-03-27T20:01:37Z) - Large Graph Convolutional Network Training with GPU-Oriented Data
Communication Architecture [19.2129567657739]
グラフ畳み込みネットワーク(gcns)は大規模グラフベースのレコメンデーションシステムでますます採用されている。
現在のGCNトレーニングシステムは、フィーチャーテーブルをホストメモリに保持し、スパース機能の収集にCPUに依存している。
しかしこのアプローチは、ホストメモリの帯域幅とCPUに大きなプレッシャーを与えます。
本稿では,GPUスレッドがホストメモリのスパース機能に直接アクセスするGCNトレーニングのための新しいGPU指向データ通信手法を提案する。
論文 参考訳(メタデータ) (2021-03-04T21:00:17Z) - Nimble: Lightweight and Parallel GPU Task Scheduling for Deep Learning [7.43260596107574]
我々は、最小のスケジューリングオーバーヘッドでタスクを並列に実行する、ディープラーニング(DL)実行エンジンであるNimbleを提案する。
Nableは、単一のGPUで複数のGPUストリームを活用することで、GPUタスクの実行を自動的に並列化する。
PyTorchと比較して、Nimbleは推論とトレーニングを最大22.34$times$と3.61$times$で高速化している。
論文 参考訳(メタデータ) (2020-12-04T17:25:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。