論文の概要: RTGPU: Real-Time GPU Scheduling of Hard Deadline Parallel Tasks with
Fine-Grain Utilization
- arxiv url: http://arxiv.org/abs/2101.10463v2
- Date: Wed, 27 Jan 2021 02:22:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-14 18:58:16.394192
- Title: RTGPU: Real-Time GPU Scheduling of Hard Deadline Parallel Tasks with
Fine-Grain Utilization
- Title(参考訳): RTGPU: 細粒度利用によるハードデッドライン並列タスクのリアルタイムGPUスケジューリング
- Authors: An Zou, Jing Li, Christopher D. Gill, and Xuan Zhang
- Abstract要約: 本論文では,複数のGPUアプリケーションの実行をリアルタイムにスケジュール可能なRTGPUを提案する。
提案手法は,従来の作業に比べてスケジューリング性に優れ,複数のGPUアプリケーションに厳しい期限をリアルタイムに保証する。
- 参考スコア(独自算出の注目度): 5.02836935036198
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many emerging cyber-physical systems, such as autonomous vehicles and robots,
rely heavily on artificial intelligence and machine learning algorithms to
perform important system operations. Since these highly parallel applications
are computationally intensive, they need to be accelerated by graphics
processing units (GPUs) to meet stringent timing constraints. However, despite
the wide adoption of GPUs, efficiently scheduling multiple GPU applications
while providing rigorous real-time guarantees remains a challenge. In this
paper, we propose RTGPU, which can schedule the execution of multiple GPU
applications in real-time to meet hard deadlines. Each GPU application can have
multiple CPU execution and memory copy segments, as well as GPU kernels. We
start with a model to explicitly account for the CPU and memory copy segments
of these applications. We then consider the GPU architecture in the development
of a precise timing model for the GPU kernels and leverage a technique known as
persistent threads to implement fine-grained kernel scheduling with improved
performance through interleaved execution. Next, we propose a general method
for scheduling parallel GPU applications in real time. Finally, to schedule
multiple parallel GPU applications, we propose a practical real-time scheduling
algorithm based on federated scheduling and grid search (for GPU kernel
segments) with uniprocessor fixed priority scheduling (for multiple CPU and
memory copy segments). Our approach provides superior schedulability compared
with previous work, and gives real-time guarantees to meet hard deadlines for
multiple GPU applications according to comprehensive validation and evaluation
on a real NVIDIA GTX1080Ti GPU system.
- Abstract(参考訳): 自動運転車やロボットなどの新しいサイバー物理システムの多くは、重要なシステム操作を実行するために人工知能と機械学習アルゴリズムに大きく依存しています。
これらの高並列アプリケーションは計算集約性が高いため、厳密なタイミング制約を満たすためにグラフィクス処理ユニット(GPU)によって加速する必要がある。
しかし、GPUの広範な採用にもかかわらず、複数のGPUアプリケーションを効率的にスケジューリングし、厳格なリアルタイム保証を提供することは依然として課題です。
本論文では,複数のGPUアプリケーションの実行をリアルタイムにスケジュールし,厳しい納期に耐えるRTGPUを提案する。
各GPUアプリケーションは、GPUカーネルと同様に、複数のCPU実行およびメモリコピーセグメントを持つことができる。
まず、これらのアプリケーションのCPUとメモリコピーセグメントを明示的に考慮するモデルから始めます。
次に、GPUアーキテクチャをGPUカーネルの正確なタイミングモデルの開発に考慮し、永続スレッドと呼ばれる技術を利用して、インターリーブ実行によるパフォーマンス向上による細かい粒度のカーネルスケジューリングを実装します。
次に,並列GPUアプリケーションをリアルタイムにスケジューリングする一般的な手法を提案する。
最後に,複数の並列gpuアプリケーションをスケジューリングするために,単プロセッサ固定優先度スケジューリング(複数cpuおよびメモリコピーセグメント)によるフェデレーションスケジューリングとグリッド探索(gpuカーネルセグメント)に基づく実用的なリアルタイムスケジューリングアルゴリズムを提案する。
提案手法は,複数のGPUアプリケーションに対して,実際のNVIDIA GTX1080Ti GPUシステムに対する総合的な検証と評価に従って,複数のGPUアプリケーションのハードデッドラインをリアルタイムに保証する。
関連論文リスト
- Deep Learning Training on Multi-Instance GPUs [0.0]
マルチインスタンスGPU(MIG)はNVIDIAが導入した新しいテクノロジで、GPUを分割してワークロードに適合させることができる。
本稿では,MIG対応A100 GPUの3種類のディープラーニングワークロードにおける性能について検討する。
論文 参考訳(メタデータ) (2022-09-13T14:13:06Z) - Batch-efficient EigenDecomposition for Small and Medium Matrices [65.67315418971688]
EigenDecomposition (ED)は多くのコンピュータビジョンアルゴリズムとアプリケーションの中心にある。
本稿では,コンピュータビジョンの応用シナリオに特化したQRベースのED手法を提案する。
論文 参考訳(メタデータ) (2022-07-09T09:14:12Z) - Heterogeneous Acceleration Pipeline for Recommendation System Training [2.346585343935306]
レコメンデーションシステムは、深層学習と大規模な埋め込みテーブルによる計算強度とメモリ強度の融合を示す。
本稿では、これらの懸念を克服するために、Hotlineと呼ばれる異種加速パイプラインを提供する。
Hotlineは、Intelが最適化したCPU-GPU DLRMとHugeCTRが最適化したGPUのみのベースラインと比較して、平均トレーニング時間を3倍と1.8倍に短縮する。
論文 参考訳(メタデータ) (2022-04-11T23:10:41Z) - PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。
しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。
PLSSVMはLVMのドロップイン代替として使用できる。
論文 参考訳(メタデータ) (2022-02-25T13:24:23Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - Providing Meaningful Data Summarizations Using Examplar-based Clustering
in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。
提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2021-05-25T15:55:14Z) - Nimble: Lightweight and Parallel GPU Task Scheduling for Deep Learning [7.43260596107574]
我々は、最小のスケジューリングオーバーヘッドでタスクを並列に実行する、ディープラーニング(DL)実行エンジンであるNimbleを提案する。
Nableは、単一のGPUで複数のGPUストリームを活用することで、GPUタスクの実行を自動的に並列化する。
PyTorchと比較して、Nimbleは推論とトレーニングを最大22.34$times$と3.61$times$で高速化している。
論文 参考訳(メタデータ) (2020-12-04T17:25:46Z) - Systolic Computing on GPUs for Productive Performance [2.8064596842326575]
我々は,GPU上で動作する高性能なシストリックアレイを生産的に構築する言語とコンパイラを提案する。
プログラマは、データフローのプロジェクションを線形シストリック配列に指定し、プロジェクションの詳細な実装はコンパイラに任せる。
コンパイラは指定されたプロジェクションを実装し、リニアシストリックアレイをGPUのSIMD実行ユニットとベクトルレジスタにマッピングする。
論文 参考訳(メタデータ) (2020-10-29T18:49:54Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z) - Heterogeneous CPU+GPU Stochastic Gradient Descent Algorithms [1.3249453757295084]
ヘテロジニアスCPU+GPUアーキテクチャの深層学習のためのトレーニングアルゴリズムについて検討する。
私たちの2倍の目標 -- 収束率と資源利用を同時に最大化する -- は、この問題を難しくします。
これらのアルゴリズムの実装は,複数の実データセットよりも高速な収束と資源利用の両立を実現していることを示す。
論文 参考訳(メタデータ) (2020-04-19T05:21:20Z) - MPLP++: Fast, Parallel Dual Block-Coordinate Ascent for Dense Graphical
Models [96.1052289276254]
この研究は、人気のあるDual Block-Coordinate Ascent原則に基づく新しいMAP-solverを導入している。
驚いたことに、性能の低い解法に小さな変更を加えることで、既存の解法を大きなマージンで大幅に上回る新しい解法MPLP++を導出します。
論文 参考訳(メタデータ) (2020-04-16T16:20:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。