Fugu-MT 論文翻訳(概要): RTGPU: Real-Time GPU Scheduling of Hard Deadline Parallel Tasks with Fine-Grain Utilization

論文の概要: RTGPU: Real-Time GPU Scheduling of Hard Deadline Parallel Tasks with Fine-Grain Utilization

arxiv url: http://arxiv.org/abs/2101.10463v2
Date: Wed, 27 Jan 2021 02:22:33 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-14 18:58:16.394192
Title: RTGPU: Real-Time GPU Scheduling of Hard Deadline Parallel Tasks with Fine-Grain Utilization
Title（参考訳）: RTGPU: 細粒度利用によるハードデッドライン並列タスクのリアルタイムGPUスケジューリング
Authors: An Zou, Jing Li, Christopher D. Gill, and Xuan Zhang
Abstract要約: 本論文では,複数のGPUアプリケーションの実行をリアルタイムにスケジュール可能なRTGPUを提案する。提案手法は,従来の作業に比べてスケジューリング性に優れ,複数のGPUアプリケーションに厳しい期限をリアルタイムに保証する。
参考スコア（独自算出の注目度）: 5.02836935036198
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Many emerging cyber-physical systems, such as autonomous vehicles and robots, rely heavily on artificial intelligence and machine learning algorithms to perform important system operations. Since these highly parallel applications are computationally intensive, they need to be accelerated by graphics processing units (GPUs) to meet stringent timing constraints. However, despite the wide adoption of GPUs, efficiently scheduling multiple GPU applications while providing rigorous real-time guarantees remains a challenge. In this paper, we propose RTGPU, which can schedule the execution of multiple GPU applications in real-time to meet hard deadlines. Each GPU application can have multiple CPU execution and memory copy segments, as well as GPU kernels. We start with a model to explicitly account for the CPU and memory copy segments of these applications. We then consider the GPU architecture in the development of a precise timing model for the GPU kernels and leverage a technique known as persistent threads to implement fine-grained kernel scheduling with improved performance through interleaved execution. Next, we propose a general method for scheduling parallel GPU applications in real time. Finally, to schedule multiple parallel GPU applications, we propose a practical real-time scheduling algorithm based on federated scheduling and grid search (for GPU kernel segments) with uniprocessor fixed priority scheduling (for multiple CPU and memory copy segments). Our approach provides superior schedulability compared with previous work, and gives real-time guarantees to meet hard deadlines for multiple GPU applications according to comprehensive validation and evaluation on a real NVIDIA GTX1080Ti GPU system.
Abstract（参考訳）: 自動運転車やロボットなどの新しいサイバー物理システムの多くは、重要なシステム操作を実行するために人工知能と機械学習アルゴリズムに大きく依存しています。これらの高並列アプリケーションは計算集約性が高いため、厳密なタイミング制約を満たすためにグラフィクス処理ユニット(GPU)によって加速する必要がある。しかし、GPUの広範な採用にもかかわらず、複数のGPUアプリケーションを効率的にスケジューリングし、厳格なリアルタイム保証を提供することは依然として課題です。本論文では,複数のGPUアプリケーションの実行をリアルタイムにスケジュールし,厳しい納期に耐えるRTGPUを提案する。各GPUアプリケーションは、GPUカーネルと同様に、複数のCPU実行およびメモリコピーセグメントを持つことができる。まず、これらのアプリケーションのCPUとメモリコピーセグメントを明示的に考慮するモデルから始めます。次に、GPUアーキテクチャをGPUカーネルの正確なタイミングモデルの開発に考慮し、永続スレッドと呼ばれる技術を利用して、インターリーブ実行によるパフォーマンス向上による細かい粒度のカーネルスケジューリングを実装します。次に,並列GPUアプリケーションをリアルタイムにスケジューリングする一般的な手法を提案する。最後に,複数の並列gpuアプリケーションをスケジューリングするために,単プロセッサ固定優先度スケジューリング(複数cpuおよびメモリコピーセグメント)によるフェデレーションスケジューリングとグリッド探索(gpuカーネルセグメント)に基づく実用的なリアルタイムスケジューリングアルゴリズムを提案する。提案手法は,複数のGPUアプリケーションに対して,実際のNVIDIA GTX1080Ti GPUシステムに対する総合的な検証と評価に従って,複数のGPUアプリケーションのハードデッドラインをリアルタイムに保証する。

関連論文リスト

A Parallel CPU-GPU Framework for Cost-Bounded DFS with Applications to IDA* and BTS [13.186524200050957]
本稿では,深度第一探索におけるGPU計算手法を提案する。これは、Iterative Deepening A* (IDA*)アルゴリズムの拡張であるemphsynchronous IDA*のようなアルゴリズムを作成するために使用される。本研究では, 3x3 の Rubik Cube と 4x4 のスライディングタイルパズル (STP) に対するアプローチを評価し,GPU 操作を DFS で効率的にバッチ化可能であることを示す。
論文参考訳（メタデータ） (2025-07-16T05:07:33Z)
NGPU-LM: GPU-Accelerated N-Gram Language Model for Context-Biasing in Greedy ASR Decoding [54.88765757043535]
この研究は、統計的なn-gram言語モデルのデータ構造を再考し、GPU最適化推論の高速かつ並列な操作を可能にする。我々のアプローチは NGPU-LM と呼ばれ、7% 未満の計算オーバーヘッドを持つ全ての主要な ASR モデルに対して、カスタマイズ可能なgreedy decoding を導入している。提案手法は,ビーム探索による顕著な遅延を回避しつつ,greedy と beam search の精度ギャップの50%以上を排除できる。
論文参考訳（メタデータ） (2025-05-28T20:43:10Z)
Minute-Long Videos with Dual Parallelisms [57.22737565366549]
Diffusion Transformer (DiT)ベースのビデオ拡散モデルは、大規模に高品質なビデオを生成するが、長いビデオの処理遅延とメモリコストは禁じられている。我々はDualParalと呼ばれる新しい分散推論戦略を提案する。 1つのGPUでビデオ全体を生成する代わりに、時間フレームとモデルレイヤの両方をGPU間で並列化します。
論文参考訳（メタデータ） (2025-05-27T11:55:22Z)
Deep Optimizer States: Towards Scalable Training of Transformer Models Using Interleaved Offloading [2.8231000588510757]
トランスフォーマーと大規模言語モデル(LLM)は、すべてのドメインで急速に採用されている。変圧器の訓練は非常に高価で、しばしば記憶壁にぶつかる」本稿では,LLMをCPUまたはGPU上で更新フェーズをスケジュールしたサブグループに分割する手法を提案する。
論文参考訳（メタデータ） (2024-10-26T00:43:59Z)
Hierarchical Resource Partitioning on Modern GPUs: A Reinforcement Learning Approach [1.076745840431781]
本稿では,階層的分割のセットアップと,与えられたジョブ集合からの協調スケジューリンググループの選択を包括的に協調する手法を提案する。これにより、時間共有スケジューリングに比べて最大スループットが1.87倍向上する。
論文参考訳（メタデータ） (2024-05-14T16:40:06Z)
FIKIT: Priority-Based Real-time GPU Multi-tasking Scheduling with Kernel Identification [2.9271819018953162]
クラウドコンピューティングクラスタでは、マルチタスク共有によるGPUの計算能力が要求される。既存のGPU共有ソリューションは、1つのGPUで競合する複数のジョブに対して、タスクレベルの待ち時間やタスクレベルの切り替えコストの削減に重点を置いている。本稿では, FIKIT: Filling Inter- Kernel Idle Timeというカーネルレベルのスケジューリング手法を提案する。
論文参考訳（メタデータ） (2023-11-17T07:25:18Z)
Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。 1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文参考訳（メタデータ） (2023-04-25T05:04:44Z)
PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。 PLSSVMはLVMのドロップイン代替として使用できる。
論文参考訳（メタデータ） (2022-02-25T13:24:23Z)
Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文参考訳（メタデータ） (2021-10-13T20:58:15Z)
Nimble: Lightweight and Parallel GPU Task Scheduling for Deep Learning [7.43260596107574]
我々は、最小のスケジューリングオーバーヘッドでタスクを並列に実行する、ディープラーニング(DL)実行エンジンであるNimbleを提案する。 Nableは、単一のGPUで複数のGPUストリームを活用することで、GPUタスクの実行を自動的に並列化する。 PyTorchと比較して、Nimbleは推論とトレーニングを最大22.34$times$と3.61$times$で高速化している。
論文参考訳（メタデータ） (2020-12-04T17:25:46Z)
Systolic Computing on GPUs for Productive Performance [2.8064596842326575]
我々は,GPU上で動作する高性能なシストリックアレイを生産的に構築する言語とコンパイラを提案する。プログラマは、データフローのプロジェクションを線形シストリック配列に指定し、プロジェクションの詳細な実装はコンパイラに任せる。コンパイラは指定されたプロジェクションを実装し、リニアシストリックアレイをGPUのSIMD実行ユニットとベクトルレジスタにマッピングする。
論文参考訳（メタデータ） (2020-10-29T18:49:54Z)
Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文参考訳（メタデータ） (2020-06-18T08:16:25Z)
MPLP++: Fast, Parallel Dual Block-Coordinate Ascent for Dense Graphical Models [96.1052289276254]
この研究は、人気のあるDual Block-Coordinate Ascent原則に基づく新しいMAP-solverを導入している。驚いたことに、性能の低い解法に小さな変更を加えることで、既存の解法を大きなマージンで大幅に上回る新しい解法MPLP++を導出します。
論文参考訳（メタデータ） (2020-04-16T16:20:53Z)
Efficient Video Semantic Segmentation with Labels Propagation and Refinement [138.55845680523908]
本稿では,ハイブリッドGPU/CPUを用いた高精細ビデオのリアルタイムセマンティックセマンティックセマンティック化の問題に取り組む。 i) CPU上では、非常に高速な光フロー法であり、ビデオの時間的側面を利用して、あるフレームから次のフレームへ意味情報を伝達するために使用される。高解像度フレーム(2048 x 1024)を持つ一般的なCityscapesデータセットでは、単一のGPUとCPU上で80から1000Hzの動作ポイントが提案されている。
論文参考訳（メタデータ） (2019-12-26T11:45:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。