Fugu-MT 論文翻訳(概要): Nimble: Lightweight and Parallel GPU Task Scheduling for Deep Learning

論文の概要: Nimble: Lightweight and Parallel GPU Task Scheduling for Deep Learning

arxiv url: http://arxiv.org/abs/2012.02732v1
Date: Fri, 4 Dec 2020 17:25:46 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-22 20:32:01.183093
Title: Nimble: Lightweight and Parallel GPU Task Scheduling for Deep Learning
Title（参考訳）: Nimble: ディープラーニングのための軽量で並列なGPUタスクスケジューリング
Authors: Woosuk Kwon, Gyeong-In Yu, Eunji Jeong, Byung-Gon Chun
Abstract要約: 我々は、最小のスケジューリングオーバーヘッドでタスクを並列に実行する、ディープラーニング(DL)実行エンジンであるNimbleを提案する。 Nableは、単一のGPUで複数のGPUストリームを活用することで、GPUタスクの実行を自動的に並列化する。 PyTorchと比較して、Nimbleは推論とトレーニングを最大22.34$times$と3.61$times$で高速化している。
参考スコア（独自算出の注目度）: 7.43260596107574
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep learning (DL) frameworks take advantage of GPUs to improve the speed of DL inference and training. Ideally, DL frameworks should be able to fully utilize the computation power of GPUs such that the running time depends on the amount of computation assigned to GPUs. Yet, we observe that in scheduling GPU tasks, existing DL frameworks suffer from inefficiencies such as large scheduling overhead and unnecessary serial execution. To this end, we propose Nimble, a DL execution engine that runs GPU tasks in parallel with minimal scheduling overhead. Nimble introduces a novel technique called ahead-of-time (AoT) scheduling. Here, the scheduling procedure finishes before executing the GPU kernel, thereby removing most of the scheduling overhead during run time. Furthermore, Nimble automatically parallelizes the execution of GPU tasks by exploiting multiple GPU streams in a single GPU. Evaluation on a variety of neural networks shows that compared to PyTorch, Nimble speeds up inference and training by up to 22.34$\times$ and 3.61$\times$, respectively. Moreover, Nimble outperforms state-of-the-art inference systems, TensorRT and TVM, by up to 2.81$\times$ and 1.70$\times$, respectively.
Abstract（参考訳）: ディープラーニング(DL)フレームワークは、GPUを活用して、DL推論とトレーニングのスピードを改善する。理想的には、DLフレームワークはGPUの計算能力を完全に活用でき、実行時間はGPUに割り当てられた計算量に依存する。しかし、GPUタスクのスケジューリングにおいて、既存のDLフレームワークは、大きなスケジューリングオーバーヘッドや不要なシリアル実行などの非効率に悩まされている。そこで我々は,gpuタスクを最小限のスケジューリングオーバーヘッドで並列に実行するdl実行エンジンであるnimbleを提案する。 Nimble氏は、AoTスケジューリングと呼ばれる新しいテクニックを紹介している。ここで、スケジューリング手順はGPUカーネルを実行する前に終了し、実行中のスケジューリングオーバーヘッドの大部分を取り除く。さらに、Nimbleは単一のGPUで複数のGPUストリームを活用することで、GPUタスクの実行を自動的に並列化する。様々なニューラルネットワークの評価は、pytorchと比較して、nimbleは推論とトレーニングを最大22.34$\times$と3.61$\times$で高速化していることを示している。さらに、Nimbleは最先端の推論システムであるTensorRTとTVMを最大2.81$\times$と1.70$\times$で上回る。

関連論文リスト

Minute-Long Videos with Dual Parallelisms [57.22737565366549]
Diffusion Transformer (DiT)ベースのビデオ拡散モデルは、大規模に高品質なビデオを生成するが、長いビデオの処理遅延とメモリコストは禁じられている。我々はDualParalと呼ばれる新しい分散推論戦略を提案する。 1つのGPUでビデオ全体を生成する代わりに、時間フレームとモデルレイヤの両方をGPU間で並列化します。
論文参考訳（メタデータ） (2025-05-27T11:55:22Z)
SGPRS: Seamless GPU Partitioning Real-Time Scheduler for Periodic Deep Learning Workloads [0.9898607871253774]
構成分割スイッチのゼロを考慮した最初のリアルタイムGPUスケジューラであるSGPRSを提案する。提案するスケジューラは、並列タスクの期限を多く満たすだけでなく、ピボットポイントを越えた全体的なパフォーマンスも維持する。
論文参考訳（メタデータ） (2024-04-13T18:29:26Z)
FIKIT: Priority-Based Real-time GPU Multi-tasking Scheduling with Kernel Identification [2.9271819018953162]
クラウドコンピューティングクラスタでは、マルチタスク共有によるGPUの計算能力が要求される。既存のGPU共有ソリューションは、1つのGPUで競合する複数のジョブに対して、タスクレベルの待ち時間やタスクレベルの切り替えコストの削減に重点を置いている。本稿では, FIKIT: Filling Inter- Kernel Idle Timeというカーネルレベルのスケジューリング手法を提案する。
論文参考訳（メタデータ） (2023-11-17T07:25:18Z)
FusionAI: Decentralized Training and Deploying LLMs with Massive Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文参考訳（メタデータ） (2023-09-03T13:27:56Z)
PARTIME: Scalable and Parallel Processing Over Time with Deep Neural Networks [68.96484488899901]
PartIMEは、データが継続的にストリーミングされるたびにニューラルネットワークを高速化するように設計されたライブラリです。 PartIMEは、ストリームから利用可能になった時点で、各データサンプルの処理を開始する。オンライン学習において、PartialIMEと古典的な非並列ニューラル計算を経験的に比較するために実験が行われる。
論文参考訳（メタデータ） (2022-10-17T14:49:14Z)
A Frequency-aware Software Cache for Large Recommendation System Embeddings [11.873521953539361]
ディープラーニングレコメンデーションモデル(DLRM)はインターネット企業で広く採用されている。本稿では,CPU と GPU メモリ空間の埋め込みテーブルを動的に管理するために,GPU ベースのソフトウェアキャッシュ手法を提案する。提案するソフトウェアキャッシュは,GPU上のDLRM全体を同期更新方式でトレーニングする上で効率がよい。
論文参考訳（メタデータ） (2022-08-08T12:08:05Z)
Batch-efficient EigenDecomposition for Small and Medium Matrices [65.67315418971688]
EigenDecomposition (ED)は多くのコンピュータビジョンアルゴリズムとアプリケーションの中心にある。本稿では,コンピュータビジョンの応用シナリオに特化したQRベースのED手法を提案する。
論文参考訳（メタデータ） (2022-07-09T09:14:12Z)
PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。 PLSSVMはLVMのドロップイン代替として使用できる。
論文参考訳（メタデータ） (2022-02-25T13:24:23Z)
AxoNN: An asynchronous, message-driven parallel framework for extreme-scale deep learning [1.5301777464637454]
AxoNNは並列ディープラーニングフレームワークで、非同期とメッセージ駆動の実行を利用して、各GPU上でのニューラルネットワーク操作をスケジュールする。トレーニング中に定期的にデータをオフロードするスクラッチスペースとしてCPUメモリを使用することで、AxoNNはGPUメモリ使用量を4倍削減することができる。
論文参考訳（メタデータ） (2021-10-25T14:43:36Z)
Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文参考訳（メタデータ） (2021-10-13T20:58:15Z)
Scheduling Optimization Techniques for Neural Network Training [3.1617796705744547]
本稿では,ニューラルネットワークトレーニングに有効なスケジューリング手法であるアウト・オブ・オーダー(oo)バックプロップを提案する。単一GPU、データ並列、パイプライン並列トレーニングにおけるGPU利用は、ooobackpropを適用することで、一般的に改善できることを示す。
論文参考訳（メタデータ） (2021-10-03T05:45:06Z)
RTGPU: Real-Time GPU Scheduling of Hard Deadline Parallel Tasks with Fine-Grain Utilization [5.02836935036198]
本論文では,複数のGPUアプリケーションの実行をリアルタイムにスケジュール可能なRTGPUを提案する。提案手法は,従来の作業に比べてスケジューリング性に優れ,複数のGPUアプリケーションに厳しい期限をリアルタイムに保証する。
論文参考訳（メタデータ） (2021-01-25T22:34:06Z)
Hybrid Models for Learning to Branch [81.93868699246214]
我々はCPUマシン上で効率的な分岐を行うための新しいハイブリッドアーキテクチャを提案する。提案アーキテクチャは,GNNの表現力と分岐処理のための計算コストの低い多層パーセプトロン(MLP)を組み合わせる。
論文参考訳（メタデータ） (2020-06-26T21:03:45Z)
Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文参考訳（メタデータ） (2020-06-18T08:16:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。