論文の概要: Characterizing Concurrency Mechanisms for NVIDIA GPUs under Deep
Learning Workloads
- arxiv url: http://arxiv.org/abs/2110.00459v1
- Date: Fri, 1 Oct 2021 14:48:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-04 14:19:41.778822
- Title: Characterizing Concurrency Mechanisms for NVIDIA GPUs under Deep
Learning Workloads
- Title(参考訳): ディープラーニングワークロード下でのNVIDIA GPUの並行処理機構のキャラクタリゼーション
- Authors: Guin Gilman and Robert J. Walls
- Abstract要約: 本稿では、NVIDIAの新しいAmpere GPUマイクロアーキテクチャで利用可能なメカニズムの性能について、ディープラーニングおよび推論ワークロード下で検討する。
細粒度プリエンプション機構の欠如,堅牢なタスク優先順位付けオプション,競合対応スレッドブロック配置ポリシーがNVIDIAのメカニズムの有効性を制限していることがわかった。
- 参考スコア(独自算出の注目度): 1.0660480034605242
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate the performance of the concurrency mechanisms available on
NVIDIA's new Ampere GPU microarchitecture under deep learning training and
inference workloads. In contrast to previous studies that treat the GPU as a
black box, we examine scheduling at the microarchitectural level. We find that
the lack of fine-grained preemption mechanisms, robust task prioritization
options, and contention-aware thread block placement policies limits the
effectiveness of NVIDIA's concurrency mechanisms. In summary, the sequential
nature of deep learning workloads and their fluctuating resource requirements
and kernel runtimes make executing such workloads while maintaining
consistently high utilization and low, predictable turnaround times difficult
on current NVIDIA hardware.
- Abstract(参考訳): 本稿では、nvidiaの新しいampere gpuマイクロアーキテクチャで使用可能な並行処理機構の性能を、ディープラーニングトレーニングと推論ワークロード下で検証する。
従来,GPUをブラックボックスとして扱う研究とは対照的に,マイクロアーキテクチャレベルでのスケジューリングを検討する。
きめ細かいプリエンプション機構の欠如、堅牢なタスク優先順位付けオプション、競合を検知するスレッドブロック配置ポリシーは、nvidiaの並行処理メカニズムの有効性を制限している。
要約すると、ディープラーニングワークロードのシーケンシャルな性質とその変動するリソース要求とカーネルランタイムは、現在のnvidiaハードウェアで一貫して高い利用率と低い予測可能なターンアラウンドタイムを維持しながら、そのようなワークロードの実行を可能にします。
関連論文リスト
- SGPRS: Seamless GPU Partitioning Real-Time Scheduler for Periodic Deep Learning Workloads [0.9898607871253774]
構成分割スイッチのゼロを考慮した最初のリアルタイムGPUスケジューラであるSGPRSを提案する。
提案するスケジューラは、並列タスクの期限を多く満たすだけでなく、ピボットポイントを越えた全体的なパフォーマンスも維持する。
論文 参考訳(メタデータ) (2024-04-13T18:29:26Z) - FIKIT: Priority-Based Real-time GPU Multi-tasking Scheduling with Kernel
Identification [2.9271819018953162]
クラウドコンピューティングクラスタでは、マルチタスク共有によるGPUの計算能力が要求される。
既存のGPU共有ソリューションは、1つのGPUで競合する複数のジョブに対して、タスクレベルの待ち時間やタスクレベルの切り替えコストの削減に重点を置いている。
本稿では, FIKIT: Filling Inter- Kernel Idle Timeというカーネルレベルのスケジューリング手法を提案する。
論文 参考訳(メタデータ) (2023-11-17T07:25:18Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - A High-Performance Accelerator for Super-Resolution Processing on
Embedded GPU [24.084304913250826]
組み込みデバイス上でのフルスタックSRアクセラレーションフレームワークを実装した。
ディープ辞書学習ベースのSRモデルにおける通信と計算のボトルネックは、完全に取り組まれている。
論文 参考訳(メタデータ) (2023-03-16T00:09:09Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Towards making the most of NLP-based device mapping optimization for
OpenCL kernels [5.6596607119831575]
我々は、加速されたOpenCLカーネルのための最適なデバイス選択(CPUまたはGPU)の問題に取り組むCummins et al.、すなわちDeeptuneの開発を拡張した。
ソースコードの文脈情報を拡張した4つの異なるモデルを提案する。
実験の結果,提案手法はCumminsらの手法を上回り,予測精度を最大4%向上させることがわかった。
論文 参考訳(メタデータ) (2022-08-30T10:20:55Z) - GPU-Accelerated Machine Learning in Non-Orthogonal Multiple Access [71.58925117604039]
非直交多重アクセス(Noma)は、将来の5Gおよび6Gネットワークに必要な大規模な接続を可能にする興味深い技術である。
線形処理と非線形処理の両方の利点を組み合わせたニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-06-13T09:38:23Z) - MPLP++: Fast, Parallel Dual Block-Coordinate Ascent for Dense Graphical
Models [96.1052289276254]
この研究は、人気のあるDual Block-Coordinate Ascent原則に基づく新しいMAP-solverを導入している。
驚いたことに、性能の低い解法に小さな変更を加えることで、既存の解法を大きなマージンで大幅に上回る新しい解法MPLP++を導出します。
論文 参考訳(メタデータ) (2020-04-16T16:20:53Z) - Faster than FAST: GPU-Accelerated Frontend for High-Speed VIO [46.20949184826173]
この研究は、既存のコンピュータビジョンアルゴリズムを改善するために、効率的な低レベルGPUハードウェア固有の命令の適用性に焦点を当てている。
特に、非マックス抑圧とその後の特徴選択は、全体的な画像処理遅延への顕著な寄与である。
論文 参考訳(メタデータ) (2020-03-30T14:16:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。