論文の概要: A Simple Model for Portable and Fast Prediction of Execution Time and
Power Consumption of GPU Kernels
- arxiv url: http://arxiv.org/abs/2001.07104v3
- Date: Wed, 30 Sep 2020 12:47:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-08 05:48:15.615231
- Title: A Simple Model for Portable and Fast Prediction of Execution Time and
Power Consumption of GPU Kernels
- Title(参考訳): GPUカーネルの実行時間と消費電力の可搬性と高速予測のための簡易モデル
- Authors: Lorenz Braun, Sotirios Nikas, Chen Song, Vincent Heuveline, Holger
Fr\"oning
- Abstract要約: このモデルは、Parboil、Rodinia、Polybench-GPU、SHOCなどのベンチマークから189個の計算カーネルを使用してランダムなフォレストに基づいて構築されている。
クロスバリデーションを用いたモデル性能の評価では、中央値平均パーセンテージエラー(MAPE)は8.86-52.00%と1.84-2.94%で、それぞれ5つのGPUで電力予測を行う。
- 参考スコア(独自算出の注目度): 2.9853894456071077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Characterizing compute kernel execution behavior on GPUs for efficient task
scheduling is a non-trivial task. We address this with a simple model enabling
portable and fast predictions among different GPUs using only
hardware-independent features. This model is built based on random forests
using 189 individual compute kernels from benchmarks such as Parboil, Rodinia,
Polybench-GPU and SHOC. Evaluation of the model performance using
cross-validation yields a median Mean Average Percentage Error (MAPE) of
8.86-52.00% and 1.84-2.94%, for time respectively power prediction across five
different GPUs, while latency for a single prediction varies between 15 and 108
milliseconds.
- Abstract(参考訳): 効率的なタスクスケジューリングのためにGPU上での計算カーネル実行の振る舞いを特徴付けるのは簡単ではない。
ハードウェアに依存しない機能のみを使用して、異なるGPU間でポータブルかつ高速な予測を可能にするシンプルなモデルでこの問題に対処する。
このモデルは、Parboil、Rodinia、Polybench-GPU、SHOCなどのベンチマークから189個の計算カーネルを使用してランダムフォレストに基づいて構築されている。
クロスバリデーションを用いたモデル性能の評価により、平均パーセンテージエラー(mape)は8.86-52.00%と1.84-2.94%となり、5つの異なるgpuでそれぞれ電力予測を行う。
関連論文リスト
- RTMO: Towards High-Performance One-Stage Real-Time Multi-Person Pose
Estimation [49.441241947514975]
RTMOは座標分類をシームレスに統合する一段階のポーズ推定フレームワークである。
高速を維持しながらトップダウン手法に匹敵する精度を達成する。
私たちの最大のモデルであるRTMO-lは、COCO val 2017で74.8%AP、1つのV100 GPUで141FPSを実現しています。
論文 参考訳(メタデータ) (2023-12-12T18:55:29Z) - Benchmarking Edge Computing Devices for Grape Bunches and Trunks
Detection using Accelerated Object Detection Single Shot MultiBox Deep
Learning Models [2.1922186455344796]
この研究は、オブジェクト検出のための異なるプラットフォームのパフォーマンスをリアルタイムでベンチマークする。
著者らは、自然なVineデータセットを使用して、RetinaNet ResNet-50を微調整した。
論文 参考訳(メタデータ) (2022-11-21T17:02:33Z) - Tech Report: One-stage Lightweight Object Detectors [0.38073142980733]
この研究は、mAPと遅延の点でよく機能するワンステージ軽量検出器を設計するためのものである。
GPUとCPUを対象とするベースラインモデルでは、ベースラインモデルのバックボーンネットワークにおけるメイン操作の代わりに、さまざまな操作が適用される。
論文 参考訳(メタデータ) (2022-10-31T09:02:37Z) - MAPLE-Edge: A Runtime Latency Predictor for Edge Devices [80.01591186546793]
汎用ハードウェアの最先端遅延予測器であるMAPLEのエッジデバイス指向拡張であるMAPLE-Edgeを提案する。
MAPLEと比較して、MAPLE-Edgeはより小さなCPUパフォーマンスカウンタを使用して、ランタイムとターゲットデバイスプラットフォームを記述することができる。
また、共通ランタイムを共有するデバイスプール上でトレーニングを行うMAPLEとは異なり、MAPLE-Edgeは実行時に効果的に一般化できることを示す。
論文 参考訳(メタデータ) (2022-04-27T14:00:48Z) - Building a Performance Model for Deep Learning Recommendation Model
Training on GPUs [6.05245376098191]
我々は、ディープラーニング勧告モデル(DLRM)のGPUトレーニングのためのパフォーマンスモデルを作成する。
デバイスアクティブ時間(カーネルランタイムの総和)とデバイスアイドル時間の両方が、デバイスタイム全体の重要なコンポーネントであることを示す。
本稿では,その実行グラフをトラバースすることで,DLRMのバッチごとのトレーニング時間を予測できるクリティカルパスベースのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-01-19T19:05:42Z) - Accelerating Training and Inference of Graph Neural Networks with Fast
Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。
我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。
本稿では,これらのボトルネックを緩和する一連の改良点について述べる。
また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文 参考訳(メタデータ) (2021-10-16T02:41:35Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - GPU-Accelerated Optimizer-Aware Evaluation of Submodular Exemplar
Clustering [5.897728689802829]
サブモジュール関数の最適化は、クラスタリングを実行する実行可能な方法を構成する。
強近似保証と実現可能な最適化 w.r.t.
ストリーミングデータはこのクラスタリングアプローチが好都合です
exemplarベースのクラスタリングは、可能なサブモジュラー関数の1つであるが、高い計算複雑性に苦しむ。
半精度のGPU計算は、シングル精度のシングルスレッドCPU計算と比較して452倍の高速化を実現した。
論文 参考訳(メタデータ) (2021-01-21T18:23:44Z) - Real-Time Execution of Large-scale Language Models on Mobile [49.32610509282623]
BERTの最良のモデル構造は,特定のデバイスに適合する計算サイズである。
我々のフレームワークは、モバイルデバイスのリソース仕様とリアルタイム仕様の両方を満たすための特定モデルを保証することができる。
具体的には、当社のモデルはCPUでは5.2倍、GPUでは4.1倍、BERTベースでは0.5-2%の精度損失がある。
論文 参考訳(メタデータ) (2020-09-15T01:59:17Z) - Efficient Video Semantic Segmentation with Labels Propagation and
Refinement [138.55845680523908]
本稿では,ハイブリッドGPU/CPUを用いた高精細ビデオのリアルタイムセマンティックセマンティックセマンティック化の問題に取り組む。
i) CPU上では、非常に高速な光フロー法であり、ビデオの時間的側面を利用して、あるフレームから次のフレームへ意味情報を伝達するために使用される。
高解像度フレーム(2048 x 1024)を持つ一般的なCityscapesデータセットでは、単一のGPUとCPU上で80から1000Hzの動作ポイントが提案されている。
論文 参考訳(メタデータ) (2019-12-26T11:45:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。