論文の概要: A Study on the Intersection of GPU Utilization and CNN Inference
- arxiv url: http://arxiv.org/abs/2212.07936v1
- Date: Thu, 15 Dec 2022 16:11:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 18:02:29.224824
- Title: A Study on the Intersection of GPU Utilization and CNN Inference
- Title(参考訳): GPU利用のインターセクションとCNN推論に関する研究
- Authors: Jack Kosaian, Amar Phanishayee
- Abstract要約: 我々は、畳み込みニューラルネットワーク(CNN)の推論時GPU利用を改善する余地があることを示す。
我々は、CNNの推論時GPU利用を改善する余地があり、GPU利用に関する知識は、利用自体をターゲットとしないアプリケーションでさえも恩恵を受ける可能性があることを論じる。
- 参考スコア(独自算出の注目度): 8.084016058894779
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: There has been significant progress in developing neural network
architectures that both achieve high predictive performance and that also
achieve high application-level inference throughput (e.g., frames per second).
Another metric of increasing importance is GPU utilization during inference:
the measurement of how well a deployed neural network uses the computational
capabilities of the GPU on which it runs. Achieving high GPU utilization is
critical to increasing application-level throughput and ensuring a good return
on investment for deploying GPUs.
This paper analyzes the GPU utilization of convolutional neural network (CNN)
inference. We first survey the GPU utilization of CNNs to show that there is
room to improve the GPU utilization of many of these CNNs. We then investigate
the GPU utilization of networks within a neural architecture search (NAS)
search space, and explore how using GPU utilization as a metric could
potentially be used to accelerate NAS itself. Our study makes the case that
there is room to improve the inference-time GPU utilization of CNNs and that
knowledge of GPU utilization has the potential to benefit even applications
that do not target utilization itself. We hope that the results of this study
will spur future innovation in designing GPU-efficient neural networks.
- Abstract(参考訳): 高い予測性能を達成し、高いアプリケーションレベルの推論スループット(例えば毎秒フレーム)を達成するニューラルネットワークアーキテクチャの開発には、大きな進歩があります。
もうひとつの重要な測定基準は、推論中のGPU利用量である。デプロイされたニューラルネットワークが実行中のGPUの計算能力をどのように利用するかを測定する。
高いGPU利用を達成することは、アプリケーションレベルのスループットを高め、GPUをデプロイするための投資に十分なリターンを確保するために重要である。
本稿では、畳み込みニューラルネットワーク(CNN)のGPU利用について分析する。
まず、CNNのGPU利用状況を調査し、これらのCNNのGPU利用率を改善する余地があることを示す。
次に、ニューラルネットワーク検索(NAS)検索空間におけるネットワークのGPU利用について検討し、メトリックとしてGPU利用を用いることでNAS自体を加速させる方法について検討する。
我々は、CNNの推論時GPU利用を改善する余地があり、GPU利用に関する知識は、利用自体をターゲットとしないアプリケーションでさえも恩恵を受ける可能性があることを論じる。
この研究の結果が、gpu効率のよいニューラルネットワークの設計に将来のイノベーションをもたらすことを願っている。
関連論文リスト
- Benchmarking GPUs on SVBRDF Extractor Model [0.0]
本研究では、より大きな入力画像(256x256)で動作するニューラルネットワークモデル上での異なるGPUの性能を区別する。
本研究では、より大きな入力画像(256x256)で動作するニューラルネットワークモデル上での異なるGPUの性能の差別化を試みた。
論文 参考訳(メタデータ) (2023-10-19T17:09:06Z) - Transferability of Convolutional Neural Networks in Stationary Learning
Tasks [96.00428692404354]
本稿では,大規模な空間問題に対する畳み込みニューラルネットワーク(CNN)の効率的なトレーニングのための新しいフレームワークを提案する。
このような信号の小さなウィンドウで訓練されたCNNは、再学習することなく、はるかに大きなウィンドウでほぼ性能を発揮することを示す。
以上の結果から,CNNは10人未満の訓練を受けた後,数百人のエージェントによる問題に対処できることが示唆された。
論文 参考訳(メタデータ) (2023-07-21T13:51:45Z) - Quiver: Supporting GPUs for Low-Latency, High-Throughput GNN Serving
with Workload Awareness [4.8412870364335925]
Quiverは、低レイテンシと高スループットを備えた分散GPUベースのGNNサービスシステムである。
最新のGNN手法と比較して,Quiverは8倍のスループットで最大35倍のレイテンシを実現している。
論文 参考訳(メタデータ) (2023-05-18T10:34:23Z) - Architectural Implications of Embedding Dimension during GCN on CPU and
GPU [6.650945912906685]
グラフ畳み込みネットワーク(GCNs)は、グラフ学習問題に広く用いられているGNNの一種である。
GCNは、固有のスパーシリティ、低いデータ再利用、大規模なメモリ容量要求のため、アーキテクチャの観点からは難しいアルゴリズムである。
論文 参考訳(メタデータ) (2022-12-01T19:23:12Z) - Survey on Large Scale Neural Network Training [48.424512364338746]
現代のディープニューラルネットワーク(DNN)は、トレーニング中にウェイト、アクティベーション、その他の中間テンソルを保存するためにかなりのメモリを必要とする。
この調査は、より効率的なDNNトレーニングを可能にするアプローチの体系的な概要を提供する。
論文 参考訳(メタデータ) (2022-02-21T18:48:02Z) - Accelerating Training and Inference of Graph Neural Networks with Fast
Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。
我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。
本稿では,これらのボトルネックを緩和する一連の改良点について述べる。
また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文 参考訳(メタデータ) (2021-10-16T02:41:35Z) - L2PF -- Learning to Prune Faster [57.32153461504626]
本稿では,cnnの冗長フィルタを離散的に学習するマルチタスクのtry-and-learn法と,レイヤの微調整期間の連続的動作を提案する。
ResNet20では、最小精度で圧縮比3.84xを達成しました。
最先端プルーニング法と比較して,GPU時間を1.71倍に短縮した。
論文 参考訳(メタデータ) (2021-01-07T18:13:37Z) - At-Scale Sparse Deep Neural Network Inference with Efficient GPU
Implementation [24.824295164938604]
本稿では,Sparse Deep Neural Network Challenge 2020の推論モデルに対するGPU性能の最適化とスケーリング結果について述べる。
スパースディープニューラルネットワーク(SpDNN)は、大規模なニューラルネットワークのメモリフットプリントを制御することを約束している。
本研究では,ReLU関数と融合したスパース行列乗算カーネルを提案する。
論文 参考訳(メタデータ) (2020-07-28T12:09:43Z) - Optimizing Memory Placement using Evolutionary Graph Reinforcement
Learning [56.83172249278467]
大規模検索空間を対象とした進化グラフ強化学習(EGRL)を提案する。
我々は、推論のために、Intel NNP-Iチップ上で、我々のアプローチを直接訓練し、検証する。
また,NNP-Iコンパイラと比較して28~78%の高速化を実現している。
論文 参考訳(メタデータ) (2020-07-14T18:50:12Z) - Hybrid Models for Learning to Branch [81.93868699246214]
我々はCPUマシン上で効率的な分岐を行うための新しいハイブリッドアーキテクチャを提案する。
提案アーキテクチャは,GNNの表現力と分岐処理のための計算コストの低い多層パーセプトロン(MLP)を組み合わせる。
論文 参考訳(メタデータ) (2020-06-26T21:03:45Z) - Neural Architecture Design for GPU-Efficient Networks [27.07089149328155]
本稿では,GPU効率のよいネットワークを設計するための一般的な原理を提案する。
提案するフレームワークをベースとして,GPU効率の良いネットワーク群(genets)を簡潔に設計する。
ImageNetで$geq 81.3%の精度を達成する一方で、genetはGPUでEfficienNetより6.4ドル速い。
論文 参考訳(メタデータ) (2020-06-24T22:42:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。