論文の概要: Toward Accurate Platform-Aware Performance Modeling for Deep Neural
Networks
- arxiv url: http://arxiv.org/abs/2012.00211v1
- Date: Tue, 1 Dec 2020 01:42:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-30 19:58:54.696315
- Title: Toward Accurate Platform-Aware Performance Modeling for Deep Neural
Networks
- Title(参考訳): ディープニューラルネットワークの正確なプラットフォーム対応性能モデリングに向けて
- Authors: Chuan-Chi Wang, Ying-Chiao Liao, Ming-Chang Kao, Wen-Yew Liang,
Shih-Hao Hung
- Abstract要約: 機械学習に基づくPerfNetV2は、さまざまなGPUアクセラレータ上でのニューラルネットワークのパフォーマンスをモデル化するための、これまでの作業の精度を向上させる。
アプリケーションを利用すると、アプリケーションで使用される畳み込みニューラルネットワークの推論時間とトレーニング時間を予測することができる。
我々のケーススタディでは、PerfNetV2が13.1%のLeNet、AlexNet、VGG16、NVIDIA GTX-1080Tiで平均絶対パーセンテージエラーを発生し、ICBD 2018で発表された以前の研究のエラー率は200%に達する可能性がある。
- 参考スコア(独自算出の注目度): 0.17499351967216337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we provide a fine-grain machine learning-based method,
PerfNetV2, which improves the accuracy of our previous work for modeling the
neural network performance on a variety of GPU accelerators. Given an
application, the proposed method can be used to predict the inference time and
training time of the convolutional neural networks used in the application,
which enables the system developer to optimize the performance by choosing the
neural networks and/or incorporating the hardware accelerators to deliver
satisfactory results in time. Furthermore, the proposed method is capable of
predicting the performance of an unseen or non-existing device, e.g. a new GPU
which has a higher operating frequency with less processor cores, but more
memory capacity. This allows a system developer to quickly search the hardware
design space and/or fine-tune the system configuration. Compared to the
previous works, PerfNetV2 delivers more accurate results by modeling detailed
host-accelerator interactions in executing the full neural networks and
improving the architecture of the machine learning model used in the predictor.
Our case studies show that PerfNetV2 yields a mean absolute percentage error
within 13.1% on LeNet, AlexNet, and VGG16 on NVIDIA GTX-1080Ti, while the error
rate on a previous work published in ICBD 2018 could be as large as 200%.
- Abstract(参考訳): 本稿では,様々なGPUアクセラレータ上でのニューラルネットワーク性能をモデル化するための従来の作業の精度を向上させる,微細粒度機械学習ベースのPerfNetV2を提案する。
アプリケーションが与えられた場合、提案手法は、アプリケーションで使用される畳み込みニューラルネットワークの推論時間とトレーニング時間を予測するために使用することができ、システム開発者はニューラルネットワークを選択したり、ハードウェアアクセラレータを組み込んだりすることで、パフォーマンスを最適化することができる。
さらに、提案手法は、例えば、見当たらない、または存在しない装置の性能を予測することができる。
プロセッサコアが少なく、メモリ容量も大きい、高い動作周波数を持つ新しいGPU。
これにより、システム開発者はハードウェア設計スペースを素早く検索したり、システム構成を微調整したりできる。
以前の研究と比較すると、PerfNetV2は完全なニューラルネットワークの実行において詳細なホスト-アクセラレータインタラクションをモデル化し、予測器で使用される機械学習モデルのアーキテクチャを改善することで、より正確な結果を提供する。
我々のケーススタディでは、PerfNetV2が13.1%のLeNet、AlexNet、VGG16、NVIDIA GTX-1080Tiで平均絶対パーセンテージエラーを発生し、ICBD 2018で発表された以前の研究のエラー率は200%に達する可能性がある。
関連論文リスト
- Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Receptive Field Refinement for Convolutional Neural Networks Reliably
Improves Predictive Performance [1.52292571922932]
本稿では,このような理論的および経験的性能向上をもたらす受容場解析への新たなアプローチを提案する。
我々のアプローチは、広く知られたSOTA(State-of-the-art)モデルクラスにおいて、ImageNet1Kのパフォーマンスを改善することができる。
論文 参考訳(メタデータ) (2022-11-26T05:27:44Z) - Fluid Batching: Exit-Aware Preemptive Serving of Early-Exit Neural
Networks on Edge NPUs [74.83613252825754]
スマートエコシステム(smart ecosystems)"は、スタンドアロンではなく、センセーションが同時に行われるように形成されています。
これはデバイス上の推論パラダイムを、エッジにニューラル処理ユニット(NPU)をデプロイする方向にシフトしている。
そこで本研究では,実行時のプリエンプションが到着・終了プロセスによってもたらされる動的性を考慮に入れた,新しい早期終了スケジューリングを提案する。
論文 参考訳(メタデータ) (2022-09-27T15:04:01Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - Parameter Prediction for Unseen Deep Architectures [23.79630072083828]
我々は、他のネットワークを訓練する過去の知識を利用して、ディープラーニングを使ってパラメータを直接予測できるかどうか検討する。
本稿では,CPU上でも1秒の間隔で1回のフォワードパスで性能パラメータを予測できるハイパーネットワークを提案する。
提案したモデルは、目に見えない多様なネットワーク上で驚くほど優れた性能を達成する。
論文 参考訳(メタデータ) (2021-10-25T16:52:33Z) - Accelerating Training and Inference of Graph Neural Networks with Fast
Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。
我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。
本稿では,これらのボトルネックを緩和する一連の改良点について述べる。
また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文 参考訳(メタデータ) (2021-10-16T02:41:35Z) - ANNETTE: Accurate Neural Network Execution Time Estimation with Stacked
Models [56.21470608621633]
本稿では,アーキテクチャ検索を対象ハードウェアから切り離すための時間推定フレームワークを提案する。
提案手法は,マイクロカーネルと多層ベンチマークからモデルの集合を抽出し,マッピングとネットワーク実行時間推定のためのスタックモデルを生成する。
生成した混合モデルの推定精度と忠実度, 統計モデルとルーフラインモデル, 評価のための洗練されたルーフラインモデルを比較した。
論文 参考訳(メタデータ) (2021-05-07T11:39:05Z) - ResPerfNet: Deep Residual Learning for Regressional Performance Modeling
of Deep Neural Networks [0.16311150636417257]
本稿では,ディープラーニングに基づくResPerfNetを提案する。この手法は,ニューラルネットワークの性能を予測するために,対象プラットフォーム上で得られた代表データセットを用いて残差ニューラルネットワークをトレーニングする。
実験の結果,ResPerfNetは個々のニューラルネットワーク層と,さまざまなプラットフォーム上でのフルネットワークモデルの実行時間を正確に予測できることがわかった。
論文 参考訳(メタデータ) (2020-12-03T03:02:42Z) - FBNetV3: Joint Architecture-Recipe Search using Predictor Pretraining [65.39532971991778]
サンプル選択とランキングの両方を導くことで、アーキテクチャとトレーニングのレシピを共同でスコアする精度予測器を提案する。
高速な進化的検索をCPU分で実行し、さまざまなリソース制約に対するアーキテクチャと準備のペアを生成します。
FBNetV3は最先端のコンパクトニューラルネットワークのファミリーを構成しており、自動と手動で設計された競合より優れている。
論文 参考訳(メタデータ) (2020-06-03T05:20:21Z) - Performance Aware Convolutional Neural Network Channel Pruning for
Embedded GPUs [6.035819238203187]
コンボリューションチャネルの数を減少させ,初期サイズの12%を刈り取ることで,性能を損なう場合がある。
また,cuDNNで3倍,Arm Compute LibraryとTVMで10倍以上の性能向上を実現した。
論文 参考訳(メタデータ) (2020-02-20T12:07:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。