論文の概要: DVFS-Aware DNN Inference on GPUs: Latency Modeling and Performance Analysis
- arxiv url: http://arxiv.org/abs/2502.06295v1
- Date: Mon, 10 Feb 2025 09:34:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:29:36.969714
- Title: DVFS-Aware DNN Inference on GPUs: Latency Modeling and Performance Analysis
- Title(参考訳): GPU上のDVFS対応DNN推論:レイテンシモデリングと性能解析
- Authors: Yunchu Han, Zhaojun Nan, Sheng Zhou, Zhisheng Niu,
- Abstract要約: ディープニューラルネットワーク(DNN)のレイテンシとエネルギー消費のバランスをとるための有望な技術として、ダイナミック電圧周波数スケーリング(DVFS)が登場している
本稿では,GPU上でのDNN推定時間を正確に特徴付けるDVFS対応遅延モデルを提案する。
評価の結果,提案モデルによる局所的推論最適化は,それぞれ66%,69%の時間とエネルギー消費を削減できることがわかった。
- 参考スコア(独自算出の注目度): 12.359690205873335
- License:
- Abstract: The rapid development of deep neural networks (DNNs) is inherently accompanied by the problem of high computational costs. To tackle this challenge, dynamic voltage frequency scaling (DVFS) is emerging as a promising technology for balancing the latency and energy consumption of DNN inference by adjusting the computing frequency of processors. However, most existing models of DNN inference time are based on the CPU-DVFS technique, and directly applying the CPU-DVFS model to DNN inference on GPUs will lead to significant errors in optimizing latency and energy consumption. In this paper, we propose a DVFS-aware latency model to precisely characterize DNN inference time on GPUs. We first formulate the DNN inference time based on extensive experiment results for different devices and analyze the impact of fitting parameters. Then by dividing DNNs into multiple blocks and obtaining the actual inference time, the proposed model is further verified. Finally, we compare our proposed model with the CPU-DVFS model in two specific cases. Evaluation results demonstrate that local inference optimization with our proposed model achieves a reduction of no less than 66% and 69% in inference time and energy consumption respectively. In addition, cooperative inference with our proposed model can improve the partition policy and reduce the energy consumption compared to the CPU-DVFS model.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)の急速な発展は、本質的に高い計算コストの問題を伴っている。
この課題に対処するために、プロセッサの計算周波数を調整することでDNN推論のレイテンシとエネルギー消費のバランスをとるための有望な技術として、動的電圧周波数スケーリング(DVFS)が登場している。
しかし、既存のDNN推論時間のほとんどはCPU-DVFS技術に基づいており、GPU上のDNN推論に直接CPU-DVFSモデルを適用すると、レイテンシとエネルギー消費の最適化において重大なエラーが発生する。
本稿では,GPU上でのDNN推定時間を正確に特徴付けるDVFS対応遅延モデルを提案する。
まず、異なるデバイスに対する広範な実験結果に基づいてDNN推論時間を定式化し、適合パラメータの影響を解析する。
次に、DNNを複数のブロックに分割し、実際の推測時間を取得することにより、提案モデルをさらに検証する。
最後に,提案モデルとCPU-DVFSモデルを比較した。
評価の結果,提案モデルによる局所的推論最適化は,それぞれ66%,69%の時間とエネルギー消費を削減できることがわかった。
さらに,提案モデルとの協調推論により,CPU-DVFSモデルと比較して分割ポリシを改善し,消費電力を削減することができる。
関連論文リスト
- The Missing U for Efficient Diffusion Models [3.712196074875643]
拡散確率モデル(Diffusion Probabilistic Models)は、画像合成、ビデオ生成、分子設計などのタスクにおいて、記録破りのパフォーマンスをもたらす。
それらの能力にもかかわらず、その効率、特に逆過程では、収束速度が遅いことと計算コストが高いため、依然として課題である。
本研究では,連続力学系を利用した拡散モデルのための新しいデノナイジングネットワークの設計手法を提案する。
論文 参考訳(メタデータ) (2023-10-31T00:12:14Z) - Single Channel Speech Enhancement Using U-Net Spiking Neural Networks [2.436681150766912]
音声強調(SE)は、信頼性の高い通信装置や頑健な音声認識システムに不可欠である。
U-Netアーキテクチャに基づくスパイキングニューラルネットワーク(SNN)を用いたSEに対する新しいアプローチを提案する。
SNNは音声などの時間次元のデータ処理に適しており、ニューロモルフィックハードウェア上でのエネルギー効率のよい実装で知られている。
論文 参考訳(メタデータ) (2023-07-26T19:10:29Z) - DVFO: Learning-Based DVFS for Energy-Efficient Edge-Cloud Collaborative
Inference [12.095934624748686]
本稿では,新しいDVFS対応エッジクラウド協調推論フレームワークであるDVFOを提案する。
エッジデバイスのCPU、GPU、メモリの周波数を自動的に最適化し、機能マップをクラウドサーバにオフロードする。
最先端の計画に比べて、エネルギー消費を平均で33%削減する。
論文 参考訳(メタデータ) (2023-06-02T07:00:42Z) - Design and Prototyping Distributed CNN Inference Acceleration in Edge
Computing [85.74517957717363]
HALPはエッジコンピューティングにおけるエッジデバイス(ED)間のシームレスなコラボレーションを設計することで推論を加速する。
実験により、分散推論HALPはVGG-16に対して1.7倍の推論加速を達成することが示された。
分散推論HALPを用いたモデル選択は,サービスの信頼性を著しく向上させることができる。
論文 参考訳(メタデータ) (2022-11-24T19:48:30Z) - Receptive Field-based Segmentation for Distributed CNN Inference
Acceleration in Collaborative Edge Computing [93.67044879636093]
協調エッジコンピューティングネットワークにおける分散畳み込みニューラルネットワーク(CNN)を用いた推論高速化について検討する。
我々は,CNNモデルを複数の畳み込み層に分割するために,融合層並列化を用いた新しい協調エッジコンピューティングを提案する。
論文 参考訳(メタデータ) (2022-07-22T18:38:11Z) - MAPLE-X: Latency Prediction with Explicit Microprocessor Prior Knowledge [87.41163540910854]
ディープニューラルネットワーク(DNN)レイテンシのキャラクタリゼーションは、時間を要するプロセスである。
ハードウェアデバイスの事前知識とDNNアーキテクチャのレイテンシを具体化し,MAPLEを拡張したMAPLE-Xを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:08:20Z) - Training High-Performance Low-Latency Spiking Neural Networks by
Differentiation on Spike Representation [70.75043144299168]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックハードウェア上に実装された場合、有望なエネルギー効率のAIモデルである。
非分化性のため、SNNを効率的に訓練することは困難である。
本稿では,ハイパフォーマンスを実現するスパイク表現法(DSR)の差分法を提案する。
論文 参考訳(メタデータ) (2022-05-01T12:44:49Z) - Enhanced physics-constrained deep neural networks for modeling vanadium
redox flow battery [62.997667081978825]
本稿では,物理制約付き深部ニューラルネットワーク(PCDNN)による高精度電圧予測手法を提案する。
ePCDNNは、電圧放電曲線のテール領域を含む電荷放電サイクルを通して、電圧応答を正確にキャプチャすることができる。
論文 参考訳(メタデータ) (2022-03-03T19:56:24Z) - Weightless Neural Networks for Efficient Edge Inference [1.7882696915798877]
ウェイトレスニューラルネットワーク(WNN)は、テーブルルックアップを使用して推論を行う機械学習モデルのクラスである。
本稿では,WNN アーキテクチャ BTHOWeN を提案する。
BTHOWeNは、より優れたレイテンシとエネルギー効率を提供することで、大規模で成長するエッジコンピューティングセクターをターゲットにしている。
論文 参考訳(メタデータ) (2022-03-03T01:46:05Z) - DTNN: Energy-efficient Inference with Dendrite Tree Inspired Neural
Networks for Edge Vision Applications [2.1800759000607024]
本稿では,活性化量子化によって実現されたテーブルルックアップ操作を用いたエネルギー効率の高い推論のためのDendrite-Tree-based Neural Network (DTNN)を提案する。
DTNNはResNet-18とVGG-11でそれぞれ19.4Xと64.9Xの大幅な省エネを実現した。
論文 参考訳(メタデータ) (2021-05-25T11:44:12Z) - ANNETTE: Accurate Neural Network Execution Time Estimation with Stacked
Models [56.21470608621633]
本稿では,アーキテクチャ検索を対象ハードウェアから切り離すための時間推定フレームワークを提案する。
提案手法は,マイクロカーネルと多層ベンチマークからモデルの集合を抽出し,マッピングとネットワーク実行時間推定のためのスタックモデルを生成する。
生成した混合モデルの推定精度と忠実度, 統計モデルとルーフラインモデル, 評価のための洗練されたルーフラインモデルを比較した。
論文 参考訳(メタデータ) (2021-05-07T11:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。