論文の概要: Green AI: A Preliminary Empirical Study on Energy Consumption in DL
Models Across Different Runtime Infrastructures
- arxiv url: http://arxiv.org/abs/2402.13640v1
- Date: Wed, 21 Feb 2024 09:18:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 16:07:11.647286
- Title: Green AI: A Preliminary Empirical Study on Energy Consumption in DL
Models Across Different Runtime Infrastructures
- Title(参考訳): Green AI: 異なるランタイムインフラストラクチャ間のDLモデルにおけるエネルギー消費に関する予備的研究
- Authors: Negar Alizadeh and Fernando Castor
- Abstract要約: ONNXと同様に、よく知られた3つのディープラーニング(DL)フレームワークのランタイムインフラストラクチャにおけるエネルギー消費と推論時間について検討する。
1つのMXNetはPyTorchとバッチサイズ1を使用したコンピュータビジョンモデルの両方で性能が優れており、GPUの効率が良く、CPU使用率が低い。
- 参考スコア(独自算出の注目度): 56.200335252600354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Learning (DL) frameworks such as PyTorch and TensorFlow include runtime
infrastructures responsible for executing trained models on target hardware,
managing memory, data transfers, and multi-accelerator execution, if
applicable. Additionally, it is a common practice to deploy pre-trained models
on environments distinct from their native development settings. This led to
the introduction of interchange formats such as ONNX, which includes its
runtime infrastructure, and ONNX Runtime, which work as standard formats that
can be used across diverse DL frameworks and languages. Even though these
runtime infrastructures have a great impact on inference performance, no
previous paper has investigated their energy efficiency. In this study, we
monitor the energy consumption and inference time in the runtime
infrastructures of three well-known DL frameworks as well as ONNX, using three
various DL models. To have nuance in our investigation, we also examine the
impact of using different execution providers. We find out that the performance
and energy efficiency of DL are difficult to predict. One framework, MXNet,
outperforms both PyTorch and TensorFlow for the computer vision models using
batch size 1, due to efficient GPU usage and thus low CPU usage. However, batch
size 64 makes PyTorch and MXNet practically indistinguishable, while TensorFlow
is outperformed consistently. For BERT, PyTorch exhibits the best performance.
Converting the models to ONNX usually yields significant performance
improvements but the ONNX converted ResNet model with batch size 64 consumes
approximately 10% more energy and time than the original PyTorch model.
- Abstract(参考訳): PyTorchやTensorFlowといったディープラーニング(DL)フレームワークには、ターゲットハードウェア上でトレーニングされたモデルの実行、メモリの管理、データ転送、マルチアクセラレータの実行に責任を持つランタイムインフラストラクチャが含まれている。
さらに、トレーニング済みのモデルを、ネイティブな開発環境とは異なる環境にデプロイするのは一般的なプラクティスです。
これにより、ランタイムインフラストラクチャを含むONNXや、さまざまなDLフレームワークや言語で使用可能な標準フォーマットとして機能するONNX Runtimeなどの交換フォーマットが導入された。
これらのランタイムインフラストラクチャは推論性能に大きな影響を及ぼすが、以前の論文ではそのエネルギー効率について検討していない。
本研究では,3つのDLモデルを用いて,よく知られた3つのDLフレームワークとONNXのランタイムインフラストラクチャにおけるエネルギー消費と推論時間を監視する。
本調査では,異なる実行プロバイダを使用することによる影響についても検討した。
dlの性能とエネルギー効率は予測が困難であることが判明した。
1つのフレームワーク、MXNetは、バッチサイズ1を使用してコンピュータビジョンモデルでPyTorchとTensorFlowの両方を上回っている。
しかし、バッチサイズ64により、PyTorchとMXNetは事実上区別不能になり、TensorFlowは一貫してパフォーマンスが向上している。
BERTでは、PyTorchが最高のパフォーマンスを示している。
モデルをONNXに変換するとパフォーマンスが大幅に向上するが、ONNX変換されたResNetモデルは64バッチサイズで、オリジナルのPyTorchモデルよりも約10%のエネルギーと時間を消費する。
関連論文リスト
- SeBS-Flow: Benchmarking Serverless Cloud Function Workflows [51.4200085836966]
本稿では、最初のサーバーレスワークフローベンチマークスイートSeBS-Flowを提案する。
SeBS-Flowには6つの実世界のアプリケーションベンチマークと、異なる計算パターンを表す4つのマイクロベンチマークが含まれている。
当社では,パフォーマンス,コスト,スケーラビリティ,ランタイムの偏差など,3つの主要なクラウドプラットフォームに関する包括的な評価を実施しています。
論文 参考訳(メタデータ) (2024-10-04T14:52:18Z) - Dynamic DNNs and Runtime Management for Efficient Inference on
Mobile/Embedded Devices [2.8851756275902476]
ディープニューラルネットワーク(DNN)推論は、モバイルおよび組み込みプラットフォームでますます実行されています。
システムレベルの性能とエネルギー効率を最大化する新しいDynamic Super-Networksを共同で設計した。
SOTAと比較すると、Jetson Xavier NXのGPU上でのImageNetを用いた実験結果は、類似のImageNet Top-1精度で2.4倍、類似のレイテンシで5.1%高速であることを示している。
論文 参考訳(メタデータ) (2024-01-17T04:40:30Z) - Flash-LLM: Enabling Cost-Effective and Highly-Efficient Large Generative
Model Inference with Unstructured Sparsity [12.663030430488922]
高速コア上での低コストかつ高効率な大規模生成モデル推論を実現するためのFlash-LLMを提案する。
SpMMカーネルレベルでは、Flash-LLMは最先端のライブラリであるSputnikとSparTAをそれぞれ平均2.9倍、1.5倍で上回っている。
論文 参考訳(メタデータ) (2023-09-19T03:20:02Z) - Cheaply Evaluating Inference Efficiency Metrics for Autoregressive
Transformer APIs [66.30706841821123]
大規模言語モデル(LLM)は、自然言語処理において多くの最先端システムに電力を供給する。
LLMは、推論時でさえ非常に計算コストが高い。
モデル間での推論効率を比較するための新しい指標を提案する。
論文 参考訳(メタデータ) (2023-05-03T21:51:42Z) - Tensor Slicing and Optimization for Multicore NPUs [2.670309629218727]
本稿では,Slicing Optimization (TSO) と呼ばれるマルチコアNPUに対するコンパイラ最適化パスを提案する。
TSOは、一連のCNNモデルの実行時間を最小化する最高のテンソルスライシングを特定する。
その結果、TSOは一連のCNNモデルの実行時間を最小化する最適なテンソルスライシングを識別できることがわかった。
論文 参考訳(メタデータ) (2023-04-06T12:03:03Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Automatic Tuning of Tensorflow's CPU Backend using Gradient-Free
Optimization Algorithms [0.6543507682026964]
Deep Learning (DL) アプリケーションは、ジーンやPyTorchといったDLライブラリやフレームワークを使って構築されている。
これらのフレームワークは複雑なパラメータを持ち、優れたトレーニングを得るために調整する。
そこで,本論文では,トレーニングと推論性能を改善するために,DLフレームワークのパラメータをチューニングする問題をブラックボックス問題として扱う。
論文 参考訳(メタデータ) (2021-09-13T19:10:23Z) - Top-KAST: Top-K Always Sparse Training [50.05611544535801]
トレーニングを通して一定間隔を保存するTop-KASTを提案する。
確立したImageNetベンチマークのトレーニングモデルでは,従来の作業と同等かそれ以上に動作可能であることを示す。
ImageNetの結果に加えて、言語モデリングの分野においても、我々のアプローチを実証しています。
論文 参考訳(メタデータ) (2021-06-07T11:13:05Z) - Utilizing Ensemble Learning for Performance and Power Modeling and
Improvement of Parallel Cancer Deep Learning CANDLE Benchmarks [0.0]
本稿では,アンサンブル学習を用いて,線形,非線形,木/木に基づく機械学習手法を組み合わせる。
2つの並列癌ディープラーニングCANDLEベンチマーク(NT3とP1B2)のために収集したデータセットを使用する。
P1B2は最大61.15%,P1B2は最大62.58%,P1B2は最大55.81%,NT3は最大52.60%の省エネルギーを実現した。
論文 参考訳(メタデータ) (2020-11-12T21:18:20Z) - Real-Time Execution of Large-scale Language Models on Mobile [49.32610509282623]
BERTの最良のモデル構造は,特定のデバイスに適合する計算サイズである。
我々のフレームワークは、モバイルデバイスのリソース仕様とリアルタイム仕様の両方を満たすための特定モデルを保証することができる。
具体的には、当社のモデルはCPUでは5.2倍、GPUでは4.1倍、BERTベースでは0.5-2%の精度損失がある。
論文 参考訳(メタデータ) (2020-09-15T01:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。