論文の概要: Energy consumption of code small language models serving with runtime engines and execution providers
- arxiv url: http://arxiv.org/abs/2412.15441v1
- Date: Thu, 19 Dec 2024 22:44:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:24:53.127762
- Title: Energy consumption of code small language models serving with runtime engines and execution providers
- Title(参考訳): ランタイムエンジンと実行プロバイダを備えたコード小言語モデルのエネルギー消費
- Authors: Francisco Durán, Matias Martinez, Patricia Lago, Silverio Martínez-Fernández,
- Abstract要約: 小言語モデル(SLM)は、リソース要求を減らすための有望なソリューションを提供する。
私たちのゴールは、ディープラーニングエンジンと実行プロバイダがエネルギー消費、実行時間、コンピューティング-リソース利用に与える影響を分析することです。
- 参考スコア(独自算出の注目度): 11.998900897003997
- License:
- Abstract: Background. The rapid growth of Language Models (LMs), particularly in code generation, requires substantial computational resources, raising concerns about energy consumption and environmental impact. Optimizing LMs inference for energy efficiency is crucial, and Small Language Models (SLMs) offer a promising solution to reduce resource demands. Aim. Our goal is to analyze the impact of deep learning runtime engines and execution providers on energy consumption, execution time, and computing-resource utilization from the point of view of software engineers conducting inference in the context of code SLMs. Method. We conducted a technology-oriented, multi-stage experimental pipeline using twelve code generation SLMs to investigate energy consumption, execution time, and computing-resource utilization across the configurations. Results. Significant differences emerged across configurations. CUDA execution provider configurations outperformed CPU execution provider configurations in both energy consumption and execution time. Among the configurations, TORCH paired with CUDA demonstrated the greatest energy efficiency, achieving energy savings from 37.99% up to 89.16% compared to other serving configurations. Similarly, optimized runtime engines like ONNX with the CPU execution provider achieved from 8.98% up to 72.04% energy savings within CPU-based configurations. Also, TORCH paired with CUDA exhibited efficient computing-resource utilization. Conclusions. Serving configuration choice significantly impacts energy efficiency. While further research is needed, we recommend the above configurations best suited to software engineers' requirements for enhancing serving efficiency in energy and performance.
- Abstract(参考訳): 背景。
言語モデル(LM)の急速な成長は、特にコード生成において、かなりの計算資源を必要とし、エネルギー消費と環境への影響に対する懸念を高めている。
SLM(Small Language Models)は、リソース需要を減らすための有望なソリューションを提供する。
エイム。
我々のゴールは、SLMの文脈で推論を行うソフトウェアエンジニアの視点から、ディープラーニングランタイムエンジンと実行プロバイダがエネルギー消費、実行時間、コンピューティングリソース利用に与える影響を分析することである。
方法。
我々は、12個のコード生成SLMを用いて、技術指向の多段階実験パイプラインを実行し、構成間のエネルギー消費、実行時間、計算資源利用について検討した。
結果。
構成間で重要な違いが現れた。
CUDAの実行プロバイダの設定は、エネルギ消費と実行時間の両方でCPU実行プロバイダの設定よりも優れています。
構成の中で、TORCHとCUDAは最大のエネルギー効率を示し、他のサービス構成に比べて37.99%から89.16%の省エネを実現した。
同様に、ONNXのような最適化されたランタイムエンジンとCPU実行プロバイダは、CPUベースの構成で8.98%から72.04%の省エネを実現した。
また、CUDAと組み合わせたTORCHは効率的な計算資源利用を示した。
結論。
構成の選択はエネルギー効率に大きな影響を及ぼす。
さらなる研究が必要であるが、エネルギーと性能の効率性を高めるためのソフトウェアエンジニアの要求に最も適した上記の構成を推奨する。
関連論文リスト
- EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Large Language Models for Energy-Efficient Code: Emerging Results and Future Directions [2.848398051763324]
エネルギー効率向上のための符号として,大規模言語モデル (LLM) の新たな適用法を提案する。
我々はプロトタイプを記述し評価し、我々のシステムでは、コンパイラの最適化だけで最大2倍のエネルギー効率を向上できる6つの小さなプログラムを探索した。
論文 参考訳(メタデータ) (2024-10-11T20:35:40Z) - Green AI: A Preliminary Empirical Study on Energy Consumption in DL
Models Across Different Runtime Infrastructures [56.200335252600354]
トレーニング済みのモデルを、ネイティブな開発環境とは異なる環境にデプロイするのは、一般的なプラクティスです。
これにより、インフラを含むONNXや標準フォーマットとして機能するONNXなどの交換フォーマットが導入された。
論文 参考訳(メタデータ) (2024-02-21T09:18:44Z) - Multiagent Reinforcement Learning with an Attention Mechanism for
Improving Energy Efficiency in LoRa Networks [52.96907334080273]
ネットワーク規模が大きくなるにつれて、パケット衝突によるLoRaネットワークのエネルギー効率は急激に低下する。
マルチエージェント強化学習(MALoRa)に基づく伝送パラメータ割り当てアルゴリズムを提案する。
シミュレーションの結果,MALoRaはベースラインアルゴリズムと比較してシステムEEを著しく改善することがわかった。
論文 参考訳(メタデータ) (2023-09-16T11:37:23Z) - A Reinforcement Learning Approach for Performance-aware Reduction in
Power Consumption of Data Center Compute Nodes [0.46040036610482665]
我々はReinforcement Learningを使用して、クラウド計算ノード上での電力供給ポリシーを設計する。
実ハードウェア上でトレーニングされたエージェントが、消費電力とアプリケーションパフォーマンスのバランスをとることで、どのように行動を起こすかを示す。
論文 参考訳(メタデータ) (2023-08-15T23:25:52Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Power Constrained Autotuning using Graph Neural Networks [1.7188280334580197]
本稿では,最新のプロセッサ上での科学応用の性能,パワー,エネルギー効率を向上させるための,グラフニューラルネットワークに基づく新しい自動チューニング手法を提案する。
提案手法では,標準のOpenMP構成に対して,平均的な幾何的性能改善が25%以上,13%以上となる,異なる電力制約でOpenMP構成を識別する。
論文 参考訳(メタデータ) (2023-02-22T16:06:00Z) - U-Boost NAS: Utilization-Boosted Differentiable Neural Architecture
Search [50.33956216274694]
ターゲットプラットフォームにおけるリソース利用の最適化は、DNN推論時に高いパフォーマンスを達成するための鍵となる。
本稿では,タスクの正確性や推論遅延を最適化するだけでなく,資源利用のためのハードウェア対応NASフレームワークを提案する。
我々は,従来のハードウェア対応NAS法と比較して,DNN推論の2.8~4倍の高速化を実現している。
論文 参考訳(メタデータ) (2022-03-23T13:44:15Z) - Source Code Classification for Energy Efficiency in Parallel Ultra
Low-Power Microcontrollers [5.4352987210173955]
本稿では,ソフトウェアツールチェーンの知性を向上し,最新のアーキテクチャを最大限に活用することを目的とする。
低電力の並列組込みアーキテクチャの場合、これは、例えばコア数の観点から構成を見つけることを意味し、最小限のエネルギー消費につながる。
実験によれば、ソースコード上で機械学習モデルを使用して最適なエネルギースケーリング構成を自動的に選択することは可能であり、エネルギー最小化のための自動システム構成のコンテキストで使用できる可能性がある。
論文 参考訳(メタデータ) (2020-12-12T15:12:03Z) - The Case for Learning Application Behavior to Improve Hardware Energy
Efficiency [2.4425948078034847]
得られた知識をハードウェア構成のチューニングに利用することを提案する。
提案手法はFOECASTERと呼ばれ、ディープラーニングモデルを用いて、ハードウェアリソースの構成がアプリケーションの特定の動作に最適なエネルギー効率を提供するかを学習する。
この結果から,ForECASTERは全リソースに設定されたベースライン上で最大18.4%のシステム電力を節約できることがわかった。
論文 参考訳(メタデータ) (2020-04-27T18:11:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。