論文の概要: Energy consumption of code small language models serving with runtime engines and execution providers
- arxiv url: http://arxiv.org/abs/2412.15441v1
- Date: Thu, 19 Dec 2024 22:44:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 18:46:08.74684
- Title: Energy consumption of code small language models serving with runtime engines and execution providers
- Title(参考訳): ランタイムエンジンと実行プロバイダを備えたコード小言語モデルのエネルギー消費
- Authors: Francisco Durán, Matias Martinez, Patricia Lago, Silverio Martínez-Fernández,
- Abstract要約: 小言語モデル(SLM)は、リソース要求を減らすための有望なソリューションを提供する。
私たちのゴールは、ディープラーニングエンジンと実行プロバイダがエネルギー消費、実行時間、コンピューティング-リソース利用に与える影響を分析することです。
- 参考スコア(独自算出の注目度): 11.998900897003997
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Background. The rapid growth of Language Models (LMs), particularly in code generation, requires substantial computational resources, raising concerns about energy consumption and environmental impact. Optimizing LMs inference for energy efficiency is crucial, and Small Language Models (SLMs) offer a promising solution to reduce resource demands. Aim. Our goal is to analyze the impact of deep learning runtime engines and execution providers on energy consumption, execution time, and computing-resource utilization from the point of view of software engineers conducting inference in the context of code SLMs. Method. We conducted a technology-oriented, multi-stage experimental pipeline using twelve code generation SLMs to investigate energy consumption, execution time, and computing-resource utilization across the configurations. Results. Significant differences emerged across configurations. CUDA execution provider configurations outperformed CPU execution provider configurations in both energy consumption and execution time. Among the configurations, TORCH paired with CUDA demonstrated the greatest energy efficiency, achieving energy savings from 37.99% up to 89.16% compared to other serving configurations. Similarly, optimized runtime engines like ONNX with the CPU execution provider achieved from 8.98% up to 72.04% energy savings within CPU-based configurations. Also, TORCH paired with CUDA exhibited efficient computing-resource utilization. Conclusions. Serving configuration choice significantly impacts energy efficiency. While further research is needed, we recommend the above configurations best suited to software engineers' requirements for enhancing serving efficiency in energy and performance.
- Abstract(参考訳): 背景。
言語モデル(LM)の急速な成長は、特にコード生成において、かなりの計算資源を必要とし、エネルギー消費と環境への影響に対する懸念を高めている。
SLM(Small Language Models)は、リソース需要を減らすための有望なソリューションを提供する。
エイム。
我々のゴールは、SLMの文脈で推論を行うソフトウェアエンジニアの視点から、ディープラーニングランタイムエンジンと実行プロバイダがエネルギー消費、実行時間、コンピューティングリソース利用に与える影響を分析することである。
方法。
我々は、12個のコード生成SLMを用いて、技術指向の多段階実験パイプラインを実行し、構成間のエネルギー消費、実行時間、計算資源利用について検討した。
結果。
構成間で重要な違いが現れた。
CUDAの実行プロバイダの設定は、エネルギ消費と実行時間の両方でCPU実行プロバイダの設定よりも優れています。
構成の中で、TORCHとCUDAは最大のエネルギー効率を示し、他のサービス構成に比べて37.99%から89.16%の省エネを実現した。
同様に、ONNXのような最適化されたランタイムエンジンとCPU実行プロバイダは、CPUベースの構成で8.98%から72.04%の省エネを実現した。
また、CUDAと組み合わせたTORCHは効率的な計算資源利用を示した。
結論。
構成の選択はエネルギー効率に大きな影響を及ぼす。
さらなる研究が必要であるが、エネルギーと性能の効率性を高めるためのソフトウェアエンジニアの要求に最も適した上記の構成を推奨する。
関連論文リスト
- Energy Considerations of Large Language Model Inference and Efficiency Optimizations [28.55549828393871]
大規模言語モデル(LLM)の規模と採用が拡大するにつれて、その計算と環境コストは上昇し続けている。
多様なNLPおよびAIワークロードにまたがる共通推論効率最適化のエネルギー含意を系統的に分析する。
本研究により, 推定効率最適化の適切な適用により, 最適化されていないベースラインから最大73%のエネルギー使用量を削減できることが判明した。
論文 参考訳(メタデータ) (2025-04-24T15:45:05Z) - Can We Make Code Green? Understanding Trade-Offs in LLMs vs. Human Code Optimizations [45.243401722182554]
大規模言語モデル(LLM)は、パフォーマンスとエネルギー効率の最適化を開発者が支援すると主張している。
この研究は、科学と工学の応用のために学術と産業の両方で広く使われているマットラブで書かれたソフトウェアに焦点を当てている。
トップ100のGitHubリポジトリで400スクリプトのエネルギ中心の最適化を分析します。
論文 参考訳(メタデータ) (2025-03-26T00:27:29Z) - Large Language Models for Energy-Efficient Code: Emerging Results and Future Directions [2.848398051763324]
エネルギー効率向上のための符号として,大規模言語モデル (LLM) の新たな適用法を提案する。
我々はプロトタイプを記述し評価し、我々のシステムでは、コンパイラの最適化だけで最大2倍のエネルギー効率を向上できる6つの小さなプログラムを探索した。
論文 参考訳(メタデータ) (2024-10-11T20:35:40Z) - Enhancing Dropout-based Bayesian Neural Networks with Multi-Exit on FPGA [20.629635991749808]
本稿では,フィールドプログラマブルゲートアレイ(FPGA)ベースのアクセラレータを効率よく生成するアルゴリズムとハードウェアの共同設計フレームワークを提案する。
アルゴリズムレベルでは、計算とメモリのオーバーヘッドを低減した、新しいマルチエグジット・ドロップアウトベースのベイズNNを提案する。
ハードウェアレベルでは,提案する効率的なベイズNNのためのFPGAベースのアクセラレータを生成するための変換フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-20T17:08:42Z) - Toward Cross-Layer Energy Optimizations in AI Systems [4.871463967255196]
エネルギー効率は、人工知能の採用に歯止めをかける要因になる可能性が高い。
人工知能(AI)や機械学習(ML)ツールや技術の普及によって、そのエネルギー効率が採用への歯止め要因になりそうである。
これは、生成AI(GenAI)モデルが巨大なエネルギー豚であるからである。
推論はさらにエネルギーを消費する。
論文 参考訳(メタデータ) (2024-04-10T01:35:17Z) - Green AI: A Preliminary Empirical Study on Energy Consumption in DL
Models Across Different Runtime Infrastructures [56.200335252600354]
トレーニング済みのモデルを、ネイティブな開発環境とは異なる環境にデプロイするのは、一般的なプラクティスです。
これにより、インフラを含むONNXや標準フォーマットとして機能するONNXなどの交換フォーマットが導入された。
論文 参考訳(メタデータ) (2024-02-21T09:18:44Z) - LitE-SNN: Designing Lightweight and Efficient Spiking Neural Network through Spatial-Temporal Compressive Network Search and Joint Optimization [48.41286573672824]
スパイキングニューラルネットワーク(SNN)は人間の脳の情報処理機構を模倣し、エネルギー効率が高い。
本稿では,空間圧縮と時間圧縮の両方を自動ネットワーク設計プロセスに組み込むLitE-SNNという新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-26T05:23:11Z) - A Reinforcement Learning Approach for Performance-aware Reduction in
Power Consumption of Data Center Compute Nodes [0.46040036610482665]
我々はReinforcement Learningを使用して、クラウド計算ノード上での電力供給ポリシーを設計する。
実ハードウェア上でトレーニングされたエージェントが、消費電力とアプリケーションパフォーマンスのバランスをとることで、どのように行動を起こすかを示す。
論文 参考訳(メタデータ) (2023-08-15T23:25:52Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - U-Boost NAS: Utilization-Boosted Differentiable Neural Architecture
Search [50.33956216274694]
ターゲットプラットフォームにおけるリソース利用の最適化は、DNN推論時に高いパフォーマンスを達成するための鍵となる。
本稿では,タスクの正確性や推論遅延を最適化するだけでなく,資源利用のためのハードウェア対応NASフレームワークを提案する。
我々は,従来のハードウェア対応NAS法と比較して,DNN推論の2.8~4倍の高速化を実現している。
論文 参考訳(メタデータ) (2022-03-23T13:44:15Z) - Source Code Classification for Energy Efficiency in Parallel Ultra
Low-Power Microcontrollers [5.4352987210173955]
本稿では,ソフトウェアツールチェーンの知性を向上し,最新のアーキテクチャを最大限に活用することを目的とする。
低電力の並列組込みアーキテクチャの場合、これは、例えばコア数の観点から構成を見つけることを意味し、最小限のエネルギー消費につながる。
実験によれば、ソースコード上で機械学習モデルを使用して最適なエネルギースケーリング構成を自動的に選択することは可能であり、エネルギー最小化のための自動システム構成のコンテキストで使用できる可能性がある。
論文 参考訳(メタデータ) (2020-12-12T15:12:03Z) - The Case for Learning Application Behavior to Improve Hardware Energy
Efficiency [2.4425948078034847]
得られた知識をハードウェア構成のチューニングに利用することを提案する。
提案手法はFOECASTERと呼ばれ、ディープラーニングモデルを用いて、ハードウェアリソースの構成がアプリケーションの特定の動作に最適なエネルギー効率を提供するかを学習する。
この結果から,ForECASTERは全リソースに設定されたベースライン上で最大18.4%のシステム電力を節約できることがわかった。
論文 参考訳(メタデータ) (2020-04-27T18:11:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。