論文の概要: Benchmarking Energy Efficiency of Large Language Models Using vLLM
- arxiv url: http://arxiv.org/abs/2509.08867v1
- Date: Wed, 10 Sep 2025 11:03:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.084686
- Title: Benchmarking Energy Efficiency of Large Language Models Using vLLM
- Title(参考訳): vLLMを用いた大規模言語モデルのベンチマークエネルギー効率
- Authors: K. Pronk, Q. Zhao,
- Abstract要約: 実世界の利用状況をシミュレートするために設計された LLM efficiency Benchmark を導入する。
本稿では,モデルサイズ,アーキテクチャ,同時要求量などの要因が推定エネルギー効率に与える影響について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The prevalence of Large Language Models (LLMs) is having an growing impact on the climate due to the substantial energy required for their deployment and use. To create awareness for developers who are implementing LLMs in their products, there is a strong need to collect more information about the energy efficiency of LLMs. While existing research has evaluated the energy efficiency of various models, these benchmarks often fall short of representing realistic production scenarios. In this paper, we introduce the LLM Efficiency Benchmark, designed to simulate real-world usage conditions. Our benchmark utilizes vLLM, a high-throughput, production-ready LLM serving backend that optimizes model performance and efficiency. We examine how factors such as model size, architecture, and concurrent request volume affect inference energy efficiency. Our findings demonstrate that it is possible to create energy efficiency benchmarks that better reflect practical deployment conditions, providing valuable insights for developers aiming to build more sustainable AI systems.
- Abstract(参考訳): 大規模言語モデル(LLM)の流行は、その展開と使用に必要なかなりのエネルギーのために、気候に影響を与えている。
LLMを製品に実装している開発者に対して、LLMのエネルギー効率に関するより多くの情報を集める必要がある。
既存の研究は様々なモデルのエネルギー効率を評価してきたが、これらのベンチマークは現実的な生産シナリオを表現できないことが多い。
本稿では,実世界の利用条件をシミュレートする LLM efficiency Benchmark を提案する。
我々のベンチマークでは、モデルの性能と効率を最適化する高スループットでプロダクション対応のLLMサービスバックエンドであるvLLMを使用している。
本稿では,モデルサイズ,アーキテクチャ,同時要求量などの要因が推定エネルギー効率に与える影響について検討する。
我々の研究は、より持続可能なAIシステムの構築を目指す開発者にとって貴重な洞察を提供する、実用的なデプロイメント条件を反映したエネルギー効率ベンチマークを作成することが可能であることを実証した。
関連論文リスト
- Comparing energy consumption and accuracy in text classification inference [0.9208007322096533]
本研究は,テキスト分類推定におけるモデル精度とエネルギー消費のトレードオフを系統的に評価する。
精度の点で最高の性能モデルはエネルギー効率も良いが、より大きなLCMはより低い分類精度ではるかに多くのエネルギーを消費する傾向がある。
論文 参考訳(メタデータ) (2025-08-19T18:00:08Z) - Energy Considerations of Large Language Model Inference and Efficiency Optimizations [28.55549828393871]
大規模言語モデル(LLM)の規模と採用が拡大するにつれて、その計算と環境コストは上昇し続けている。
多様なNLPおよびAIワークロードにまたがる共通推論効率最適化のエネルギー含意を系統的に分析する。
本研究により, 推定効率最適化の適切な適用により, 最適化されていないベースラインから最大73%のエネルギー使用量を削減できることが判明した。
論文 参考訳(メタデータ) (2025-04-24T15:45:05Z) - Investigating Energy Efficiency and Performance Trade-offs in LLM Inference Across Tasks and DVFS Settings [1.5749416770494706]
大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクにおいて顕著な性能を示した。
しかしながら、彼らの推論ワークロードは計算的かつエネルギー集約的であり、持続可能性や環境への影響に関する懸念を提起している。
論文 参考訳(メタデータ) (2025-01-14T16:02:33Z) - Densing Law of LLMs [81.06644243978101]
大規模言語モデル(LLM)は人工知能のマイルストーンとして登場し、モデルのサイズが大きくなるにつれてその性能が向上する。
本稿では,異なるスケールでLLMの品質を評価するための新しい指標として,「テクトキャパシティ密度」の概念を紹介する。
論文 参考訳(メタデータ) (2024-12-05T16:31:13Z) - Impact of ML Optimization Tactics on Greener Pre-Trained ML Models [46.78148962732881]
本研究の目的は,画像分類データセットと事前学習モデルの解析,最適化モデルと非最適化モデルを比較して推論効率を向上させること,最適化の経済的影響を評価することである。
画像分類におけるPyTorch最適化手法(動的量子化、トーチ・コンパイル、局所プルーニング、グローバルプルーニング)と42のHugging Faceモデルの影響を評価するための制御実験を行った。
動的量子化は推論時間とエネルギー消費の大幅な削減を示し、大規模システムに非常に適している。
論文 参考訳(メタデータ) (2024-09-19T16:23:03Z) - DynamoLLM: Designing LLM Inference Clusters for Performance and Energy Efficiency [7.073435885680335]
そこで我々はDynamoLLMを提案する。DynamoLLMは、生成型大規模言語モデルのための最初のエネルギー管理フレームワークである。
サービスレベルでは、DynamoLLMは53%のエネルギーと38%の運転二酸化炭素を節約し、顧客へのコストを61%削減する。
論文 参考訳(メタデータ) (2024-08-01T17:40:45Z) - Towards Greener LLMs: Bringing Energy-Efficiency to the Forefront of LLM Inference [6.68507515624183]
大規模な言語モデルを提供するためのデータセンター拡張の最大の課題として、エネルギーの可用性が最前線に現れている。
入力,モデル,サービスレベルの合意によっては,LLM推論プロバイダがエネルギー効率を高めるために利用できるノブがいくつか存在することを示す。
論文 参考訳(メタデータ) (2024-03-29T17:22:48Z) - Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models [61.28463542324576]
視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。
我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。
本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-08T17:49:44Z) - Efficiency Pentathlon: A Standardized Arena for Efficiency Evaluation [82.85015548989223]
Pentathlonは、モデル効率の総合的で現実的な評価のためのベンチマークである。
Pentathlonは、モデルライフサイクルにおける計算の大部分を占める推論に焦点を当てている。
レイテンシ、スループット、メモリオーバーヘッド、エネルギー消費など、さまざまな効率面をターゲットにしたメトリクスが組み込まれている。
論文 参考訳(メタデータ) (2023-07-19T01:05:33Z) - Unlocking the Potential of User Feedback: Leveraging Large Language
Model as User Simulator to Enhance Dialogue System [65.93577256431125]
本稿では,ユーザガイド応答最適化 (UGRO) という代替手法を提案し,タスク指向の対話モデルと組み合わせる。
このアプローチでは、アノテーションのないユーザシミュレータとしてLLMを使用して対話応答を評価し、より小型のエンドツーエンドTODモデルと組み合わせる。
提案手法は従来のSOTA(State-of-the-art)よりも優れている。
論文 参考訳(メタデータ) (2023-06-16T13:04:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。