論文の概要: TokenPowerBench: Benchmarking the Power Consumption of LLM Inference
- arxiv url: http://arxiv.org/abs/2512.03024v1
- Date: Tue, 02 Dec 2025 18:50:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:46.012351
- Title: TokenPowerBench: Benchmarking the Power Consumption of LLM Inference
- Title(参考訳): TokenPowerBench: LLM推論の消費電力ベンチマーク
- Authors: Chenxu Niu, Wei Zhang, Jie Li, Yongjian Zhao, Tongyang Wang, Xi Wang, Yong Chen,
- Abstract要約: 大規模言語モデル(LLM)サービスが1日に数十億のクエリに応答する。
推論は訓練ではなく、総消費電力の90%以上を占める。
本稿では, LLM-inference power consumption study のために設計された最初の軽量ベンチマークであるTokenPowerBenchを紹介する。
- 参考スコア(独自算出の注目度): 14.228868717031704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM) services now answer billions of queries per day, and industry reports show that inference, not training, accounts for more than 90% of total power consumption. However, existing benchmarks focus on either training/fine-tuning or performance of inference and provide little support for power consumption measurement and analysis of inference. We introduce TokenPowerBench, the first lightweight and extensible benchmark designed for LLM-inference power consumption studies. The benchmark combines (i) a declarative configuration interface covering model choice, prompt set, and inference engine, (ii) a measurement layer that captures GPU-, node-, and system-level power without specialized power meters, and (iii) a phase-aligned metrics pipeline that attributes energy to the prefill and decode stages of every request. These elements make it straight-forward to explore the power consumed by an LLM inference run; furthermore, by varying batch size, context length, parallelism strategy and quantization, users can quickly assess how each setting affects joules per token and other energy-efficiency metrics. We evaluate TokenPowerBench on four of the most widely used model series (Llama, Falcon, Qwen, and Mistral). Our experiments cover from 1 billion parameters up to the frontier-scale Llama3-405B model. Furthermore, we release TokenPowerBench as open source to help users to measure power consumption, forecast operating expenses, and meet sustainability targets when deploying LLM services.
- Abstract(参考訳): 大規模言語モデル(LLM)サービスが1日に数十億のクエリに回答し、業界レポートでは、トレーニングではなく推論が総消費電力の90%以上を占めていることが示されている。
しかし、既存のベンチマークでは、推論のトレーニング/ファインチューニングまたはパフォーマンスに重点を置いており、消費電力の測定と推論の分析をほとんどサポートしていない。
本稿では, LLM 推論電力消費研究用に設計された, 軽量で拡張可能な最初のベンチマークである TokenPowerBench を紹介する。
ベンチマークが結合します
i) モデル選択、プロンプトセット、推論エンジンをカバーする宣言的構成インターフェース。
二 特化電力計を使わずに、GPU、ノード、システムレベルの電力を捕捉する測定層
3) 相整合したメトリクスパイプラインで、すべてのリクエストのプレフィルとデコードにエネルギーを割り当てます。
さらに、バッチサイズ、コンテキスト長、並列化戦略、量子化によって、各設定がトークンごとのジュールや他のエネルギー効率メトリクスにどのように影響するかを素早く評価することができる。
我々は,最も広く使用されている4つのモデルシリーズ(Llama,Falcon,Qwen,Mistral)について,TokenPowerBenchを評価した。
実験では10億のパラメータからフロンティアスケールのLlama3-405Bモデルまでをカバーする。
さらに,ユーザによる電力消費の計測,運用コストの予測,LCMサービスのデプロイ時のサステナビリティ目標の達成を支援するために,TokenPowerBenchをオープンソースとしてリリースする。
関連論文リスト
- LLM Compression: How Far Can We Go in Balancing Size and Performance? [3.8420176149841714]
4ビットグループスケーリング量子化(GSQ)とGPTQ(Generative Pretrained Transformer Quantization)をLLaMA 1B,Qwen 0.5B,PHI 1.5Bに適用した。
我々はこれらのモデルをMS MARCO (Information Retrieval), BoolQ (Boolean Question Answering), GSM8K (Mathematical Reasoning)データセットでベンチマークする。
この研究は、モデル圧縮とタスクパフォーマンスのトレードオフを測定し、主要な評価指標を分析する。
論文 参考訳(メタデータ) (2025-08-15T08:41:20Z) - Forecasting LLM Inference Performance via Hardware-Agnostic Analytical Modeling [0.02091806248191979]
本稿では,演算子のモジュラー解析モデルからなる軽量でモジュラーな解析フレームワークLIFEを紹介する。
LIFEは、量子化、KVキャッシュ圧縮、LoRAアダプタ、チャンクされたプリフィル、異なる注意、演算子融合など、ソフトウェアとモデル最適化の影響を特徴づけている。
我々は,AMD CPU,NPU,iGPU,NVIDIA V100 GPUにおけるLIFEの予測をLlama2-7B変種を用いて検証した。
論文 参考訳(メタデータ) (2025-07-29T03:08:31Z) - Guidelines for the Quality Assessment of Energy-Aware NAS Benchmarks [26.441107070248016]
エネルギーを意識したベンチマークは、NASがモデルエネルギー消費を精度から引き離すことを可能にすることを目的としている。
これらの原則に基づいてEA-HAS-Benchを分析し、GPU測定APIの選択が結果の品質に大きな影響を与えることを発見した。
論文 参考訳(メタデータ) (2025-05-21T15:16:41Z) - EfficientLLM: Efficiency in Large Language Models [64.3537131208038]
大規模言語モデル(LLM)は大きな進歩を導いてきたが、その増加とコンテキストウィンドウは計算、エネルギー、金銭的コストを禁止している。
本稿では,新しいベンチマークであるEfficientLLMを紹介する。
論文 参考訳(メタデータ) (2025-05-20T02:27:08Z) - The ML.ENERGY Benchmark: Toward Automated Inference Energy Measurement and Optimization [24.32172951691564]
エネルギーは、しばしば見落とされ、探索されていない、あるいはMLシステム構築の文脈でよく理解されていない指標である。
本稿では,現実的なサービス環境下での推論エネルギー消費を測定するためのベンチマークスイートとツールであるML$.$ENERGY Benchmarkを紹介する。
論文 参考訳(メタデータ) (2025-05-09T18:27:32Z) - Computational Reasoning of Large Language Models [51.629694188014064]
textbfTuring Machine Benchは,Large Language Models(LLM)による推論プロセスの実行能力を評価するベンチマークである。
TMBenchには、自己完結型および知識に依存しない推論、最小主義的な多段階構造、制御可能な難易度、チューリングマシンに基づく理論的基礎の4つの重要な特徴が組み込まれている。
論文 参考訳(メタデータ) (2025-04-29T13:52:47Z) - Sustainable LLM Inference for Edge AI: Evaluating Quantized LLMs for Energy Efficiency, Output Accuracy, and Inference Latency [6.306413686006502]
我々はOllamaライブラリから28の量子化大言語モデル(LLM)を包括的に分析する。
我々は、複数の量子化レベルおよびタスクタイプにわたるエネルギー効率、推論性能、出力精度を評価する。
その結果,異なる量子化設定におけるエネルギー効率,推定速度,精度のトレードオフが明らかになった。
論文 参考訳(メタデータ) (2025-04-04T11:29:30Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Green AI: A Preliminary Empirical Study on Energy Consumption in DL
Models Across Different Runtime Infrastructures [56.200335252600354]
トレーニング済みのモデルを、ネイティブな開発環境とは異なる環境にデプロイするのは、一般的なプラクティスです。
これにより、インフラを含むONNXや標準フォーマットとして機能するONNXなどの交換フォーマットが導入された。
論文 参考訳(メタデータ) (2024-02-21T09:18:44Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Cheaply Evaluating Inference Efficiency Metrics for Autoregressive
Transformer APIs [66.30706841821123]
大規模言語モデル(LLM)は、自然言語処理において多くの最先端システムに電力を供給する。
LLMは、推論時でさえ非常に計算コストが高い。
モデル間での推論効率を比較するための新しい指標を提案する。
論文 参考訳(メタデータ) (2023-05-03T21:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。