Fugu-MT 論文翻訳(概要): Watt Counts: Energy-Aware Benchmark for Sustainable LLM Inference on Heterogeneous GPU Architectures

論文の概要: Watt Counts: Energy-Aware Benchmark for Sustainable LLM Inference on Heterogeneous GPU Architectures

arxiv url: http://arxiv.org/abs/2604.09048v1
Date: Fri, 10 Apr 2026 07:15:58 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-13 17:57:53.74349
Title: Watt Counts: Energy-Aware Benchmark for Sustainable LLM Inference on Heterogeneous GPU Architectures
Title（参考訳）: Watt Counts:ヘテロジニアスGPUアーキテクチャにおける持続的LLM推論のためのエネルギー意識ベンチマーク
Authors: Mauricio Fadel Argerich, Jonathan Fürst, Marta Patiño-Martínez,
Abstract要約: Watt Countsは、Large Language Models (LLMs)のエネルギー消費の最大オープンアクセスデータセットである。我々は,サーバシナリオのエネルギー消費を最大70%削減し,ユーザエクスペリエンスへの影響を無視できることを示した。
参考スコア（独自算出の注目度）: 0.9558392439655014
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: While the large energy consumption of Large Language Models (LLMs) is recognized by the community, system operators lack guidance for energy-efficient LLM inference deployments that leverage energy trade-offs of heterogeneous hardware due to a lack of energy-aware benchmarks and data. In this work we address this gap with Watt Counts: the largest open-access dataset of energy consumption of LLMs, with over 5,000 experiments for 50 LLMs across 10 NVIDIA Graphics Processing Units (GPUs) in batch and server scenarios along with a reproducible, open-source benchmark that enables community submissions to expand this dataset. Leveraging this dataset, we conduct a system-level study of LLM inference across heterogeneous GPU architectures and show that GPU selection is crucial for energy efficiency outcomes and that optimal hardware choices vary significantly across models and deployment scenarios, demonstrating the critical importance of hardware-aware deployment in heterogeneous LLM systems. Guided by our data and insights, we show that practitioners can reduce energy consumption by up to 70% in server scenarios with negligible impact on user experience, and by up to 20% in batch scenarios.
Abstract（参考訳）: 大規模言語モデル(LLM)の大規模なエネルギー消費はコミュニティによって認識されているが、システムオペレーターは、エネルギーを意識したベンチマークやデータが欠如しているため、異種ハードウェアのエネルギートレードオフを利用するエネルギー効率の良いLLM推論デプロイメントのガイダンスを欠いている。この作業では、Watt Countsとのギャップに対処する: LLMの最大のオープンアクセスデータセットで、バッチおよびサーバシナリオにおける10のNVIDIA Graphics Processing Unit(GPU)にわたる50 LLM(50 LLM)に対する5,000以上の実験と、コミュニティがこのデータセットを拡張するための再現可能なオープンソースのベンチマーク。このデータセットを利用することで、異種GPUアーキテクチャ全体にわたるLLM推論のシステムレベルでの研究を行い、GPUの選択がエネルギー効率向上に不可欠であること、最適なハードウェア選択がモデルやデプロイメントシナリオによって大きく異なることを示し、異種LLMシステムにおけるハードウェア対応デプロイメントの重要性を実証する。データと洞察によってガイドされた結果から,サーバシナリオでは最大70%,ユーザエクスペリエンスでは最大20%,バッチシナリオでは最大20%のエネルギー消費を削減できることが分かった。

関連論文リスト

Sustainable LLM Inference for Edge AI: Evaluating Quantized LLMs for Energy Efficiency, Output Accuracy, and Inference Latency [6.306413686006502]
我々はOllamaライブラリから28の量子化大言語モデル(LLM)を包括的に分析する。我々は、複数の量子化レベルおよびタスクタイプにわたるエネルギー効率、推論性能、出力精度を評価する。その結果,異なる量子化設定におけるエネルギー効率,推定速度,精度のトレードオフが明らかになった。
論文参考訳（メタデータ） (2025-04-04T11:29:30Z)
MLPerf Power: Benchmarking the Energy Efficiency of Machine Learning Systems from Microwatts to Megawatts for Sustainable AI [5.50579824344998]
機械学習(ML)技術は、さまざまなシステムで電力消費が急増している。本稿では,マイクロワットからメガワットまでの電力レベルでMLシステムのエネルギー効率を評価するための総合的なベンチマーク手法であるSerf Powerを紹介する。
論文参考訳（メタデータ） (2024-10-15T20:06:33Z)
Hybrid Heterogeneous Clusters Can Lower the Energy Consumption of LLM Inference Workloads [0.2389598109913753]
大規模言語モデル(LLM)の訓練と使用には大量のエネルギーが必要である。本稿では, LLM を運用するデータセンターにおけるエネルギー消費削減の課題に対処する。本稿では,コストベースのスケジューリングフレームワークを用いて,ハードウェアアクセラレータ間でタスクを動的に割り当てるハイブリッドデータセンターモデルを提案する。
論文参考訳（メタデータ） (2024-04-25T11:24:08Z)
Distributed Inference and Fine-tuning of Large Language Models Over The Internet [91.00270820533272]
大規模言語モデル(LLM)は、多くのNLPタスクで有用であり、サイズが向上する。これらのモデルはハイエンドのハードウェアを必要とするため、ほとんどの研究者にはアクセスできない。本研究では,システムスループットの最大化のためにデバイスを自動的に割り当てるフォールトトレラント推論アルゴリズムとロードバランシングプロトコルを開発する。
論文参考訳（メタデータ） (2023-12-13T18:52:49Z)
Federated Fine-Tuning of LLMs on the Very Edge: The Good, the Bad, the Ugly [62.473245910234304]
本稿では,最新のエッジコンピューティングシステムにおいて,Large Language Modelsをどのように導入できるかを,ハードウェア中心のアプローチで検討する。マイクロレベルのハードウェアベンチマークを行い、FLOPモデルと最先端のデータセンターGPUを比較し、現実的な条件下でのネットワーク利用について検討する。
論文参考訳（メタデータ） (2023-10-04T20:27:20Z)
From Words to Watts: Benchmarking the Energy Costs of Large Language Model Inference [19.439683873290623]
大規模言語モデル(LLM)は、新しい生成能力によって、最先端の最先端をはるかに超えているため、人気が高まっている。これらのモデルには計算上の課題、特に推論に必要な計算とエネルギーのコストが伴う。
論文参考訳（メタデータ） (2023-10-04T17:41:59Z)
Data-Juicer: A One-Stop Data Processing System for Large Language Models [73.27731037450995]
データレシピは、大規模言語モデル(LLM)をトレーニングするための異なるソースからのデータの混合である。我々はData-Juicerという新しいシステムを構築し、多様なデータレシピを効率的に生成できる。 Data-Juicerから派生したデータレシピは、最先端のLLMで顕著に改善されている。
論文参考訳（メタデータ） (2023-09-05T08:22:07Z)
FusionAI: Decentralized Training and Deploying LLMs with Massive Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文参考訳（メタデータ） (2023-09-03T13:27:56Z)
A Framework for Energy and Carbon Footprint Analysis of Distributed and Federated Edge Learning [48.63610479916003]
本稿では,分散学習政策の環境フットプリントに影響を与える要因を概説し,分析する。バニラとコンセンサスによって駆動される分散FLポリシーの両方をモデル化する。その結果、flは低ビット/ジュール効率を特徴とするワイヤレスシステムにおいて、顕著なエンドツーエンドの省エネ(30%-40%)が可能となった。
論文参考訳（メタデータ） (2021-03-18T16:04:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。