論文の概要: Energy Use of AI Inference: Efficiency Pathways and Test-Time Compute
- arxiv url: http://arxiv.org/abs/2509.20241v1
- Date: Wed, 24 Sep 2025 15:32:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.88185
- Title: Energy Use of AI Inference: Efficiency Pathways and Test-Time Compute
- Title(参考訳): AI推論のエネルギー利用:効率的な経路とテスト時間計算
- Authors: Felipe Oviedo, Fiodar Kazhamiaka, Esha Choukse, Allen Kim, Amy Luers, Melanie Nakagawa, Ricardo Bianchini, Juan M. Lavista Ferres,
- Abstract要約: 非生産推定と仮定はエネルギー使用量を4-20倍に超過することができる。
モデル,サービスプラットフォーム,ハードウェアレベルでの達成可能な効率向上の定量化を行う。
10億のクエリを毎日0.8GWhと見積もる。
- 参考スコア(独自算出の注目度): 4.8312457834136175
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: As AI inference scales to billions of queries and emerging reasoning and agentic workflows increase token demand, reliable estimates of per-query energy use are increasingly important for capacity planning, emissions accounting, and efficiency prioritization. Many public estimates are inconsistent and overstate energy use, because they extrapolate from limited benchmarks and fail to reflect efficiency gains achievable at scale. In this perspective, we introduce a bottom-up methodology to estimate the per-query energy of large-scale LLM systems based on token throughput. For models running on an H100 node under realistic workloads, GPU utilization and PUE constraints, we estimate a median energy per query of 0.34 Wh (IQR: 0.18-0.67) for frontier-scale models (>200 billion parameters). These results are consistent with measurements using production-scale configurations and show that non-production estimates and assumptions can overstate energy use by 4-20x. Extending to test-time scaling scenarios with 15x more tokens per typical query, the median energy rises 13x to 4.32 Wh, indicating that targeting efficiency in this regime will deliver the largest fleet-wide savings. We quantify achievable efficiency gains at the model, serving platform, and hardware levels, finding individual median reductions of 1.5-3.5x in energy per query, while combined advances can plausibly deliver 8-20x reductions. To illustrate the system-level impact, we estimate the baseline daily energy use of a deployment serving 1 billion queries to be 0.8 GWh/day. If 10% are long queries, demand could grow to 1.8 GWh/day. With targeted efficiency interventions, it falls to 0.9 GWh/day, similar to the energy footprint of web search at that scale. This echoes how data centers historically tempered energy growth through efficiency gains during the internet and cloud build-up.
- Abstract(参考訳): AI推論が数十億のクエリにスケールし、出現する推論とエージェントワークフローがトークン需要を増加させるにつれ、キャパシティ計画、エミッション会計、効率優先化において、クエリごとのエネルギー使用の信頼性の高い推定がますます重要になっている。
多くの公的見積もりは、限られたベンチマークから外挿され、大規模な効率向上を反映できないため、一貫性がなく、過剰なエネルギー使用である。
そこで本稿では,トークンスループットに基づく大規模LLMシステムの待ち行列当たりのエネルギを推定するためのボトムアップ手法を提案する。
現実的なワークロード,GPU利用,PUE制約の下でH100ノード上で動作するモデルでは,フロンティアスケールモデル(>200億のパラメータ)に対するクエリ毎の平均エネルギーは0.34Wh (IQR: 0.18-0.67)と見積もる。
これらの結果は、生産規模構成を用いた測定値と一致し、非生産推定値と仮定値が4~20倍のエネルギー消費を上乗せできることを示す。
典型的なクエリ毎に15倍のトークンでテストタイムのスケーリングシナリオを拡張することで、中央値のエネルギーは13倍から4.32Whに増加し、この体制における目標の効率性は、艦隊全体で最大の節約をもたらすことを示唆している。
提案手法は,クエリ毎に1.5~3.5倍のエネルギーを個別に削減し,組み合わせた処理により8~20倍の効率向上が期待できる。
システムレベルの影響を説明するため,10億のクエリを1日あたり0.8GWhと見積もる。
10%が長いクエリであれば、需要は1日1.8GWhに増加する可能性がある。
目的とする効率の介入では、その規模のWeb検索のエネルギーフットプリントと同様、1日0.9GWhに低下する。
これは、データセンターがインターネットやクラウド構築の効率向上を通じて、歴史的にエネルギーの伸びを誘惑したことを反映している。
関連論文リスト
- EfficientLLM: Efficiency in Large Language Models [64.3537131208038]
大規模言語モデル(LLM)は大きな進歩を導いてきたが、その増加とコンテキストウィンドウは計算、エネルギー、金銭的コストを禁止している。
本稿では,新しいベンチマークであるEfficientLLMを紹介する。
論文 参考訳(メタデータ) (2025-05-20T02:27:08Z) - How Hungry is AI? Benchmarking Energy, Water, and Carbon Footprint of LLM Inference [0.0]
本稿では,商用データセンタにデプロイされる30の最先端モデルを対象とした,AI推論の環境フットプリントを定量化する,新たなインフラストラクチャ対応ベンチマークフレームワークを提案する。
以上の結果から,O3とDeepSeek-R1が最もエネルギー集約的なモデルとして出現し,GPT-4.1ナノの70倍以上のGPT-4.1ナノを消費し,Claude-3.7 Sonnetはエコ効率で最高であることがわかった。
AIは安価で速くなっているが、そのグローバルな採用はリソース消費を不均等にしている。
論文 参考訳(メタデータ) (2025-05-14T17:47:00Z) - Value-Based Deep RL Scales Predictably [100.21834069400023]
本研究は, 地域社会が病的行動に不安を抱いているにもかかわらず, 価値に基づく非政治的RL法が予測可能であることを示す。
SAC、BRO、PQLの3つのアルゴリズムを使って、DeepMind Control、OpenAI gym、IsaacGymの3つのアプローチを検証する。
論文 参考訳(メタデータ) (2025-02-06T18:59:47Z) - Power Hungry Processing: Watts Driving the Cost of AI Deployment? [74.19749699665216]
生成された多目的AIシステムは、機械学習(ML)モデルをテクノロジに構築するための統一的なアプローチを約束する。
この「一般性」の野心は、これらのシステムが必要とするエネルギー量と放出する炭素量を考えると、環境に急激なコストがかかる。
これらのモデルを用いて,代表的なベンチマークデータセット上で1,000の推論を行うのに必要なエネルギーと炭素の量として,デプロイメントコストを測定した。
本稿は、多目的MLシステムの展開動向に関する議論から締めくくり、エネルギーと排出の面でコストの増大に対して、その実用性はより意図的に重み付けされるべきである、と警告する。
論文 参考訳(メタデータ) (2023-11-28T15:09:36Z) - PhAST: Physics-Aware, Scalable, and Task-specific GNNs for Accelerated
Catalyst Design [102.9593507372373]
触媒材料は産業プロセスに関わる電気化学反応において重要な役割を担っている。
機械学習は、大量のデータから材料特性を効率的にモデル化する可能性を秘めている。
本稿では,ほとんどのアーキテクチャに適用可能なタスク固有のイノベーションを提案し,計算効率と精度の両立を図っている。
論文 参考訳(メタデータ) (2022-11-22T05:24:30Z) - Carbon Emissions and Large Neural Network Training [19.233899715628073]
我々は最近の大型モデルT5, Meena, GShard, Switch Transformer, GPT-3のエネルギー使用量と炭素フットプリントを算出する。
エネルギー効率とCO2排出量(CO2e)を改善するための次の機会を強調します。
MLの炭素フットプリントを減らすために、エネルギー使用量とCO2eはモデルを評価する上で重要な指標であるべきだと考えています。
論文 参考訳(メタデータ) (2021-04-21T04:44:25Z) - Multi-Agent Meta-Reinforcement Learning for Self-Powered and Sustainable
Edge Computing Systems [87.4519172058185]
エッジコンピューティング機能を有するセルフパワー無線ネットワークの効率的なエネルギー分配機構について検討した。
定式化問題を解くために,新しいマルチエージェントメタ強化学習(MAMRL)フレームワークを提案する。
実験の結果、提案されたMAMRLモデルは、再生不可能なエネルギー使用量を最大11%削減し、エネルギーコストを22.4%削減できることが示された。
論文 参考訳(メタデータ) (2020-02-20T04:58:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。