論文の概要: How Hungry is AI? Benchmarking Energy, Water, and Carbon Footprint of LLM Inference
- arxiv url: http://arxiv.org/abs/2505.09598v1
- Date: Wed, 14 May 2025 17:47:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 21:44:09.554172
- Title: How Hungry is AI? Benchmarking Energy, Water, and Carbon Footprint of LLM Inference
- Title(参考訳): AIとは何か? LLM推論のエネルギー、水、炭素のフットプリントのベンチマーク
- Authors: Nidhal Jegham, Marwen Abdelatti, Lassad Elmoubarki, Abdeltawab Hendawi,
- Abstract要約: 本稿では,大規模言語モデル(LLM)の環境フットプリントを定量化するための,インフラ対応ベンチマークフレームワークを提案する。
当社のフレームワークは,パブリックAPIのパフォーマンスデータと地域固有の環境乗算器と,ハードウェア構成の統計的推測を組み合わせる。
以上の結果から,o3とDeepSeek-R1が最もエネルギー集約的なモデルとして出現し,1時間あたり33Wh以上を消費することがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) spread across industries, understanding their environmental footprint at the inference level is no longer optional; it is essential. However, most existing studies exclude proprietary models, overlook infrastructural variability and overhead, or focus solely on training, even as inference increasingly dominates AI's environmental impact. To bridge this gap, this paper introduces a novel infrastructure-aware benchmarking framework for quantifying the environmental footprint of LLM inference across 30 state-of-the-art models as deployed in commercial data centers. Our framework combines public API performance data with region-specific environmental multipliers and statistical inference of hardware configurations. We additionally utilize cross-efficiency Data Envelopment Analysis (DEA) to rank models by performance relative to environmental cost. Our results show that o3 and DeepSeek-R1 emerge as the most energy-intensive models, consuming over 33 Wh per long prompt, more than 70 times the consumption of GPT-4.1 nano, and that Claude-3.7 Sonnet ranks highest in eco-efficiency. While a single short GPT-4o query consumes 0.43 Wh, scaling this to 700 million queries/day results in substantial annual environmental impacts. These include electricity use comparable to 35,000 U.S. homes, freshwater evaporation matching the annual drinking needs of 1.2 million people, and carbon emissions requiring a Chicago-sized forest to offset. These findings illustrate a growing paradox: although individual queries are efficient, their global scale drives disproportionate resource consumption. Our study provides a standardized, empirically grounded methodology for benchmarking the sustainability of LLM deployments, laying a foundation for future environmental accountability in AI development and sustainability standards.
- Abstract(参考訳): 大規模言語モデル(LLM)が産業全体に広まるにつれて、推論レベルでの環境フットプリントを理解することはもはやオプションではない。
しかし、既存のほとんどの研究は、AIの環境への影響をますます支配しているにもかかわらず、プロプライエタリなモデルや、インフラの変動性とオーバーヘッドを見落とし、トレーニングのみに焦点を絞っている。
このギャップを埋めるために、商用データセンターにデプロイされる30の最先端モデルにわたるLLM推論の環境フットプリントを定量化する、新しいインフラストラクチャ対応ベンチマークフレームワークを提案する。
当社のフレームワークは,パブリックAPIのパフォーマンスデータと地域固有の環境乗算器と,ハードウェア構成の統計的推測を組み合わせる。
さらに, 環境コストに対する性能評価において, クロス効率データ包絡分析(DEA)を有効活用する。
以上の結果から,O3とDeepSeek-R1が最もエネルギー集約的なモデルとして出現し,GPT-4.1ナノの70倍以上のGPT-4.1ナノを消費し,Claude-3.7 Sonnetはエコ効率で最高であることがわかった。
単一の短い GPT-4o クエリは 0.43 Wh を消費するが、これを1日当たり7億のクエリにスケールアップすると、かなりの環境影響が生じる。
これには、米国の35,000世帯に匹敵する電気の使用、年間120万人の飲酒需要に匹敵する淡水蒸発、シカゴ規模の森林のオフセットを必要とする二酸化炭素排出量が含まれる。
個々のクエリは効率的だが、そのグローバルスケールは資源消費を不均等にする。
我々の研究は、LLMデプロイメントの持続可能性のベンチマークのための標準化された実証的な方法論を提供し、AI開発と持続可能性標準における将来の環境説明責任の基礎を築いた。
関連論文リスト
- The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility? [54.18519360412294]
大きな言語モデル(LLM)は、安全のための有害な要求を拒否することと、ユーティリティのための正当な要求を収容することのバランスをとる必要がある。
本稿では,DPO(Direct Preference Optimization)に基づくアライメントフレームワークを提案する。
我々は,DeepSeek-R1をベンチマークでテストした結果を解析し,この高い評価を得たモデルがもたらす批判的倫理的懸念を明らかにする。
論文 参考訳(メタデータ) (2025-01-20T06:35:01Z) - Environmental large language model Evaluation (ELLE) dataset: A Benchmark for Evaluating Generative AI applications in Eco-environment Domain [6.246205449407889]
ジェネレーティブAIは、生態学的および環境的応用に大きな可能性を秘めている。
環境大言語モデル評価(ELLE)データセットは、大規模言語モデルを評価するために設計された最初のベンチマークである。
ELLEデータセットには16の環境トピックにまたがる1,130の質問応答ペアが含まれており、ドメイン、難易度、タイプによって分類されている。
論文 参考訳(メタデータ) (2025-01-10T12:48:29Z) - Reporting and Analysing the Environmental Impact of Language Models on the Example of Commonsense Question Answering with External Knowledge [7.419725234099729]
チャットGPTは大規模言語モデル(LLM)に社会的な関心を喚起した
LLMは相当な計算資源を必要としており、財政的にも環境的にも訓練に非常に費用がかかる。
本研究では,外部知識でT5 LLMを注入し,質問応答タスクのモデルを微調整した。
論文 参考訳(メタデータ) (2024-07-24T16:16:16Z) - Efficiency Pentathlon: A Standardized Arena for Efficiency Evaluation [82.85015548989223]
Pentathlonは、モデル効率の総合的で現実的な評価のためのベンチマークである。
Pentathlonは、モデルライフサイクルにおける計算の大部分を占める推論に焦点を当てている。
レイテンシ、スループット、メモリオーバーヘッド、エネルギー消費など、さまざまな効率面をターゲットにしたメトリクスが組み込まれている。
論文 参考訳(メタデータ) (2023-07-19T01:05:33Z) - A Comparative Study of Machine Learning Algorithms for Anomaly Detection
in Industrial Environments: Performance and Environmental Impact [62.997667081978825]
本研究は,環境の持続可能性を考慮した高性能機械学習モデルの要求に応えることを目的としている。
Decision TreesやRandom Forestsといった従来の機械学習アルゴリズムは、堅牢な効率性とパフォーマンスを示している。
しかし, 資源消費の累積増加にもかかわらず, 最適化された構成で優れた結果が得られた。
論文 参考訳(メタデータ) (2023-07-01T15:18:00Z) - Towards Environmentally Equitable AI via Geographical Load Balancing [40.142341503145275]
本稿では、その地域的負の環境影響のバランスをとることによって、AIの環境不平等に対処する第一歩を踏み出す。
大規模言語AIモデルに対する推論要求を提供する地理的に分散した10のデータセンタを考慮し、トレースベースのシミュレーションを実行する。
その結果,既存のGLBアプローチは環境不平等を増大させる可能性を示し,提案したエクイティ対応GLBは,炭素および水のフットプリントにおける地域格差を著しく低減できることを示した。
論文 参考訳(メタデータ) (2023-06-20T17:13:33Z) - Green Federated Learning [7.003870178055125]
Federated Learning(FL)は、分散エンティティのデータを使用して集中型モデルをトレーニングする機械学習技術である。
FLは、多様なエネルギー源を持つ数億ものグローバル分散エンドユーザーデバイスを活用することができる。
提案するグリーンFLの概念は, FLパラメータを最適化し, 二酸化炭素排出量を最小化するための設計選択を行うものである。
論文 参考訳(メタデータ) (2023-03-26T02:23:38Z) - Estimating the Carbon Footprint of BLOOM, a 176B Parameter Language
Model [72.65502770895417]
176ビリオンパラメータ言語モデルBLOOMの炭素フットプリントを,そのライフサイクルにわたって定量化する。
BLOOMの最終訓練で約24.7トンのカルボネックが放出されたと推定する。
本稿では,機械学習モデルの炭素フットプリントを正確に推定することの難しさについて論じる。
論文 参考訳(メタデータ) (2022-11-03T17:13:48Z) - A Framework for Energy and Carbon Footprint Analysis of Distributed and
Federated Edge Learning [48.63610479916003]
本稿では,分散学習政策の環境フットプリントに影響を与える要因を概説し,分析する。
バニラとコンセンサスによって駆動される分散FLポリシーの両方をモデル化する。
その結果、flは低ビット/ジュール効率を特徴とするワイヤレスシステムにおいて、顕著なエンドツーエンドの省エネ(30%-40%)が可能となった。
論文 参考訳(メタデータ) (2021-03-18T16:04:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。