論文の概要: Towards Green AI: Decoding the Energy of LLM Inference in Software Development
- arxiv url: http://arxiv.org/abs/2602.05712v1
- Date: Thu, 05 Feb 2026 14:38:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.978443
- Title: Towards Green AI: Decoding the Energy of LLM Inference in Software Development
- Title(参考訳): Green AIに向けて - ソフトウェア開発におけるLLM推論のエネルギーをデコードする
- Authors: Lola Solovyeva, Fernando Castor,
- Abstract要約: AI支援ツールはソフトウェア開発にますます統合されているが、大きな言語モデル(LLM)に依存しているため、相当な計算とエネルギーコストが伴う。
モデルが入力を処理して内部表現を構築した(1)プリフィルと,(2)デコードで格納された状態を用いて出力トークンを生成する(2)プリフィルとを区別し,LCM推定エネルギー消費の位相レベル解析を行う。
- 参考スコア(独自算出の注目度): 46.879983975894135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Context: AI-assisted tools are increasingly integrated into software development workflows, but their reliance on large language models (LLMs) introduces substantial computational and energy costs. Understanding and reducing the energy footprint of LLM inference is therefore essential for sustainable software development. Objective: In this study, we conduct a phase-level analysis of LLM inference energy consumption, distinguishing between the (1) prefill, where the model processes the input and builds internal representations, and (2) decoding, where output tokens are generated using the stored state. Method: We investigate six 6B-7B and four 3B-4B transformer-based models, evaluating them on code-centric benchmarks HumanEval for code generation and LongBench for code understanding. Results: Our findings show that, within both parameter groups, models exhibit distinct energy patterns across phases. Furthermore, we observed that increases in prefill cost amplify the energy cost per token during decoding, with amplifications ranging from 1.3% to 51.8% depending on the model. Lastly, three out of ten models demonstrate babbling behavior, adding excessive content to the output that unnecessarily inflates energy consumption. We implemented babbling suppression for code generation, achieving energy savings ranging from 44% to 89% without affecting generation accuracy. Conclusion: These findings show that prefill costs influence decoding, which dominates energy consumption, and that babbling suppression can yield up to 89% energy savings. Reducing inference energy therefore requires both mitigating babbling behavior and limiting impact of prefill on decoding.
- Abstract(参考訳): コンテキスト: AI支援ツールは、ソフトウェア開発ワークフローにますます統合されていますが、大きな言語モデル(LLM)に依存しているため、かなりの計算とエネルギーコストが発生します。
したがって、LLM推論のエネルギーフットプリントの理解と削減は持続可能なソフトウェア開発に不可欠である。
目的: 本研究では,(1)プリフィル,(2)入力処理,内部表現構築,(2)デコード,(2)出力トークンを格納状態から生成する,の2つを区別し,LCM推定エネルギー消費の位相レベル解析を行う。
方法: 6 つの 6B-7B と 4 つの 3B-4B トランスフォーマーモデルについて検討し,コード中心のベンチマークである HumanEval とコード理解のための LongBench について検討した。
結果: 両パラメータ群において, モデルが相々に異なるエネルギーパターンを示すことが明らかとなった。
さらに, プリフィルコストの増加はデコード中のトークン当たりのエネルギーコストを増幅し, モデルによっては1.3%から51.8%の範囲で増幅することを示した。
最後に、10モデル中3モデルがバブリング動作を示し、エネルギー消費を不必要に膨らませる出力に過剰な内容を加える。
生成精度に影響を与えることなく,44%から89%の省エネを実現し,コード生成のバブリング抑制を実現した。
結論: これらの結果は, プリフィルコストがエネルギー消費を支配するデコードに影響を及ぼし, バブリング抑制が最大89%の省エネ効果をもたらすことを示唆している。
したがって、推論エネルギーを減らすには、バブリングの挙動を緩和し、デコードに対するプリフィルの影響を制限する必要がある。
関連論文リスト
- Determining Energy Efficiency Sweet Spots in Production LLM Inference [1.633285971584668]
既存のアプローチでは、入力および出力シーケンス長の単純な線形関数によってエネルギー消費を推定する。
本稿では,Transformerアーキテクチャの計算とメモリアクセスの複雑さから導かれる解析モデルを提案する。
以上の結果から,これらの効率性「スイートスポット」と配列長の整合がエネルギー消費を大幅に減少させる可能性が示唆された。
論文 参考訳(メタデータ) (2026-02-05T14:21:00Z) - Understanding Efficiency: Quantization, Batching, and Serving Strategies in LLM Energy Use [4.513690948889834]
大規模言語モデル(LLM)はますます本番環境に配備され、計算資源やエネルギー需要の負担をトレーニングから推論へとシフトさせるのに寄与している。
我々は,同じモデルにおけるエネルギー消費のオーダー・オブ・マグニチュードの違いを,Emphsystemレベルの設計選択がいかに引き起こすかを示す。
我々の発見は、よりグリーンなAIサービスのための位相認識エネルギープロファイリングとシステムレベルの最適化を動機付けている。
論文 参考訳(メタデータ) (2026-01-29T22:16:25Z) - Energy Scaling Laws for Diffusion Models: Quantifying Compute and Carbon Emissions in Image Generation [50.21021246855702]
本稿では,計算複雑性(FLOP)に基づく拡散モデルに対するGPUエネルギー消費予測のためのKaplanスケーリング法の適用法を提案する。
提案手法は, テキストエンコーディング, 反復的復号化, 復号化コンポーネントへの拡散モデル推論を分解し, 複数の推論ステップをまたいだ繰り返し実行により, 演算の復号化がエネルギー消費を支配しているという仮説を導いた。
この結果は拡散予測の計算バウンドの性質を検証し、持続可能なAIデプロイメント計画と炭素フットプリント推定の基礎を提供する。
論文 参考訳(メタデータ) (2025-11-21T08:12:47Z) - Learning to Rank Chain-of-Thought: Using a Small Model [77.75522308463667]
本稿では、この課題に対処するために設計された高効率で軽量な検証器であるEORM(Energy Outcome Reward Model)を紹介する。
EORMはエネルギーベースのフレームワークを使用してChain-of-Thought(CoT)ソリューションをランク付けし、単純な結果ラベルだけで誤った推論と正しく区別することを学ぶ。
55Mのパラメータだけで、通常の報酬モデルより127倍以上小さいEORMは、Llama 3 8Bの精度をGSM8kで90.7%、MATHで63.7%に向上させた。
論文 参考訳(メタデータ) (2025-05-21T01:06:29Z) - EfficientLLM: Efficiency in Large Language Models [64.3537131208038]
大規模言語モデル(LLM)は大きな進歩を導いてきたが、その増加とコンテキストウィンドウは計算、エネルギー、金銭的コストを禁止している。
本稿では,新しいベンチマークであるEfficientLLMを紹介する。
論文 参考訳(メタデータ) (2025-05-20T02:27:08Z) - Prompt engineering and its implications on the energy consumption of Large Language Models [4.791072577881446]
ソフトウェア工学における大規模言語モデル(LLM)は、計算資源、データセンター、二酸化炭素排出に関する深刻な問題を引き起こす。
本稿では,コード生成タスクにおけるLlama 3モデルの炭素排出に及ぼすPETの影響について検討する。
論文 参考訳(メタデータ) (2025-01-10T11:49:31Z) - Energy-Aware Dynamic Neural Inference [39.04688735618206]
エネルギーハーベスターと有限容量エネルギーストレージを備えたオンデバイス適応型推論システムを提案する。
環境エネルギーの速度が増加するにつれて、エネルギー・信頼性を考慮した制御方式は精度を約5%向上させることが示されている。
我々は、信頼性を意識し、認識できないコントローラを理論的に保証する原則的なポリシーを導出する。
論文 参考訳(メタデータ) (2024-11-04T16:51:22Z) - A Comparative Study of Machine Learning Algorithms for Anomaly Detection
in Industrial Environments: Performance and Environmental Impact [62.997667081978825]
本研究は,環境の持続可能性を考慮した高性能機械学習モデルの要求に応えることを目的としている。
Decision TreesやRandom Forestsといった従来の機械学習アルゴリズムは、堅牢な効率性とパフォーマンスを示している。
しかし, 資源消費の累積増加にもかかわらず, 最適化された構成で優れた結果が得られた。
論文 参考訳(メタデータ) (2023-07-01T15:18:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。