論文の概要: Determining Energy Efficiency Sweet Spots in Production LLM Inference
- arxiv url: http://arxiv.org/abs/2602.05695v1
- Date: Thu, 05 Feb 2026 14:21:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.969933
- Title: Determining Energy Efficiency Sweet Spots in Production LLM Inference
- Title(参考訳): 生産LLM推論における省エネスウィートスポットの決定
- Authors: Hiari Pizzini Cavagna, Andrea Proia, Giacomo Madella, Giovanni B. Esposito, Francesco Antici, Daniele Cesarini, Zeynep Kiziltan, Andrea Bartolini,
- Abstract要約: 既存のアプローチでは、入力および出力シーケンス長の単純な線形関数によってエネルギー消費を推定する。
本稿では,Transformerアーキテクチャの計算とメモリアクセスの複雑さから導かれる解析モデルを提案する。
以上の結果から,これらの効率性「スイートスポット」と配列長の整合がエネルギー消費を大幅に減少させる可能性が示唆された。
- 参考スコア(独自算出の注目度): 1.633285971584668
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) inference is central in modern AI applications, making it critical to understand their energy footprint. Existing approaches typically estimate energy consumption through simple linear functions of input and output sequence lengths, yet our observations reveal clear Energy Efficiency regimes: peak efficiency occurs with short-to-moderate inputs and medium-length outputs, while efficiency drops sharply for long inputs or very short outputs, indicating a non-linear dependency. In this work, we propose an analytical model derived from the computational and memory-access complexity of the Transformer architecture, capable of accurately characterizing the efficiency curve as a function of input and output lengths. To assess its accuracy, we evaluate energy consumption using TensorRT-LLM on NVIDIA H100 GPUs across a diverse set of LLMs ranging from 1B to 9B parameters, including OPT, LLaMA, Gemma, Falcon, Qwen2, and Granite, tested over input and output lengths from 64 to 4096 tokens, achieving a mean MAPE of 1.79%. Our results show that aligning sequence lengths with these efficiency "Sweet Spots" can substantially reduce energy usage, supporting informed truncation, summarization, and adaptive generation strategies in production systems.
- Abstract(参考訳): 大規模言語モデル(LLM)推論は、現代のAIアプリケーションにおいて中心的な存在であり、そのエネルギーフットプリントを理解することが重要である。
既存のアプローチでは、入力および出力シーケンス長の単純な線形関数を通してエネルギー消費を推定するが、我々の観測では、ピーク効率は、短い入力と中の長さの出力で、ピーク効率は、長い入力や非常に短い出力に対して急激に低下し、非線形依存を示す。
本研究では,Transformerアーキテクチャの計算とメモリアクセスの複雑さから導かれる解析モデルを提案し,効率曲線を入力長と出力長の関数として正確に特徴付ける。
その正確性を評価するため, NVIDIA H100 GPU上でのTensorRT-LLMを用いて, OPT, LLaMA, Gemma, Falcon, Qwen2, Graniteを含む1Bから9Bパラメータの多種多様なLCMを用いて, 64から4096トークンの入力および出力長を試験し, 平均MAPEを1.79%とした。
以上の結果から,これらの効率の「スイートスポット」と配列長の整合がエネルギー消費を大幅に削減し,生産システムにおけるインフォメーション・トランケーション,要約,適応生成戦略をサポートできることが示唆された。
関連論文リスト
- Understanding Efficiency: Quantization, Batching, and Serving Strategies in LLM Energy Use [4.513690948889834]
大規模言語モデル(LLM)はますます本番環境に配備され、計算資源やエネルギー需要の負担をトレーニングから推論へとシフトさせるのに寄与している。
我々は,同じモデルにおけるエネルギー消費のオーダー・オブ・マグニチュードの違いを,Emphsystemレベルの設計選択がいかに引き起こすかを示す。
我々の発見は、よりグリーンなAIサービスのための位相認識エネルギープロファイリングとシステムレベルの最適化を動機付けている。
論文 参考訳(メタデータ) (2026-01-29T22:16:25Z) - EconProver: Towards More Economical Test-Time Scaling for Automated Theorem Proving [64.15371139980802]
大規模言語モデル(LLM)は、最近、自動定理証明(ATP)の分野を進歩させた。
ATPモデルに対する異なるテスト時間スケーリング戦略は、推論にかなりの計算オーバーヘッドをもたらすことを示す。
本稿では,統一EconRLパイプラインに統合可能な2つの補完手法を提案する。
論文 参考訳(メタデータ) (2025-09-16T03:00:13Z) - EfficientLLM: Efficiency in Large Language Models [64.3537131208038]
大規模言語モデル(LLM)は大きな進歩を導いてきたが、その増加とコンテキストウィンドウは計算、エネルギー、金銭的コストを禁止している。
本稿では,新しいベンチマークであるEfficientLLMを紹介する。
論文 参考訳(メタデータ) (2025-05-20T02:27:08Z) - Leveraging LLMs to Automate Energy-Aware Refactoring of Parallel Scientific Codes [1.2178992475191555]
大規模言語モデル (LLM) は、並列的な科学的コードを生成するためにますます使われている。
エネルギー効率のよい並列コードを生成する自動スクリーニングフレームワークLASSI-EEを提案する。
我々は、k個の符号候補を生成する際に、期待されるエネルギー削減を定量化する新しい計量であるEnergy-reduction@kを紹介する。
論文 参考訳(メタデータ) (2025-05-04T17:05:34Z) - R-Sparse: Rank-Aware Activation Sparsity for Efficient LLM Inference [77.47238561728459]
R-スパース(R-Sparse)は、高度なLCMにおいて高い疎度を達成できる訓練不要なアクティベーション・スパシティ・アプローチである。
10種類のタスクにわたるLlama-2/3およびMistralモデルの実験は、R-Sparseが50%のモデルレベルの間隔で同等のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-04-28T03:30:32Z) - Sustainable LLM Inference for Edge AI: Evaluating Quantized LLMs for Energy Efficiency, Output Accuracy, and Inference Latency [6.306413686006502]
我々はOllamaライブラリから28の量子化大言語モデル(LLM)を包括的に分析する。
我々は、複数の量子化レベルおよびタスクタイプにわたるエネルギー効率、推論性能、出力精度を評価する。
その結果,異なる量子化設定におけるエネルギー効率,推定速度,精度のトレードオフが明らかになった。
論文 参考訳(メタデータ) (2025-04-04T11:29:30Z) - Accelerating Large Language Models through Partially Linear Feed-Forward Network [6.916037014703829]
大規模言語モデル(LLM)は、優れた機能を示すが、巨大なパラメータ数のため、デプロイメントの課題に直面している。
コンパイラ最適化における定数折り畳みに着想を得た新しい視点を示す。
頻繁に発生する入力範囲における線形関数を部分的に近似することにより,非線形なアクティベーションを伴うLLMの最適化を可能にするTARDISを提案する。
実験により、TARDISはフィードフォワードネットワークの80%のパラメータ削減を実現し、最先端のプルーニング手法であるWandaとRIAの精度は最大65%向上した。
論文 参考訳(メタデータ) (2025-01-17T09:20:56Z) - Investigating Energy Efficiency and Performance Trade-offs in LLM Inference Across Tasks and DVFS Settings [1.781045155774463]
大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクにおいて顕著な性能を示した。
しかしながら、彼らの推論ワークロードは計算的かつエネルギー集約的であり、持続可能性や環境への影響に関する懸念を提起している。
論文 参考訳(メタデータ) (2025-01-14T16:02:33Z) - LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。
LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。
LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文 参考訳(メタデータ) (2023-05-28T15:15:48Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。