論文の概要: Towards Sustainable NLP: Insights from Benchmarking Inference Energy in Large Language Models
- arxiv url: http://arxiv.org/abs/2502.05610v2
- Date: Sat, 15 Mar 2025 09:28:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 15:57:33.908509
- Title: Towards Sustainable NLP: Insights from Benchmarking Inference Energy in Large Language Models
- Title(参考訳): 持続可能なNLPに向けて:大規模言語モデルにおけるベンチマーク推論エネルギーの考察
- Authors: Soham Poddar, Paramita Koley, Janardan Misra, Sanjay Podder, Niloy Ganguly, Saptarshi Ghosh,
- Abstract要約: 大きな言語モデル(LLM)は、その例外的な生成能力と汎用性によって、ますます認識されている。
本研究では,幅広いNLPタスクを対象としたLLM推論エネルギーの総合的なベンチマークを行う。
量子化と最適なバッチサイズは、目的のプロンプトフレーズとともに、エネルギー使用量を大幅に削減できることがわかった。
- 参考スコア(独自算出の注目度): 20.730898779471556
- License:
- Abstract: Large language models (LLMs) are increasingly recognized for their exceptional generative capabilities and versatility across various tasks. However, the high inference costs associated with these models have not received adequate attention, particularly when compared to the focus on training costs in existing research. In response to this gap, our study conducts a comprehensive benchmarking of LLM inference energy across a wide range of NLP tasks, where we analyze the impact of different models, tasks, prompts, and system-related factors on inference energy. Specifically, our experiments reveal several interesting insights, including strong correlation of inference energy with output token length and response time. Also, we find that quantization and optimal batch sizes, along with targeted prompt phrases, can significantly reduce energy usage. This study is the first to thoroughly benchmark LLM inference across such a diverse range of aspects, providing insights and offering several recommendations for improving energy efficiency in model deployment.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なタスクにまたがる例外的な生成能力と汎用性により、ますます認識されている。
しかしながら、これらのモデルに関連する高い推論コストは、特に既存の研究におけるトレーニングコストと比較して、十分な注意を払っていない。
本研究は,様々なモデル,タスク,プロンプト,システム関連要因が推定エネルギーに与える影響を解析し,LLM推論エネルギーの総合的なベンチマークを行う。
具体的には,推定エネルギーと出力トークン長,応答時間との強い相関関係など,いくつかの興味深い知見が得られた。
また、量子化と最適なバッチサイズは、目的のプロンプトフレーズとともに、エネルギー使用量を大幅に削減できることがわかった。
本研究は, LLM推論を多種多様な側面にわたって徹底的にベンチマークし, 知見を提供し, モデル展開におけるエネルギー効率向上のためのいくつかの推奨事項を提供する。
関連論文リスト
- Addressing the sustainable AI trilemma: a case study on LLM agents and RAG [7.6212949300713015]
大規模言語モデル(LLM)は重要な機能を示しているが、その広範なデプロイメントとより高度なアプリケーションによって、重要な持続可能性の課題が提起されている。
本稿では、持続可能なAIトリレムマの概念を提案し、AI能力、デジタルエクイティ、環境サステナビリティの緊張関係を強調する。
論文 参考訳(メタデータ) (2025-01-14T17:21:16Z) - Investigating Energy Efficiency and Performance Trade-offs in LLM Inference Across Tasks and DVFS Settings [1.5749416770494706]
大規模言語モデル(LLM)は多くの自然言語処理(NLP)タスクにおいて大幅に改善されている。
LLMはリソース集約型であり、トレーニングと推論の両方に広範な計算資源を必要とする。
導入が加速するにつれて、LLMの持続性は重要な問題となっている。
論文 参考訳(メタデータ) (2025-01-14T16:02:33Z) - Exploring Knowledge Boundaries in Large Language Models for Retrieval Judgment [56.87031484108484]
大規模言語モデル(LLM)は、その実践的応用でますます認識されている。
Retrieval-Augmented Generation (RAG)はこの課題に取り組み、LLMに大きな影響を与えている。
中立あるいは有害な結果をもたらす検索要求を最小化することにより、時間と計算コストの両方を効果的に削減できる。
論文 参考訳(メタデータ) (2024-11-09T15:12:28Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - DynamoLLM: Designing LLM Inference Clusters for Performance and Energy Efficiency [7.073435885680335]
そこで我々はDynamoLLMを提案する。DynamoLLMは、生成型大規模言語モデルのための最初のエネルギー管理フレームワークである。
サービスレベルでは、DynamoLLMは53%のエネルギーと38%の運転二酸化炭素を節約し、顧客へのコストを61%削減する。
論文 参考訳(メタデータ) (2024-08-01T17:40:45Z) - The Price of Prompting: Profiling Energy Use in Large Language Models Inference [5.254805405012678]
本稿では,大規模言語モデル推論プロセスにおいて消費されるエネルギーを監視し,分析するフレームワークであるMELODIを紹介する。
MELODIを使用して生成されたデータセットは、幅広いLLMデプロイメントフレームワーク、複数の言語モデル、広範なプロンプトデータセットを含んでいる。
その結果,エネルギー効率の相違が指摘され,持続可能対策の最適化と導入の十分な範囲が示唆された。
論文 参考訳(メタデータ) (2024-07-04T12:16:28Z) - Computing Within Limits: An Empirical Study of Energy Consumption in ML Training and Inference [2.553456266022126]
機械学習(ML)は大きな進歩を遂げているが、その環境のフットプリントは依然として懸念されている。
本稿では,グリーンMLの環境影響の増大を認め,グリーンMLについて検討する。
論文 参考訳(メタデータ) (2024-06-20T13:59:34Z) - What Makes Quantization for Large Language Models Hard? An Empirical
Study from the Lens of Perturbation [55.153595212571375]
量子化は、大規模言語モデル(LLM)のメモリと計算効率を改善する技術である。
本稿では,LLMの重みと活性化に付加される摂動として,量子化の新しい視点を提案する。
各種人工摂動実験を行い,LLMの性能への影響について検討する。
論文 参考訳(メタデータ) (2024-03-11T03:42:51Z) - Do Emergent Abilities Exist in Quantized Large Language Models: An
Empirical Study [90.34226812493083]
本研究の目的は,LLMを小言語モデルと区別する重要な特徴である現象能力に対する量子化の影響を検討することである。
実験により、これらの創発能力は4ビット量子化モデルに残っており、2ビットモデルは深刻な性能劣化に直面していることがわかった。
低ビットモデルの性能向上のために,(1) 部品(またはサブ構造)が量子化に敏感である場合の微視的影響解析,(2) モデル微視化による性能補償の2つの実験を行った。
論文 参考訳(メタデータ) (2023-07-16T15:11:01Z) - On Feature Diversity in Energy-based Models [98.78384185493624]
エネルギーベースモデル(EBM)は通常、異なる特徴の組み合わせを学習し、入力構成ごとにエネルギーマッピングを生成する内部モデルによって構成される。
EBMのほぼ正しい(PAC)理論を拡張し,EBMの性能に及ぼす冗長性低減の影響を解析した。
論文 参考訳(メタデータ) (2023-06-02T12:30:42Z) - Multilingual Multi-Aspect Explainability Analyses on Machine Reading Comprehension Models [76.48370548802464]
本稿では,マルチヘッド自己注意と最終MRCシステム性能の関係を検討するために,一連の解析実験を実施することに焦点を当てる。
問合せ及び問合せ理解の注意が問合せプロセスにおいて最も重要なものであることが判明した。
包括的可視化とケーススタディを通じて、注意マップに関するいくつかの一般的な知見も観察し、これらのモデルがどのように問題を解くかを理解するのに役立ちます。
論文 参考訳(メタデータ) (2021-08-26T04:23:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。