論文の概要: From Words to Watts: Benchmarking the Energy Costs of Large Language
Model Inference
- arxiv url: http://arxiv.org/abs/2310.03003v1
- Date: Wed, 4 Oct 2023 17:41:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 13:26:56.581069
- Title: From Words to Watts: Benchmarking the Energy Costs of Large Language
Model Inference
- Title(参考訳): 単語からワットへ:大規模言語モデル推論のエネルギーコストのベンチマーク
- Authors: Siddharth Samsi, Dan Zhao, Joseph McDonald, Baolin Li, Adam Michaleas,
Michael Jones, William Bergeron, Jeremy Kepner, Devesh Tiwari, Vijay
Gadepally
- Abstract要約: 大規模言語モデル(LLM)は、新しい生成能力によって、最先端の最先端をはるかに超えているため、人気が高まっている。
これらのモデルには計算上の課題、特に推論に必要な計算とエネルギーのコストが伴う。
- 参考スコア(独自算出の注目度): 19.439683873290623
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have exploded in popularity due to their new
generative capabilities that go far beyond prior state-of-the-art. These
technologies are increasingly being leveraged in various domains such as law,
finance, and medicine. However, these models carry significant computational
challenges, especially the compute and energy costs required for inference.
Inference energy costs already receive less attention than the energy costs of
training LLMs -- despite how often these large models are called on to conduct
inference in reality (e.g., ChatGPT). As these state-of-the-art LLMs see
increasing usage and deployment in various domains, a better understanding of
their resource utilization is crucial for cost-savings, scaling performance,
efficient hardware usage, and optimal inference strategies.
In this paper, we describe experiments conducted to study the computational
and energy utilization of inference with LLMs. We benchmark and conduct a
preliminary analysis of the inference performance and inference energy costs of
different sizes of LLaMA -- a recent state-of-the-art LLM -- developed by Meta
AI on two generations of popular GPUs (NVIDIA V100 \& A100) and two datasets
(Alpaca and GSM8K) to reflect the diverse set of tasks/benchmarks for LLMs in
research and practice. We present the results of multi-node, multi-GPU
inference using model sharding across up to 32 GPUs. To our knowledge, our work
is the one of the first to study LLM inference performance from the perspective
of computational and energy resources at this scale.
- Abstract(参考訳): 大規模な言語モデル(llm)は、それまでの最先端をはるかに超えた新しい生成能力によって、人気が高まっている。
これらの技術は、法律、金融、医学など様々な分野で利用されつつある。
しかし、これらのモデルは重要な計算問題、特に推論に必要な計算とエネルギーコストを伴っている。
推論エネルギーコストは LLM の訓練エネルギーコストよりもあまり注目されないが、これらの大きなモデルが実際に推論を行う頻度(例えば ChatGPT など)は高い。
これらの最先端のLLMでは、さまざまな領域での使用とデプロイメントが増加しているため、コスト削減、パフォーマンスのスケーリング、効率的なハードウェア使用、最適な推論戦略において、リソース利用の理解が不可欠である。
本稿では,LLMを用いた推論の計算とエネルギー利用に関する実験について述べる。
我々は,Meta AIが2世代にわたる人気GPU(NVIDIA V100 \&A100)と2つのデータセット(AlpacaとGSM8K)で開発したLLaMAの異なるサイズの推論性能と推論エネルギーコストの予備分析を行い,研究と実践におけるLCMの多様なタスク/ベンチマークを反映した。
最大32GPUにわたるモデルシャーディングを用いたマルチノードマルチGPU推論の結果を示す。
私たちの知る限り、この規模の計算資源とエネルギー資源の観点からllm推論性能を最初に研究したのは私たちの仕事です。
関連論文リスト
- Can Large-Language Models Help us Better Understand and Teach the Development of Energy-Efficient Software? [2.8812501020074968]
エネルギー効率のよいソフトウェア工学の技術は、しばしば学部のカリキュラムから欠落している。
本稿では,エネルギー効率のよいソフトウェアのための学習用モジュールの開発について提案する。
論文 参考訳(メタデータ) (2024-10-30T01:09:32Z) - EVOLvE: Evaluating and Optimizing LLMs For Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。
多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。
最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-08T17:54:03Z) - Hardware Acceleration of LLMs: A comprehensive survey and comparison [0.0]
大規模言語モデル(LLM)は、自然言語処理タスクの強力なツールとして登場し、人間のようなテキストを理解して生成する能力によって、フィールドに革命をもたらした。
本稿では,ハードウェアアクセラレーションを用いた大規模言語モデルのためのトランスフォーマーネットワークの高速化に向けた,いくつかの研究成果を包括的に調査する。
論文 参考訳(メタデータ) (2024-09-05T09:43:25Z) - SLO-aware GPU Frequency Scaling for Energy Efficient LLM Inference Serving [6.010159688581912]
本稿では,Service-Level Objectives に適合しながら,消費電力を削減するフレームワーク textitthrottLL'eM を提案する。
textitthrottLL'eMは将来のKVキャッシュ使用量とバッチサイズを予測するメカニズムを備えている。
提案したMLモデルは0.97以上のR2$スコアを達成し,平均1秒あたり1イテレーション未満のパフォーマンスを予測した。
論文 参考訳(メタデータ) (2024-08-05T09:07:06Z) - Hybrid Heterogeneous Clusters Can Lower the Energy Consumption of LLM Inference Workloads [0.2389598109913753]
大規模言語モデル(LLM)の訓練と使用には大量のエネルギーが必要である。
本稿では, LLM を運用するデータセンターにおけるエネルギー消費削減の課題に対処する。
本稿では,コストベースのスケジューリングフレームワークを用いて,ハードウェアアクセラレータ間でタスクを動的に割り当てるハイブリッドデータセンターモデルを提案する。
論文 参考訳(メタデータ) (2024-04-25T11:24:08Z) - Towards Greener LLMs: Bringing Energy-Efficiency to the Forefront of LLM Inference [6.68507515624183]
大規模な言語モデルを提供するためのデータセンター拡張の最大の課題として、エネルギーの可用性が最前線に現れている。
入力,モデル,サービスレベルの合意によっては,LLM推論プロバイダがエネルギー効率を高めるために利用できるノブがいくつか存在することを示す。
論文 参考訳(メタデータ) (2024-03-29T17:22:48Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - The Efficiency Spectrum of Large Language Models: An Algorithmic Survey [54.19942426544731]
LLM(Large Language Models)の急速な成長は、様々なドメインを変換する原動力となっている。
本稿では,LLMのエンドツーエンドのアルゴリズム開発に不可欠な多面的効率性について検討する。
論文 参考訳(メタデータ) (2023-12-01T16:00:25Z) - Power Hungry Processing: Watts Driving the Cost of AI Deployment? [74.19749699665216]
生成された多目的AIシステムは、機械学習(ML)モデルをテクノロジに構築するための統一的なアプローチを約束する。
この「一般性」の野心は、これらのシステムが必要とするエネルギー量と放出する炭素量を考えると、環境に急激なコストがかかる。
これらのモデルを用いて,代表的なベンチマークデータセット上で1,000の推論を行うのに必要なエネルギーと炭素の量として,デプロイメントコストを測定した。
本稿は、多目的MLシステムの展開動向に関する議論から締めくくり、エネルギーと排出の面でコストの増大に対して、その実用性はより意図的に重み付けされるべきである、と警告する。
論文 参考訳(メタデータ) (2023-11-28T15:09:36Z) - Federated Fine-Tuning of LLMs on the Very Edge: The Good, the Bad, the Ugly [62.473245910234304]
本稿では,最新のエッジコンピューティングシステムにおいて,Large Language Modelsをどのように導入できるかを,ハードウェア中心のアプローチで検討する。
マイクロレベルのハードウェアベンチマークを行い、FLOPモデルと最先端のデータセンターGPUを比較し、現実的な条件下でのネットワーク利用について検討する。
論文 参考訳(メタデータ) (2023-10-04T20:27:20Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。