論文の概要: Towards Greener LLMs: Bringing Energy-Efficiency to the Forefront of LLM Inference
- arxiv url: http://arxiv.org/abs/2403.20306v1
- Date: Fri, 29 Mar 2024 17:22:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 14:55:26.160760
- Title: Towards Greener LLMs: Bringing Energy-Efficiency to the Forefront of LLM Inference
- Title(参考訳): グリーン化をめざして : LLM推論の最前線にエネルギー効率をもたらす
- Authors: Jovan Stojkovic, Esha Choukse, Chaojie Zhang, Inigo Goiri, Josep Torrellas,
- Abstract要約: 大規模な言語モデルを提供するためのデータセンター拡張の最大の課題として、エネルギーの可用性が最前線に現れている。
入力,モデル,サービスレベルの合意によっては,LLM推論プロバイダがエネルギー効率を高めるために利用できるノブがいくつか存在することを示す。
- 参考スコア(独自算出の注目度): 6.68507515624183
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With the ubiquitous use of modern large language models (LLMs) across industries, the inference serving for these models is ever expanding. Given the high compute and memory requirements of modern LLMs, more and more top-of-the-line GPUs are being deployed to serve these models. Energy availability has come to the forefront as the biggest challenge for data center expansion to serve these models. In this paper, we present the trade-offs brought up by making energy efficiency the primary goal of LLM serving under performance SLOs. We show that depending on the inputs, the model, and the service-level agreements, there are several knobs available to the LLM inference provider to use for being energy efficient. We characterize the impact of these knobs on the latency, throughput, as well as the energy. By exploring these trade-offs, we offer valuable insights into optimizing energy usage without compromising on performance, thereby paving the way for sustainable and cost-effective LLM deployment in data center environments.
- Abstract(参考訳): 業界全体で近代的な大規模言語モデル(LLM)が広く使われるようになると、これらのモデルに対する推論はますます拡大している。
現代のLLMの高い計算とメモリ要件を考えると、これらのモデルを提供するために、上位のGPUがますます多くデプロイされている。
データセンターがこれらのモデルを提供する最大の課題として、エネルギーの可用性が最前線に現れている。
本稿では,エネルギー効率をLLMの主目的とする性能SLOにおけるトレードオフについて述べる。
入力,モデル,サービスレベルの合意によっては,LLM推論プロバイダがエネルギー効率を高めるために利用できるノブがいくつか存在することを示す。
これらのノブがレイテンシ、スループット、およびエネルギーに与える影響を特徴付ける。
これらのトレードオフを探索することにより、パフォーマンスを損なうことなく、エネルギー使用量の最適化に関する貴重な洞察を提供する。
関連論文リスト
- Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance [78.48606021719206]
Mini-InternVL は 1B から 4B までのパラメータを持つ一連の MLLM であり、パラメータの 5% しか持たない性能の90% を達成している。
我々は,ダウンストリームタスクにおける特化モデルの転送と性能向上を可能にする,Mini-InternVLの統一適応フレームワークを開発した。
論文 参考訳(メタデータ) (2024-10-21T17:58:20Z) - Fine-Tuning and Deploying Large Language Models Over Edges: Issues and Approaches [64.42735183056062]
大規模言語モデル(LLM)は、特殊モデルから多目的基礎モデルへと移行してきた。
LLMは印象的なゼロショット能力を示すが、ローカルデータセットとデプロイメントのための重要なリソースを微調整する必要がある。
論文 参考訳(メタデータ) (2024-08-20T09:42:17Z) - SLO-aware GPU Frequency Scaling for Energy Efficient LLM Inference Serving [6.010159688581912]
本稿では,Service-Level Objectives に適合しながら,消費電力を削減するフレームワーク textitthrottLL'eM を提案する。
textitthrottLL'eMは将来のKVキャッシュ使用量とバッチサイズを予測するメカニズムを備えている。
提案したMLモデルは0.97以上のR2$スコアを達成し,平均1秒あたり1イテレーション未満のパフォーマンスを予測した。
論文 参考訳(メタデータ) (2024-08-05T09:07:06Z) - DynamoLLM: Designing LLM Inference Clusters for Performance and Energy Efficiency [7.073435885680335]
そこで我々はDynamoLLMを提案する。DynamoLLMは、生成型大規模言語モデルのための最初のエネルギー管理フレームワークである。
サービスレベルでは、DynamoLLMは53%のエネルギーと38%の運転二酸化炭素を節約し、顧客へのコストを61%削減する。
論文 参考訳(メタデータ) (2024-08-01T17:40:45Z) - The Price of Prompting: Profiling Energy Use in Large Language Models Inference [5.254805405012678]
本稿では,大規模言語モデル推論プロセスにおいて消費されるエネルギーを監視し,分析するフレームワークであるMELODIを紹介する。
MELODIを使用して生成されたデータセットは、幅広いLLMデプロイメントフレームワーク、複数の言語モデル、広範なプロンプトデータセットを含んでいる。
その結果,エネルギー効率の相違が指摘され,持続可能対策の最適化と導入の十分な範囲が示唆された。
論文 参考訳(メタデータ) (2024-07-04T12:16:28Z) - Hybrid Heterogeneous Clusters Can Lower the Energy Consumption of LLM Inference Workloads [0.2389598109913753]
大規模言語モデル(LLM)の訓練と使用には大量のエネルギーが必要である。
本稿では, LLM を運用するデータセンターにおけるエネルギー消費削減の課題に対処する。
本稿では,コストベースのスケジューリングフレームワークを用いて,ハードウェアアクセラレータ間でタスクを動的に割り当てるハイブリッドデータセンターモデルを提案する。
論文 参考訳(メタデータ) (2024-04-25T11:24:08Z) - MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。
本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文 参考訳(メタデータ) (2024-02-26T18:59:03Z) - Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models [90.14693869269519]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。
本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-02-22T18:56:07Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - Federated Fine-Tuning of LLMs on the Very Edge: The Good, the Bad, the Ugly [62.473245910234304]
本稿では,最新のエッジコンピューティングシステムにおいて,Large Language Modelsをどのように導入できるかを,ハードウェア中心のアプローチで検討する。
マイクロレベルのハードウェアベンチマークを行い、FLOPモデルと最先端のデータセンターGPUを比較し、現実的な条件下でのネットワーク利用について検討する。
論文 参考訳(メタデータ) (2023-10-04T20:27:20Z) - From Words to Watts: Benchmarking the Energy Costs of Large Language
Model Inference [19.439683873290623]
大規模言語モデル(LLM)は、新しい生成能力によって、最先端の最先端をはるかに超えているため、人気が高まっている。
これらのモデルには計算上の課題、特に推論に必要な計算とエネルギーのコストが伴う。
論文 参考訳(メタデータ) (2023-10-04T17:41:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。