論文の概要: DynamoLLM: Designing LLM Inference Clusters for Performance and Energy Efficiency
- arxiv url: http://arxiv.org/abs/2408.00741v1
- Date: Thu, 1 Aug 2024 17:40:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-08-04 19:47:32.102929
- Title: DynamoLLM: Designing LLM Inference Clusters for Performance and Energy Efficiency
- Title(参考訳): DynamoLLM:性能とエネルギー効率のためのLCM推論クラスタの設計
- Authors: Jovan Stojkovic, Chaojie Zhang, Íñigo Goiri, Josep Torrellas, Esha Choukse,
- Abstract要約: そこで我々はDynamoLLMを提案する。DynamoLLMは、生成型大規模言語モデルのための最初のエネルギー管理フレームワークである。
サービスレベルでは、DynamoLLMは53%のエネルギーと38%の運転二酸化炭素を節約し、顧客へのコストを61%削減する。
- 参考スコア(独自算出の注目度): 7.073435885680335
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The rapid evolution and widespread adoption of generative large language models (LLMs) have made them a pivotal workload in various applications. Today, LLM inference clusters receive a large number of queries with strict Service Level Objectives (SLOs). To achieve the desired performance, these models execute on power-hungry GPUs causing the inference clusters to consume large amount of energy and, consequently, result in excessive carbon emissions. Fortunately, we find that there is a great opportunity to exploit the heterogeneity in inference compute properties and fluctuations in inference workloads, to significantly improve energy-efficiency. However, such a diverse and dynamic environment creates a large search-space where different system configurations (e.g., number of instances, model parallelism, and GPU frequency) translate into different energy-performance trade-offs. To address these challenges, we propose DynamoLLM, the first energy-management framework for LLM inference environments. DynamoLLM automatically and dynamically reconfigures the inference cluster to optimize for energy and cost of LLM serving under the service's performance SLOs. We show that at a service-level, DynamoLLM conserves 53% energy and 38% operational carbon emissions, and reduces 61% cost to the customer, while meeting the latency SLOs.
- Abstract(参考訳): 生成型大規模言語モデル(LLM)の急速な進化と普及により、様々なアプリケーションにおいてそれらが重要なワークロードとなっている。
現在、LLM推論クラスタは厳しいサービスレベルオブジェクト(SLO)を持つ多数のクエリを受け取ります。
所望のパフォーマンスを達成するため、これらのモデルはパワーハングリーGPU上で実行され、推論クラスタは大量のエネルギーを消費し、結果として過剰な二酸化炭素排出量をもたらす。
幸いなことに、推論計算特性の不均一性と推論ワークロードの変動を利用して、エネルギー効率を大幅に改善する大きな機会がある。
しかし、このような多様な動的環境は、異なるシステム構成(例:インスタンス数、モデル並列性、GPU周波数)が異なるエネルギーパフォーマンストレードオフに変換される大きな検索空間を生成する。
これらの課題に対処するため、LLM推論環境のための最初のエネルギー管理フレームワークであるDynamoLLMを提案する。
DynamoLLMは自動的に動的に推論クラスタを再構成し、サービスのパフォーマンスSLO下でのLLMのエネルギとコストを最適化する。
サービスレベルでは、DynamoLLMは53%のエネルギーと38%の運転炭素排出量を節約し、レイテンシSLOを満たしながら61%のコスト削減を実現している。
関連論文リスト
- DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [70.91804882618243]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - Advancing Generative Artificial Intelligence and Large Language Models for Demand Side Management with Internet of Electric Vehicles [52.43886862287498]
本稿では,大規模言語モデル(LLM)のエネルギー管理への統合について検討する。
本稿では、自動問題定式化、コード生成、カスタマイズ最適化のために、LLMを検索拡張生成で強化する革新的なソリューションを提案する。
本稿では,電気自動車の充電スケジューリングと最適化における提案手法の有効性を示すケーススタディを提案する。
論文 参考訳(メタデータ) (2025-01-26T14:31:03Z) - Investigating Energy Efficiency and Performance Trade-offs in LLM Inference Across Tasks and DVFS Settings [1.5749416770494706]
大規模言語モデル(LLM)は多くの自然言語処理(NLP)タスクにおいて大幅に改善されている。
LLMはリソース集約型であり、トレーニングと推論の両方に広範な計算資源を必要とする。
導入が加速するにつれて、LLMの持続性は重要な問題となっている。
論文 参考訳(メタデータ) (2025-01-14T16:02:33Z) - Optima: Optimizing Effectiveness and Efficiency for LLM-Based Multi-Agent System [75.25394449773052]
大規模言語モデル (LLM) に基づくマルチエージェントシステム (MAS) は協調的問題解決において顕著な可能性を示している。
通信効率の低下、スケーラビリティの低下、効果的なパラメータ更新方法の欠如などです。
本稿では,コミュニケーション効率とタスク効率を両立させ,これらの課題に対処する新しいフレームワークOptimaを提案する。
論文 参考訳(メタデータ) (2024-10-10T17:00:06Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - SLO-aware GPU Frequency Scaling for Energy Efficient LLM Inference Serving [6.010159688581912]
本稿では,Service-Level Objectives に適合しながら,消費電力を削減するフレームワーク textitthrottLL'eM を提案する。
textitthrottLL'eMは将来のKVキャッシュ使用量とバッチサイズを予測するメカニズムを備えている。
提案したMLモデルは0.97以上のR2$スコアを達成し,平均1秒あたり1イテレーション未満のパフォーマンスを予測した。
論文 参考訳(メタデータ) (2024-08-05T09:07:06Z) - The Price of Prompting: Profiling Energy Use in Large Language Models Inference [5.254805405012678]
本稿では,大規模言語モデル推論プロセスにおいて消費されるエネルギーを監視し,分析するフレームワークであるMELODIを紹介する。
MELODIを使用して生成されたデータセットは、幅広いLLMデプロイメントフレームワーク、複数の言語モデル、広範なプロンプトデータセットを含んでいる。
その結果,エネルギー効率の相違が指摘され,持続可能対策の最適化と導入の十分な範囲が示唆された。
論文 参考訳(メタデータ) (2024-07-04T12:16:28Z) - Efficient Heterogeneous Large Language Model Decoding with Model-Attention Disaggregation [15.35494431928751]
トランスフォーマーベースの大規模言語モデル(LLM)は、生成タスクにおいて顕著なパフォーマンスを示すと同時に、現実のサービスにおいて大きな課題をもたらす。
LLMデコーディングの効率を高めるために,モデルアテンションデアグリゲーションを導入する。
分散ヘテロジニアスクラスタにモデルアテンションデアグリゲーションを組み込んだLLM推論システムであるLaminaを開発し,展開する。
論文 参考訳(メタデータ) (2024-05-03T02:15:15Z) - Hybrid Heterogeneous Clusters Can Lower the Energy Consumption of LLM Inference Workloads [0.2389598109913753]
大規模言語モデル(LLM)の訓練と使用には大量のエネルギーが必要である。
本稿では, LLM を運用するデータセンターにおけるエネルギー消費削減の課題に対処する。
本稿では,コストベースのスケジューリングフレームワークを用いて,ハードウェアアクセラレータ間でタスクを動的に割り当てるハイブリッドデータセンターモデルを提案する。
論文 参考訳(メタデータ) (2024-04-25T11:24:08Z) - Towards Greener LLMs: Bringing Energy-Efficiency to the Forefront of LLM Inference [6.68507515624183]
大規模な言語モデルを提供するためのデータセンター拡張の最大の課題として、エネルギーの可用性が最前線に現れている。
入力,モデル,サービスレベルの合意によっては,LLM推論プロバイダがエネルギー効率を高めるために利用できるノブがいくつか存在することを示す。
論文 参考訳(メタデータ) (2024-03-29T17:22:48Z) - An LLM-Based Digital Twin for Optimizing Human-in-the Loop Systems [13.388869442538399]
本稿では,ショッピングモールにおける多様な集団の行動と熱的嗜好を模倣するために,大規模言語モデル(LLM)を用いたケーススタディを提案する。
集約された熱嗜好は、エージェント・イン・ザ・ループに基づく強化学習アルゴリズムであるAitL-RLに統合される。
以上の結果から,LLMは大規模オープンスペース内での複雑な人口移動をシミュレートできることがわかった。
論文 参考訳(メタデータ) (2024-03-25T14:32:28Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - ECoFLaP: Efficient Coarse-to-Fine Layer-Wise Pruning for Vision-Language
Models [70.45441031021291]
LVLM(Large Vision-Language Models)は、様々なモダリティから豊富な情報を統合することで、世界を包括的に理解することができる。
LVLMは計算/エネルギーの膨大なコストと炭素消費のためにしばしば問題となる。
本稿では,LVLMの2段間粗大な重み付け法であるECoFLaP(Efficient Coarse-to-Fine LayerWise Pruning)を提案する。
論文 参考訳(メタデータ) (2023-10-04T17:34:00Z) - Energy-Efficient Multi-Orchestrator Mobile Edge Learning [54.28419430315478]
Mobile Edge Learning(MEL)は、エッジデバイス上で機械学習(ML)モデルの分散トレーニングを特徴とする、協調学習パラダイムである。
MELでは、異なるデータセットで複数の学習タスクが共存する可能性がある。
本稿では, エネルギー消費, 精度, 解複雑性のトレードオフを容易にする軽量なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-09-02T07:37:10Z) - Learning Discrete Energy-based Models via Auxiliary-variable Local
Exploration [130.89746032163106]
離散構造データに対する条件付きおよび非条件付きEMMを学習するための新しいアルゴリズムであるALOEを提案する。
エネルギー関数とサンプリング器は、新しい変分型電力繰り返しにより効率よく訓練できることを示す。
本稿では、ソフトウェアテストのためのエネルギーモデルガイド付ファジィザについて、libfuzzerのようなよく設計されたファジィエンジンに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2020-11-10T19:31:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。