Fugu-MT 論文翻訳(概要): Towards Greener LLMs: Bringing Energy-Efficiency to the Forefront of LLM Inference

論文の概要: Towards Greener LLMs: Bringing Energy-Efficiency to the Forefront of LLM Inference

arxiv url: http://arxiv.org/abs/2403.20306v1
Date: Fri, 29 Mar 2024 17:22:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-01 14:55:26.160760
Title: Towards Greener LLMs: Bringing Energy-Efficiency to the Forefront of LLM Inference
Title（参考訳）: グリーン化をめざして : LLM推論の最前線にエネルギー効率をもたらす
Authors: Jovan Stojkovic, Esha Choukse, Chaojie Zhang, Inigo Goiri, Josep Torrellas,
Abstract要約: 大規模な言語モデルを提供するためのデータセンター拡張の最大の課題として、エネルギーの可用性が最前線に現れている。入力,モデル,サービスレベルの合意によっては,LLM推論プロバイダがエネルギー効率を高めるために利用できるノブがいくつか存在することを示す。
参考スコア（独自算出の注目度）: 6.68507515624183
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: With the ubiquitous use of modern large language models (LLMs) across industries, the inference serving for these models is ever expanding. Given the high compute and memory requirements of modern LLMs, more and more top-of-the-line GPUs are being deployed to serve these models. Energy availability has come to the forefront as the biggest challenge for data center expansion to serve these models. In this paper, we present the trade-offs brought up by making energy efficiency the primary goal of LLM serving under performance SLOs. We show that depending on the inputs, the model, and the service-level agreements, there are several knobs available to the LLM inference provider to use for being energy efficient. We characterize the impact of these knobs on the latency, throughput, as well as the energy. By exploring these trade-offs, we offer valuable insights into optimizing energy usage without compromising on performance, thereby paving the way for sustainable and cost-effective LLM deployment in data center environments.
Abstract（参考訳）: 業界全体で近代的な大規模言語モデル(LLM)が広く使われるようになると、これらのモデルに対する推論はますます拡大している。現代のLLMの高い計算とメモリ要件を考えると、これらのモデルを提供するために、上位のGPUがますます多くデプロイされている。データセンターがこれらのモデルを提供する最大の課題として、エネルギーの可用性が最前線に現れている。本稿では,エネルギー効率をLLMの主目的とする性能SLOにおけるトレードオフについて述べる。入力,モデル,サービスレベルの合意によっては,LLM推論プロバイダがエネルギー効率を高めるために利用できるノブがいくつか存在することを示す。これらのノブがレイテンシ、スループット、およびエネルギーに与える影響を特徴付ける。これらのトレードオフを探索することにより、パフォーマンスを損なうことなく、エネルギー使用量の最適化に関する貴重な洞察を提供する。

関連論文リスト

Sustainable LLM Inference for Edge AI: Evaluating Quantized LLMs for Energy Efficiency, Output Accuracy, and Inference Latency [6.306413686006502]
我々はOllamaライブラリから28の量子化大言語モデル(LLM)を包括的に分析する。我々は、複数の量子化レベルおよびタスクタイプにわたるエネルギー効率、推論性能、出力精度を評価する。その結果,異なる量子化設定におけるエネルギー効率,推定速度,精度のトレードオフが明らかになった。
論文参考訳（メタデータ） (2025-04-04T11:29:30Z)
Densing Law of LLMs [81.06644243978101]
大規模言語モデル(LLM)は人工知能のマイルストーンとして登場し、モデルのサイズが大きくなるにつれてその性能が向上する。本稿では,異なるスケールでLLMの品質を評価するための新しい指標として,「テクトキャパシティ密度」の概念を紹介する。
論文参考訳（メタデータ） (2024-12-05T16:31:13Z)
Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance [78.48606021719206]
Mini-InternVL は 1B から 4B までのパラメータを持つ一連の MLLM であり、パラメータの 5% しか持たない性能の90% を達成している。我々は,ダウンストリームタスクにおける特化モデルの転送と性能向上を可能にする,Mini-InternVLの統一適応フレームワークを開発した。
論文参考訳（メタデータ） (2024-10-21T17:58:20Z)
Fine-Tuning and Deploying Large Language Models Over Edges: Issues and Approaches [64.42735183056062]
大規模言語モデル(LLM)は、特殊モデルから多目的基礎モデルへと移行してきた。 LLMは印象的なゼロショット能力を示すが、ローカルデータセットとデプロイメントのための重要なリソースを微調整する必要がある。
論文参考訳（メタデータ） (2024-08-20T09:42:17Z)
SLO-aware GPU Frequency Scaling for Energy Efficient LLM Inference Serving [6.010159688581912]
本稿では,Service-Level Objectives に適合しながら,消費電力を削減するフレームワーク textitthrottLL'eM を提案する。 textitthrottLL'eMは将来のKVキャッシュ使用量とバッチサイズを予測するメカニズムを備えている。提案したMLモデルは0.97以上のR2$スコアを達成し,平均1秒あたり1イテレーション未満のパフォーマンスを予測した。
論文参考訳（メタデータ） (2024-08-05T09:07:06Z)
DynamoLLM: Designing LLM Inference Clusters for Performance and Energy Efficiency [7.073435885680335]
そこで我々はDynamoLLMを提案する。DynamoLLMは、生成型大規模言語モデルのための最初のエネルギー管理フレームワークである。サービスレベルでは、DynamoLLMは53%のエネルギーと38%の運転二酸化炭素を節約し、顧客へのコストを61%削減する。
論文参考訳（メタデータ） (2024-08-01T17:40:45Z)
The Price of Prompting: Profiling Energy Use in Large Language Models Inference [5.254805405012678]
本稿では,大規模言語モデル推論プロセスにおいて消費されるエネルギーを監視し,分析するフレームワークであるMELODIを紹介する。 MELODIを使用して生成されたデータセットは、幅広いLLMデプロイメントフレームワーク、複数の言語モデル、広範なプロンプトデータセットを含んでいる。その結果,エネルギー効率の相違が指摘され,持続可能対策の最適化と導入の十分な範囲が示唆された。
論文参考訳（メタデータ） (2024-07-04T12:16:28Z)
Hybrid Heterogeneous Clusters Can Lower the Energy Consumption of LLM Inference Workloads [0.2389598109913753]
大規模言語モデル(LLM)の訓練と使用には大量のエネルギーが必要である。本稿では, LLM を運用するデータセンターにおけるエネルギー消費削減の課題に対処する。本稿では,コストベースのスケジューリングフレームワークを用いて,ハードウェアアクセラレータ間でタスクを動的に割り当てるハイブリッドデータセンターモデルを提案する。
論文参考訳（メタデータ） (2024-04-25T11:24:08Z)
MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文参考訳（メタデータ） (2024-02-26T18:59:03Z)
Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models [90.14693869269519]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文参考訳（メタデータ） (2024-02-22T18:56:07Z)
Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文参考訳（メタデータ） (2024-01-19T05:02:46Z)
Federated Fine-Tuning of LLMs on the Very Edge: The Good, the Bad, the Ugly [62.473245910234304]
本稿では,最新のエッジコンピューティングシステムにおいて,Large Language Modelsをどのように導入できるかを,ハードウェア中心のアプローチで検討する。マイクロレベルのハードウェアベンチマークを行い、FLOPモデルと最先端のデータセンターGPUを比較し、現実的な条件下でのネットワーク利用について検討する。
論文参考訳（メタデータ） (2023-10-04T20:27:20Z)
From Words to Watts: Benchmarking the Energy Costs of Large Language Model Inference [19.439683873290623]
大規模言語モデル(LLM)は、新しい生成能力によって、最先端の最先端をはるかに超えているため、人気が高まっている。これらのモデルには計算上の課題、特に推論に必要な計算とエネルギーのコストが伴う。
論文参考訳（メタデータ） (2023-10-04T17:41:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。