論文の概要: VoltanaLLM: Feedback-Driven Frequency Control and State-Space Routing for Energy-Efficient LLM Serving
- arxiv url: http://arxiv.org/abs/2509.04827v2
- Date: Sun, 14 Sep 2025 07:30:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 15:23:16.415884
- Title: VoltanaLLM: Feedback-Driven Frequency Control and State-Space Routing for Energy-Efficient LLM Serving
- Title(参考訳): VoltanaLLM:エネルギー効率の良いLDM実行のためのフィードバック駆動周波数制御と状態空間ルーティング
- Authors: Jiahuan Yu, Aryan Taneja, Junfeng Lin, Minjia Zhang,
- Abstract要約: VoltanaLLMは、エネルギー効率の高いLarge Language Model(LLM)を提供するシステムである。
出現するプリフィル/デコード分離アーキテクチャにおける周波数スケーリングとリクエストルーティングを共同設計する。
ほぼ完全なSLO達成率を維持しながら、最大36.3%の省エネを実現している。
- 参考スコア(独自算出の注目度): 13.494819588196371
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Modern Large Language Model (LLM) serving systems increasingly support interactive applications, like real-time chat assistants, code generation tools, and agentic workflows. However, the soaring energy cost of LLM inference presents a growing challenge for sustainable and cost-effective deployment. This paper introduces VoltanaLLM, a system for SLO-aware, energy-efficient LLM serving, built from a control theory perspective. VoltanaLLM co-designs frequency scaling and request routing in emerging prefill/decode disaggregated architectures, leveraging their decoupled execution to enable fine-grained phase-specific control. It consists of a feedback-driven frequency controller that dynamically adapts GPU frequency for prefill and decode phases, and a state-space router that explores routing decisions across frequency-scaled instances to minimize energy under latency constraints. We implement VoltanaLLM in SGLang and evaluate its performance over multiple state-of-the-art LLMs and real-world datasets. The results demonstrate that VoltanaLLM achieves up to 36.3% energy savings while maintaining near-perfect SLO attainment rate, paving the way for sustainable and intelligent LLM serving. Code of VoltanaLLM is open-sourced on GitHub: https://github.com/Supercomputing-System-AI-Lab/VoltanaLLM.
- Abstract(参考訳): 現代の大規模言語モデル(LLM)サービスシステムは、リアルタイムチャットアシスタント、コード生成ツール、エージェントワークフローなど、インタラクティブなアプリケーションのサポートをますます高めている。
しかし, LLM推論のエネルギーコストの上昇は, 持続的かつ費用対効果の高い展開の課題となっている。
本稿では,制御理論の観点から構築したSLO対応エネルギー効率の高いLLMサービスシステムであるVoltanaLLMを紹介する。
VoltanaLLMは、出現するプリフィル/デコード分離アーキテクチャにおける周波数スケーリングとリクエストルーティングを共同設計し、分離された実行を活用して、きめ細かい位相依存制御を可能にする。
これは、GPU周波数をプリフィルとデコードに動的に適応するフィードバック駆動の周波数コントローラと、レイテンシ制約下でのエネルギーを最小限に抑えるために、周波数スケールのインスタンス間のルーティング決定を探索するステートスペースルータで構成されている。
我々はSGLangにVoltanaLLMを実装し、その性能を複数の最先端LLMと実世界のデータセットで評価する。
その結果、VoltanaLLMは、ほぼ完全なSLO達成率を維持しながら、最大36.3%の省エネを実現し、持続的でインテリジェントなLCM提供の道を開いた。
https://github.com/Supercomputing-System-AI-Lab/VoltanaLLM。
関連論文リスト
- CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems [62.24576366776727]
本稿では,全体の推論遅延を最小限に抑えるために,遅延を考慮したスケジューリングフレームワークを提案する。
提案手法は,ベースライン戦略と比較して,コールドスタート遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-08-15T07:49:22Z) - Quality-of-Service Aware LLM Routing for Edge Computing with Multiple Experts [18.479200918676575]
大きな言語モデル(LLM)は目覚ましい機能を示しており、LLMサービスのユーザ需要が大幅に増加した。
しかしながら、クラウドベースのLLMサービスは、高いレイテンシ、不安定な応答性、プライバシの懸念に悩まされることが多い。
本稿では,持続的高品質LLMサービスのための深層強化学習に基づくルーティングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-01T00:45:15Z) - Energy-Aware LLMs: A step towards sustainable AI for downstream applications [0.9012198585960441]
LLM(Advanced Large Language Models)は、コミュニケーションネットワークを含む様々な分野に革命をもたらした。
LLMは通常、膨大な計算資源を必要とするため、非常に高いエネルギー消費をもたらす。
本研究では,エネルギー効率とモデル性能のトレードオフを調査するエンドツーエンドパイプラインを提案する。
論文 参考訳(メタデータ) (2025-03-22T14:28:29Z) - AdaServe: Accelerating Multi-SLO LLM Serving with SLO-Customized Speculative Decoding [12.106234303559571]
本稿では,SLO-customized Speculative Decodingによる効率的なマルチSLOサービスを支援するために設計された,最初のサービスシステムであるAdaServeを紹介する。
AdaServeは制約付き最適化問題として機能するマルチSLOを定式化し、ハードウェア対応アルゴリズムを導入した。
システムスループットを最大化しつつ、復号速度のきめ細かい制御を可能にする推測-検証パイプラインを備えている。
論文 参考訳(メタデータ) (2025-01-21T14:15:01Z) - DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。
活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。
DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文 参考訳(メタデータ) (2024-11-04T18:26:08Z) - Efficient Prompting for LLM-based Generative Internet of Things [88.84327500311464]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示しており、最近、IoT(Internet of Things)アプリケーションにLLMの能力を統合することが研究の注目を集めている。
セキュリティ上の懸念から、多くの機関は最先端の商用LLMサービスへのアクセスを避け、ローカルネットワーク環境でのオープンソースLLMのデプロイと利用を必要としている。
本研究では,LLMを用いた生成IoT(Generative IoT)システムを提案する。
論文 参考訳(メタデータ) (2024-06-14T19:24:00Z) - Queue management for slo-oriented large language model serving [3.0134961904579094]
大規模言語モデル(LLM)サービスのためのキュー管理システムであるQLMを提案する。
QLMは、異なるモデルとSLOをまたいだバッチおよびインタラクティブなリクエストをリクエストキューで維持する。
リクエスト待ち時間(RWT)推定器を使用し、リクエストキューでのリクエスト待ち時間を推定する。
論文 参考訳(メタデータ) (2024-06-05T21:17:34Z) - Function Approximation for Reinforcement Learning Controller for Energy from Spread Waves [69.9104427437916]
マルチジェネレータ・ウェーブ・エナジー・コンバータ(WEC)は、スプレッド・ウェーブと呼ばれる異なる方向から来る複数の同時波を処理しなければならない。
これらの複雑な装置は、エネルギー捕獲効率、維持を制限する構造的ストレスの低減、高波に対する積極的な保護という複数の目的を持つコントローラを必要とする。
本稿では,システム力学のシーケンシャルな性質をモデル化する上で,ポリシーと批判ネットワークの異なる機能近似について検討する。
論文 参考訳(メタデータ) (2024-04-17T02:04:10Z) - Power and Interference Control for VLC-Based UDN: A Reinforcement
Learning Approach [10.576175218005046]
可視光通信(VLC)ネットワークの容量を拡大するために、超高密度ネットワーク(UDN)技術を採用することができる。
細胞の配置は、ICIを緩和するために空間的再利用によって最適化される。
電力と干渉制御の方針を動的に最適化するRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-09T17:46:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。