論文の概要: PALS: Power-Aware LLM Serving for Mixture-of-Experts Models
- arxiv url: http://arxiv.org/abs/2605.21427v1
- Date: Wed, 20 May 2026 17:19:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.807983
- Title: PALS: Power-Aware LLM Serving for Mixture-of-Experts Models
- Title(参考訳): PALS:Mixture-of-ExpertsモデルのためのパワーアウェアLDM
- Authors: Can Hankendi, Rana Shahout, Minlan Yu, Ayse K. Coskun,
- Abstract要約: 大規模言語モデル(LLM)推論は、現代のデータセンターで支配的なワークロードとなっている。
我々は、GPUパワーキャップを一級制御ノブとして扱うLPMサービスPALSのためのパワーアウェアランタイムを提案する。
PALSはエネルギー効率を最大26.3%改善し、電力制約下ではランタイム違反を4倍から7倍に減らし、動的電力予算を追跡する。
- 参考スコア(独自算出の注目度): 7.28734124763028
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM) inference has become a dominant workload in modern data centers, driving significant GPU utilization and energy consumption. While prior systems optimize throughput and latency by batching, scheduling, and parallelism, they largely treat GPU power as a static constraint rather than a controllable resource. In this paper, we present a power-aware runtime for LLM serving, PALS, that treats GPU power caps as a first-class control knob and jointly optimizes them with software parameters such as batch size. The system combines lightweight offline power-performance models with a feedback-driven controller to select configurations that satisfy throughput targets while maximizing energy efficiency. We implement PALS within an existing LLM serving framework, vLLM, demonstrating that it requires no model retraining or API changes. Across multi-GPU systems and both dense and mixture-of-experts (MoE) models, PALS improves energy efficiency by up to 26.3%, reduces QoS violations by 4x to 7x under power constraints, and tracks dynamic power budgets. These results highlight the potential of integrating power control directly into LLM inference runtimes, enabling energy-proportional and grid-interactive AI systems.
- Abstract(参考訳): 大規模言語モデル(LLM)推論は、現代のデータセンターで支配的なワークロードとなり、GPUの利用とエネルギー消費を著しく推進している。
以前のシステムはバッチ処理、スケジューリング、並列処理によってスループットとレイテンシを最適化していたが、GPUのパワーは制御可能なリソースではなく静的な制約として扱う。
本稿では,GPUパワーキャップを一級制御ノブとして扱い,バッチサイズなどのソフトウェアパラメータで協調的に最適化するLPMサービス用パワーアウェアランタイムPALSを提案する。
このシステムは、軽量のオフライン電力性能モデルとフィードバック駆動のコントローラを組み合わせて、エネルギー効率を最大化しながらスループットの目標を満たす構成を選択する。
既存のLLMサービスフレームワークであるvLLMにPALSを実装し、モデルの再トレーニングやAPIの変更を必要としないことを示す。
マルチGPUシステムとMoEモデルの両方でPALSはエネルギー効率を最大26.3%改善し、電力制約下でQoS違反を4倍から7倍に減らし、動的電力予算を追跡する。
これらの結果は、電力制御を直接LLM推論ランタイムに統合する可能性を強調し、エネルギープロポータリでグリッド間相互作用のAIシステムを可能にする。
関連論文リスト
- EnergyLens: Predictive Energy-Aware Exploration for Multi-GPU LLM Inference Optimization [5.093812479614167]
EnergyLensは、LLM(Energy-Aware Large Language Model)推論最適化のためのエンドツーエンドフレームワークである。
融合、並列性、計算通信の重複を含むLCM仕様を、負荷不均衡を意識したMoEモデリングと組み合わせて取得する。
テンソルパラレルおよびエキスパートパラレル構成におけるLlama3およびQwen3-MoE上のEnergyLensを検証する。
我々のエネルギー駆動探査では、プリフィルとデコードで構成されたエネルギーの最大1.47倍と52.9倍のエネルギー変化が示され、分散サービスへの動機付けがなされている。
論文 参考訳(メタデータ) (2026-05-14T01:37:26Z) - MoE-Lens: Towards the Hardware Limit of High-Throughput MoE LLM Serving Under Resource Constraints [7.287566040274871]
MoE-Lensは、リソース制約のある環境に対する総合的なパフォーマンスモデリングによって設計された推論システムである。
システム実行メカニズムをキャプチャして、重要なハードウェアボトルネックを特定し、達成可能なスループットを正確に予測します。
多様なMoEモデルとデータセットに基づいて評価され、MoE-Lensは最先端のソリューションを平均で4.6倍(最大25.5倍)上回る。
論文 参考訳(メタデータ) (2025-04-12T21:26:56Z) - TAPAS: Thermal- and Power-Aware Scheduling for LLM Inference in Cloud Platforms [9.36320423249322]
生成型大規模言語モデル(LLM)の需要の増加は、クラウドにおける熱と電力管理に課題をもたらしている。
本研究では,クラウド上でのLLM推論クラスタを対象としたサーマルアウェアフレームワークであるTAPASを提案する。
大規模GPUクラスタに対する評価は, 熱・パワースロットリング現象を著しく低減し, システム効率を向上することを示す。
論文 参考訳(メタデータ) (2025-01-05T16:51:17Z) - DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。
活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。
DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文 参考訳(メタデータ) (2024-11-04T18:26:08Z) - Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。
軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。
ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文 参考訳(メタデータ) (2024-09-25T21:32:12Z) - Hybrid Heterogeneous Clusters Can Lower the Energy Consumption of LLM Inference Workloads [0.2389598109913753]
大規模言語モデル(LLM)の訓練と使用には大量のエネルギーが必要である。
本稿では, LLM を運用するデータセンターにおけるエネルギー消費削減の課題に対処する。
本稿では,コストベースのスケジューリングフレームワークを用いて,ハードウェアアクセラレータ間でタスクを動的に割り当てるハイブリッドデータセンターモデルを提案する。
論文 参考訳(メタデータ) (2024-04-25T11:24:08Z) - Distributed Inference and Fine-tuning of Large Language Models Over The
Internet [91.00270820533272]
大規模言語モデル(LLM)は、多くのNLPタスクで有用であり、サイズが向上する。
これらのモデルはハイエンドのハードウェアを必要とするため、ほとんどの研究者にはアクセスできない。
本研究では,システムスループットの最大化のためにデバイスを自動的に割り当てるフォールトトレラント推論アルゴリズムとロードバランシングプロトコルを開発する。
論文 参考訳(メタデータ) (2023-12-13T18:52:49Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - POLCA: Power Oversubscription in LLM Cloud Providers [0.8299593158757622]
大規模言語モデル (LLMs) はますます強力になりつつある。
LLMクラスタに電力をオーバーサブスクライブする大きな機会があることが示される。
我々は、堅牢で信頼性があり、GPUクラスタに容易にデプロイ可能な、パワーオーバーサブスクライブのためのフレームワークであるPOLCAを提案する。
論文 参考訳(メタデータ) (2023-08-24T16:32:34Z) - AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration [54.692405042065815]
LLM低ビット量のみの量子化のためのハードウェアフレンドリーなアプローチであるActivation-Aware Weight Quantization (AWQ)を提案する。
AWQ は 1% の正重みしか保護せず,命令調整型 LM とマルチモーダル LM の量子化性能に優れる。
また,4ビットオンデバイスLLM/VLMに適した,効率的なフレキシブルな推論フレームワークであるTinyChatを実装した。
論文 参考訳(メタデータ) (2023-06-01T17:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。