論文の概要: SLO-Aware Compute Resource Allocation for Prefill-Decode Disaggregated LLM Inference
- arxiv url: http://arxiv.org/abs/2603.04716v1
- Date: Thu, 05 Mar 2026 01:41:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.022156
- Title: SLO-Aware Compute Resource Allocation for Prefill-Decode Disaggregated LLM Inference
- Title(参考訳): プリフィルデコード分散LLM推論のためのSLO対応計算資源割り当て
- Authors: Luchang Li, Dongfang Li, Bozhao Gong, Yu Zhang,
- Abstract要約: Prefill-Decode (P/D) のデアグリゲーションは,Large Language Model (LLM) 推論の最適化戦略として広く採用されている。
現在、最適なP/Dハードウェアリソース数を決定するための確立された方法論は存在しない。
理論的モデリングと経験的ベンチマークを組み合わせたハイブリッドアプローチを提案する。
- 参考スコア(独自算出の注目度): 4.955827313214081
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prefill-Decode (P/D) disaggregation has emerged as a widely adopted optimization strategy for Large Language Model (LLM) inference. However, there currently exists no well-established methodology for determining the optimal number of P/D hardware resources, subject to constraints on total throughput, service level objectives (SLOs), and request characteristics - specifically input and output lengths. To address this gap, we propose a hybrid approach that combines theoretical modeling with empirical benchmarking. First, we present a theoretical model for calculating P/D resource counts, which is based on total throughput requirements, request input and output lengths, as well as prefill and decode throughput. Then, to obtain the actual prefill and decode throughput under SLO constraints, we model the prefill process using M/M/1 queuing theory, deriving the achieved prefill throughput from the benchmarked maximum prefill throughput and Time-To-First-Token (TTFT). For the decode phase, we determine the decode batch sizes that meet Time-Per-Output-Token (TPOT) requirements and obtain the corresponding decode throughput through empirical measurements. Our experimental results demonstrate that the proposed method can accurately predict optimal P/D resource allocation in real-world LLM inference scenarios.
- Abstract(参考訳): Prefill-Decode (P/D) のデアグリゲーションは,Large Language Model (LLM) 推論の最適化戦略として広く採用されている。
しかしながら、P/Dハードウェアリソースの最適数を決定するための確立された方法論は、総スループット、サービスレベル目標(SLO)、リクエスト特性(特に入力と出力長)の制約を受けていない。
このギャップに対処するために、理論的モデリングと経験的ベンチマークを組み合わせるハイブリッドアプローチを提案する。
まず、総スループット要求、要求入力および出力長、およびプリフィルおよびデコードスループットに基づくP/Dリソース数を計算する理論的モデルを提案する。
そして,SLO制約下での実際のプリフィルおよびデコードスループットを得るために,ベンチマークした最大プリフィルスループットとTTFT(Time-to-First-Token)から得られたプリフィルスループットを導出し,M/M/1キューイング理論を用いてプリフィルプロセスのモデル化を行う。
復号フェーズでは、TPOT(Time-Per-Output-Token)要求を満たす復号バッチサイズを決定し、経験的測定により対応する復号スループットを得る。
実世界のLLM推論シナリオにおいて,提案手法が最適P/D資源配分を正確に予測できることを実験的に示す。
関連論文リスト
- Scaling LLM Speculative Decoding: Non-Autoregressive Forecasting in Large-Batch Scenarios [76.85739138203014]
本稿では,一方向および注目メカニズムを加速する新しいアーキテクチャであるSpecFormerを紹介する。
また,SpecFormerはトレーニング要求の低減と計算コストの削減を実現している。
論文 参考訳(メタデータ) (2025-11-25T14:20:08Z) - Language Ranker: A Lightweight Ranking framework for LLM Decoding [70.01564145836129]
本稿では,レコメンデーションパイプラインのランク付け段階に類似した復号過程を概念化する。
この知見に触発されて、我々はLanguage Rankerを提案する。
実験の結果、Language Rankerは大規模報酬モデルに匹敵するパフォーマンスを達成する一方で、0.5Mの追加パラメータしか必要としないことがわかった。
論文 参考訳(メタデータ) (2025-10-23T17:56:46Z) - Probabilistic Optimality for Inference-time Scaling [8.126757296203957]
大規模言語モデル(LLM)の推論性能を向上させるための強力な手法として、推論時間スケーリングが登場した。
本稿では,並列サンプルが独立かつ同一分布であるという仮定の下で,推論時間スケーリングの最適性を定式化する確率的フレームワークを提案する。
サンプル応答の最適数を動的に決定する実用的なアルゴリズムである OptScale を開発した。
論文 参考訳(メタデータ) (2025-06-27T16:44:11Z) - Conformal Prediction Beyond the Seen: A Missing Mass Perspective for Uncertainty Quantification in Generative Models [20.810300785340072]
Conformal Prediction with Query Oracle (CPQ)は、これらの目的間の最適な相互作用を特徴付けるフレームワークである。
本アルゴリズムは2つの基本原理に基づいて構築されている。一方は最適なクエリポリシーを規定し、他方はクエリされたサンプルから予測セットへの最適マッピングを定義する。
論文 参考訳(メタデータ) (2025-06-05T18:26:14Z) - Efficient Heuristics Generation for Solving Combinatorial Optimization Problems Using Large Language Models [52.538586230181814]
近年のLarge Language Models (LLMs) を用いた組合せ最適化問題の解法に関する研究
プロンプトにおけるタスク固有の知識の欠如は、LLMが不特定な探索方向を提供し、良好なパフォーマンスの導出を妨げることがしばしばある。
本稿では,Herculesアルゴリズムを提案する。このアルゴリズムは設計したコア抽象化プロンプティング(CAP)法を利用して,コアコンポーネントをエリートHGから抽象化し,プリミティブに事前知識として組み込む。
論文 参考訳(メタデータ) (2025-05-19T02:20:46Z) - Optimizing LLM Inference: Fluid-Guided Online Scheduling with Memory Constraints [14.341123057506827]
大規模言語モデル(LLM)は、今日のアプリケーションでは必須であるが、推論手順は重要な計算資源を必要とする。
本稿では,多段階オンラインスケジューリング問題としてLLM推論最適化を定式化する。
我々は,アルゴリズム設計をガイドするトラクタブルなベンチマークを提供するために,流体力学近似を開発した。
論文 参考訳(メタデータ) (2025-04-15T16:00:21Z) - Towards Optimal Multi-draft Speculative Decoding [102.67837141152232]
MDSD(Multi-Draft Speculative Decoding)は、各トークンを生成する際に、小さなドラフトモデルで複数のドラフトを生成する手法である。
本稿では、最適輸送問題の双対性について論じ、最適受容率を効率的に計算する方法を提供する。
論文 参考訳(メタデータ) (2025-02-26T03:22:44Z) - Don't Stop Me Now: Embedding Based Scheduling for LLMs [22.099820814682513]
SRPT(Shortest Remaining Process Time)のようなサイズベースのスケジューリングアルゴリズムは、平均的な要求完了時間を削減することを目的としている。
LLMシステムにおけるメモリオーバーヘッドを考慮した予測型SRPT変種を提案する。
論文 参考訳(メタデータ) (2024-10-01T19:51:07Z) - Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。
本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。
我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文 参考訳(メタデータ) (2024-07-23T06:21:24Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。