論文の概要: Adaptive Rescheduling in Prefill-Decode Disaggregated LLM Inference
- arxiv url: http://arxiv.org/abs/2510.13668v1
- Date: Wed, 15 Oct 2025 15:29:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.736435
- Title: Adaptive Rescheduling in Prefill-Decode Disaggregated LLM Inference
- Title(参考訳): Prefill-Decode Disaggregated LLM推論における適応的再スケジューリング
- Authors: Zhibin Wang, Zetao Hong, Xue Li, Zibo Wang, Shipeng Li, Qingkai Meng, Qing Wang, Chengying Huan, Rong Gu, Sheng Zhong, Chen Tian,
- Abstract要約: 大規模言語モデル(LLM)推論は基本的なパラダイムとして登場した。
本稿では,時間予測を利用した適応型復号化システムであるARESを提案する。
- 参考スコア(独自算出の注目度): 29.19884207604898
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Model (LLM) inference has emerged as a fundamental paradigm. In real-world scenarios, variations in output length cause severe workload imbalance in the decode phase, particularly for long-output reasoning tasks. Existing systems, such as PD disaggregation architectures, rely on static prefill-to-decode scheduling, which often results in SLO violations and OOM failures under evolving decode workloads. In this paper, we propose ARES, an adaptive decoding rescheduling system powered by length prediction to anticipate future workloads. Our core contributions include: (1) A lightweight and continuous LLM-native prediction method that leverages LLM hidden state to model remaining generation length with high precision (reducing MAE by 49.42%) and low overhead (cutting predictor parameters by 93.28%); (2) A rescheduling solution in decode phase with : A dynamic balancing mechanism that integrates current and predicted workloads, reducing P99 TPOT by 74.77% and achieving up to 2.24 times higher goodput.
- Abstract(参考訳): 大規模言語モデル(LLM)推論は基本的なパラダイムとして登場した。
実世界のシナリオでは、出力長の変動は、特に長期出力の推論タスクにおいて、デコードフェーズで厳しいワークロードの不均衡を引き起こす。
PDディスアグリゲーションアーキテクチャのような既存のシステムは、静的なプリフィル・トゥ・デコードスケジューリングに依存しており、多くの場合、進化するデコードワークロードの下でSLO違反やOOM障害が発生する。
本稿では,ARES(Aaptive Decoding Rescheduling System)を提案する。
1) LLM 隠れ状態を利用した軽量かつ連続的な LLM ネイティブな予測手法で,高い精度(MAE を 49.42% 削減)と低オーバーヘッド(予測パラメータを 93.28% 削減),(2) 復号フェーズにおける再スケジューリングソリューション : 現在のワークロードと予測ワークロードを統合し,P99 TPOT を74.77%削減し,最大2.24倍の高出力を実現した動的バランシング機構。
関連論文リスト
- Beyond Fixed: Training-Free Variable-Length Denoising for Diffusion Large Language Models [74.15250326312179]
拡散大言語モデルは効率的な並列生成とグローバルモデリングを提供する。
DLLMの主流の応用は、静的に事前定義された生成長の必要性によって妨げられている。
DAEDALは,動的適応長拡張を可能にする新しい学習自由化戦略である。
論文 参考訳(メタデータ) (2025-08-01T17:56:07Z) - Quantizing Large Language Models for Code Generation: A Differentiated Replication [51.85505914274633]
大規模言語モデル(LLM)は、コード生成において印象的な能力を示しており、特に自然言語で記述された要求を自動的に実装する。
LLMはメモリ(そして結果として炭素)のフットプリントに重大な課題をもたらす。
LLM量子化の新しいフロンティアは4ビット精度であり、平均メモリフットプリントが70%減少する。
論文 参考訳(メタデータ) (2025-03-10T09:26:08Z) - Unveiling Downstream Performance Scaling of LLMs: A Clustering-Based Perspective [7.408649506385476]
大規模言語モデル(LLM)トレーニングのエスカレートスケールとコストは、下流タスク性能の正確な事前トレーニング予測を必要とする。
現在の予測手法には精度と信頼性が欠けている。
本稿では,下流性能予測のためのクラスタリングオンディフルティ(COD)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-24T15:44:57Z) - LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。
本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。
LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文 参考訳(メタデータ) (2024-12-29T06:32:36Z) - Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。
PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。
我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文 参考訳(メタデータ) (2024-10-17T11:46:33Z) - Characterizing the Accuracy -- Efficiency Trade-off of Low-rank Decomposition in Language Models [1.401463252785724]
低ランクの分解は、大規模にリアルタイムサービスを必要とするLLMベースのアプリケーションにとって有望な方向である。
低ランクな分解設計空間を形式化し、分解設計空間が巨大であることを示す。
以上の結果から,最小精度で9%のモデルサイズ削減を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-05-10T17:40:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。