論文の概要: From Tokens to Layers: Redefining Stall-Free Scheduling for LLM Serving with Layered Prefill
- arxiv url: http://arxiv.org/abs/2510.08055v1
- Date: Thu, 09 Oct 2025 10:41:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.017076
- Title: From Tokens to Layers: Redefining Stall-Free Scheduling for LLM Serving with Layered Prefill
- Title(参考訳): TokensからLayersへ:Layered Prefill を用いた LLM の Stall-free Scheduling の再定義
- Authors: Gunjun Lee, Jiwon Kim, Jaiyoung Park, Younjoo Lee, Jung Ho Ahn,
- Abstract要約: 大規模言語モデル(LLM)は、TTFT(Time-to-first-token)とTBT(Time-between-token)の両方に対して、厳密なサービスレベル目標を満たす必要がある。
現代のサービスシステムでは、チャンクプリフィルのようなストールフリーなスケジューリング技術を採用している。
本稿では,トランスフォーマ層群を主スケジューリング単位として扱う新しいスケジューリングパラダイムであるLayered Prefillを提案する。
- 参考スコア(独自算出の注目度): 8.04085002818041
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Model (LLM) inference in production must meet stringent service-level objectives for both time-to-first-token (TTFT) and time-between-token (TBT) while maximizing throughput under fixed compute, memory, and interconnect budgets. Modern serving systems adopt stall-free scheduling techniques such as chunked prefill, which splits long prompt processing along the token dimension and interleaves prefill with ongoing decode iterations. While effective at stabilizing TBT, chunked prefill incurs substantial overhead in Mixture-of-Experts (MoE) models: redundant expert weight loads increase memory traffic by up to 39% and inflate energy consumption. We propose layered prefill, a new scheduling paradigm that treats transformer layer groups as the primary scheduling unit. By vertically partitioning the model into contiguous layer groups and interleaving prefill and decode across the groups, layered prefill sustains stall-free decoding while eliminating chunk-induced MoE weight reloads. It reduces off-chip bandwidth demand, lowering TTFT by up to 70%, End-to-End latency by 41% and per-token energy by up to 22%. Evaluations show that layered prefill consistently improves the TTFT--TBT Pareto frontier over chunked prefill, reducing expert-load traffic and energy cost while maintaining stall-free decoding. Overall, shifting the scheduling axis from tokens to layers unlocks a new operating regime for high-efficiency, energy-aware LLM serving in co-located environments.
- Abstract(参考訳): 大規模言語モデル(LLM)は、固定計算、メモリ、相互接続予算の下でスループットを最大化しながら、TTFT(Time-to-first-token)とTBT(Time-between-token)の両方に対して、厳密なサービスレベル目標を満たす必要がある。
現代のサービスシステムでは、チャンクプリフィルのようなストールフリーなスケジューリング手法を採用しており、トークン次元に沿って長いプロンプト処理を分割し、継続するデコード反復でプリフィルをインターリーブする。
チャンクドプレフィルはTBTの安定化に有効であるが、Mixture-of-Experts (MoE)モデルでは、冗長な専門家負荷によりメモリトラフィックが最大39%増加し、エネルギー消費が増大する。
本稿では,トランスフォーマ層群を主スケジューリング単位として扱う新しいスケジューリングパラダイムであるLayered Prefillを提案する。
モデルを連続層群に垂直に分割し, プレフィルとデコードの間を相互に分割することにより, 層状プレフィルは, チャンク誘起のMoE再負荷を排除しながら, スタントフリーデコーディングを持続する。
オフチップの帯域幅の需要を減らし、TTFTを70%まで下げ、End-to-Endレイテンシを41%、トーケンエネルギーを最大22%削減する。
層状プレフィルは, チャンク状プレフィルよりもTTFT--TBTパレートフロンティアを一貫して改善し, ストールフリーデコードを維持しながら, 専門家の負荷とエネルギーコストを低減できることを示した。
全体として、スケジュール軸をトークンからレイヤにシフトすることで、コロケーション環境で機能する高効率でエネルギーを意識したLDMの新しい運用体制が解き放たれる。
関連論文リスト
- PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems [62.24576366776727]
本稿では,全体の推論遅延を最小限に抑えるために,遅延を考慮したスケジューリングフレームワークを提案する。
提案手法は,ベースライン戦略と比較して,コールドスタート遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-08-15T07:49:22Z) - Optimal Scheduling Algorithms for LLM Inference: Theory and Practice [6.043830060363904]
本稿では,大規模言語モデル推論システムにおけるルーティングとスケジューリングをモデル化する理論的枠組みを開発する。
スループット向上に不可欠な設計原則として,最適化タイリングと動的リソース割り当ての2つがあげられる。
本稿では,リソース・アウェア・ダイナミック(RAD)スケジューラが軽度条件下でスループットの最適化を実現することを示す。
論文 参考訳(メタデータ) (2025-08-01T18:12:21Z) - Efficiently Serving Large Multimodal Models Using EPD Disaggregation [24.05805398635414]
Encode-Prefill-Decode Disaggregation(エンコード・プリフィル・デコード・デコード・デアグリゲーション)という,エンコード・プリフィル・デコード・デコード・デアグリゲーション(Encode-Prefill-Decode Disaggregation)というフレームワークを紹介した。
エンコーディングとプリフィルをバンドルする現在のシステムとは異なり、私たちのアプローチはこれらのステップを分離し、新たな機会と最適化を解放します。
一般的なLMMを用いた実験では、メモリ効率(ピークメモリ使用率の最大15倍)、バッチサイズ(最大22倍)、リクエストあたり10倍のイメージ、および2.2倍のKVキャッシュが大幅に向上した。
論文 参考訳(メタデータ) (2024-12-25T10:11:31Z) - LayerKV: Optimizing Large Language Model Serving with Layer-wise KV Cache Management [23.431794605498084]
ハードウェアの追加や出力性能の向上を必要とせずにTTFTを効果的に削減する,シンプルで効果的なプラグイン手法であるLayer KVを提案する。
レイヤKVは、システムメモリのきめ細かい制御のために、レイヤワイズなKVブロック割り当て、管理、オフロードを導入します。
様々なGPU構成の7Bから70Bパラメータを含む代表モデルの包括的な評価は、Layer KVがTTFTレイテンシを69倍に改善し、SLO違反率を28.7%削減することを示した。
論文 参考訳(メタデータ) (2024-10-01T06:23:17Z) - FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。
発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。
本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文 参考訳(メタデータ) (2024-04-05T02:35:43Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - TFMQ-DM: Temporal Feature Maintenance Quantization for Diffusion Models [52.454274602380124]
拡散モデルは非常に時間ステップ$t$に大きく依存し、良好なマルチラウンドデノジングを実現している。
本稿では,時間情報ブロック上に構築した時間的特徴保守量子化(TFMQ)フレームワークを提案する。
先駆的なブロック設計により、時間情報認識再構成(TIAR)と有限集合キャリブレーション(FSC)を考案し、完全な時間的特徴を整列させる。
論文 参考訳(メタデータ) (2023-11-27T12:59:52Z) - Client Orchestration and Cost-Efficient Joint Optimization for
NOMA-Enabled Hierarchical Federated Learning [55.49099125128281]
半同期クラウドモデルアグリゲーションの下で非直交多重アクセス(NOMA)を実現するHFLシステムを提案する。
提案手法は,HFLの性能改善と総コスト削減に関するベンチマークよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-11-03T13:34:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。