論文の概要: PASCAL: A Phase-Aware Scheduling Algorithm for Serving Reasoning-based Large Language Models
- arxiv url: http://arxiv.org/abs/2602.11530v1
- Date: Thu, 12 Feb 2026 03:40:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.625066
- Title: PASCAL: A Phase-Aware Scheduling Algorithm for Serving Reasoning-based Large Language Models
- Title(参考訳): PASCAL: 推論に基づく大規模言語モデル実行のための位相対応スケジューリングアルゴリズム
- Authors: Eunyeong Cho, Jehyeon Bang, Ranggi Hwang, Minsoo Rhu,
- Abstract要約: 本稿では,QoE(Quality-of-Experience)を維持するために,制御されたプリエンプションとトークンペーシングを使用してTTFTを削減するための推論を優先する位相認識型スケジューリングアルゴリズムPASCALを提案する。
我々の階層スケジューラはインスタンスレベルの配置とインスタンス内実行を組み合わせて負荷のバランスをとり、干渉を減らす。
DeepSeek-R1-Distill-Qwen-32Bを使用したベンチマークで、PASCALは、応答フェーズSLO達成を維持しながら、テールTTFTを最大72%削減する。
- 参考スコア(独自算出の注目度): 3.088398451509366
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The emergence of reasoning-based LLMs leveraging Chain-of-Thought (CoT) inference introduces new serving challenges, as their extended reasoning phases delay user-visible output and inflate Time-To-First-Token (TTFT). Existing LLM serving frameworks fail to distinguish between reasoning and answering phases, leading to performance degradation under GPU memory constraints. We present PASCAL, a phase-aware scheduling algorithm that prioritizes reasoning to reduce TTFT while using controlled preemption and token pacing during answering to preserve Quality-of-Experience (QoE). Our hierarchical scheduler combines instance-level placement with intra-instance execution and enables dynamic migration at phase boundaries to balance load and reduce interference. Across benchmarks using DeepSeek-R1-Distill-Qwen-32B, PASCAL reduces tail TTFT by up to 72% while maintaining answering phase SLO attainment, demonstrating the importance of phase-aware scheduling for reasoning-based LLM deployment.
- Abstract(参考訳): CoT(Chain-of-Thought)推論を利用した推論に基づくLCMの出現は,ユーザ可視出力の遅延やTTFT(Time-to-First-Token)のインフレーションなど,新たなサービス課題をもたらす。
既存のLLMサービスフレームワークは、推論と応答フェーズの区別に失敗し、GPUメモリの制約下でのパフォーマンスが低下する。
本稿では,QoE(Quality-of-Experience)を維持するために,制御されたプリエンプションとトークンペーシングを用いて,TTFT削減のための推論を優先する位相認識型スケジューリングアルゴリズムPASCALを提案する。
階層型スケジューラでは,インスタンスレベルの配置とインスタンス内実行を組み合わせることで,位相境界における動的マイグレーションによって負荷のバランスと干渉の低減を実現している。
DeepSeek-R1-Distill-Qwen-32Bを使用したベンチマークで、PASCALは、応答フェーズSLO達成を維持しながら、テールTTFTを最大72%削減し、推論ベースのLLMデプロイメントにおけるフェーズアウェアスケジューリングの重要性を示している。
関連論文リスト
- A State-Transition Framework for Efficient LLM Reasoning [58.18141262230392]
ロングチェイン・オブ・ソート (Long Chain-of-Thought, CoT) 推論は、複雑な推論タスクにおいて、Large Language Models (LLM) のパフォーマンスを大幅に改善する。
既存の研究は通常、COT配列を圧縮することでLCMの推論効率を高める。
状態遷移過程としてLLMの推論過程をモデル化する効率的な推論フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-01T12:40:40Z) - DASH: Deterministic Attention Scheduling for High-throughput Reproducible LLM Training [22.898073682504023]
FlashAttention-3のような広く使われているアテンション実装では、決定論的後方通過は37.9%のスループット低下を引き起こす。
我々は、DAG(Directed Acyclic Graph)上のスケジューリング問題として、決定論的注意の後方通過を定式化する。
本稿では2つの相補的なスケジューリング戦略をカプセル化したDASH(Deterministic Attention Scheduling for High-Throughput)を提案する。
論文 参考訳(メタデータ) (2026-01-29T15:10:13Z) - Probe and Skip: Self-Predictive Token Skipping for Efficient Long-Context LLM Inference [29.81657023400426]
プルーニングやスキップといったトークン指向の手法は、推論レイテンシの低減を約束している。
本研究では,SPTS(Self-Predictive Token Skipping)を提案する。
論文 参考訳(メタデータ) (2026-01-19T15:34:29Z) - FairBatching: Fairness-Aware Batch Formation for LLM Inference [2.0917668141703207]
この研究は、この不公平の根本原因を特定する:時-時-時-(TBT)の非単調性
本稿では,タスクの充足と復号のリソース割り当てを公平に行う新しいシステムであるFair the Prioritizingを提案する。
論文 参考訳(メタデータ) (2025-10-16T07:43:56Z) - Intra-request branch orchestration for efficient LLM reasoning [52.68946975865865]
大規模言語モデル(LLM)は、複雑なタスクの正確性を改善するために、推論時推論アルゴリズムにますます依存している。
それまでの作業は、トークンの使用を減らすことを中心に、多くの場合、正確さを犠牲にしつつ、他のレイテンシ要因を見越すことに重点を置いていた。
本稿では,LLMサービスシステムであるDUCHESSについて,予測によって導かれるリクエスト内ブランチオーケストレーションにより,精度を犠牲にすることなく,コストとレイテンシを低減できるシステムを提案する。
論文 参考訳(メタデータ) (2025-09-29T15:52:08Z) - Prompt-Aware Scheduling for Low-Latency LLM Serving [4.410280212028576]
本稿では,PLMタスクスケジューラPARSを紹介する。
最短ジョブ優先(SJF)スケジューリングを、ペアのランキングとマージンランキングの損失で近似する。
応答長ベースのタスク順序付けを効果的に予測し、オーバーヘッドを最小限に抑えてレイテンシを低減する。
論文 参考訳(メタデータ) (2025-09-25T07:26:38Z) - R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [80.104336426172]
CoT(Chain-of- Thought)は、大規模言語モデルの問題解決能力を高める。
CoTは長い自己回帰軌道のためにかなりの推論コストを発生させる。
トレーニング不要なハイブリッドデコーディングフレームワークであるR-Stitchを紹介する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - LLM-Symbolic Integration for Robust Temporal Tabular Reasoning [69.27153114778748]
本研究では,システムおよび制御された評価のための合成データセットであるTempTabQA-Cを紹介する。
この構造化アプローチにより、LLM(Large Language Models)はsqlクエリの生成と実行を可能にし、一般化とバイアス軽減の強化を行う。
論文 参考訳(メタデータ) (2025-06-06T05:14:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。