論文の概要: Optimal Scheduling Algorithms for LLM Inference: Theory and Practice
- arxiv url: http://arxiv.org/abs/2508.01002v1
- Date: Fri, 01 Aug 2025 18:12:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.65798
- Title: Optimal Scheduling Algorithms for LLM Inference: Theory and Practice
- Title(参考訳): LLM推論のための最適スケジューリングアルゴリズム:理論と実践
- Authors: Agrim Bari, Parikshit Hegde, Gustavo de Veciana,
- Abstract要約: 本稿では,大規模言語モデル推論システムにおけるルーティングとスケジューリングをモデル化する理論的枠組みを開発する。
スループット向上に不可欠な設計原則として,最適化タイリングと動的リソース割り当ての2つがあげられる。
本稿では,リソース・アウェア・ダイナミック(RAD)スケジューラが軽度条件下でスループットの最適化を実現することを示す。
- 参考スコア(独自算出の注目度): 6.043830060363904
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the growing use of Large Language Model (LLM)-based tools like ChatGPT, Perplexity, and Gemini across industries, there is a rising need for efficient LLM inference systems. These systems handle requests with a unique two-phase computation structure: a prefill-phase that processes the full input prompt and a decode-phase that autoregressively generates tokens one at a time. This structure calls for new strategies for routing and scheduling requests. In this paper, we take a comprehensive approach to this challenge by developing a theoretical framework that models routing and scheduling in LLM inference systems. We identify two key design principles-optimal tiling and dynamic resource allocation-that are essential for achieving high throughput. Guided by these principles, we propose the Resource-Aware Dynamic (RAD) scheduler and prove that it achieves throughput optimality under mild conditions. To address practical Service Level Objectives (SLOs) such as serving requests with different Time Between Token (TBT) constraints, we design the SLO-Aware LLM Inference (SLAI) scheduler. SLAI uses real-time measurements to prioritize decode requests that are close to missing their TBT deadlines and reorders prefill requests based on known prompt lengths to further reduce the Time To First Token (TTFT) delays. We evaluate SLAI on the Openchat ShareGPT4 dataset using the Mistral-7B model on an NVIDIA RTX ADA 6000 GPU. Compared to Sarathi-Serve, SLAI reduces the median TTFT by 53% and increases the maximum serving capacity by 26% such that median TTFT is below 0.5 seconds, while meeting tail TBT latency constraints.
- Abstract(参考訳): ChatGPTやPerplexity、Geminiといった、LLM(Large Language Model)ベースのツールが業界全体に普及するにつれ、効率的なLLM推論システムの必要性が高まっている。
これらのシステムはリクエストを、2段階の計算構造で処理する: 完全な入力プロンプトを処理するプリフィルフェーズと、トークンを1度に自動回帰的に生成するデコードフェーズである。
この構造は、リクエストのルーティングとスケジューリングのための新しい戦略を要求する。
本稿では,LLM推論システムにおけるルーティングとスケジューリングをモデル化する理論的枠組みを開発することにより,この問題に対する包括的アプローチを提案する。
スループット向上に不可欠な設計原則として,最適化タイリングと動的リソース割り当ての2つがあげられる。
これらの原則に基づき,資源認識動的スケジューラを提案し,軽度条件下でスループットの最適性を実現することを証明する。
TBT(Time Between Token)制約の異なる要求をサーブするなど、実用的なサービスレベルオブジェクト(SLO)に対処するため、私たちは、SLAI(SLO-Aware LLM Inference)スケジューラを設計します。
SLAIはリアルタイム測定を使用して、TBTの期限に近づいているデコードリクエストを優先順位付けし、既知のプロンプト長に基づいてプレフィルリクエストを再注文することで、TTFT(Time To First Token)遅延をさらに低減します。
NVIDIA RTX ADA 6000 GPU上でのMistral-7Bモデルを用いて,Openchat ShareGPT4データセット上でSLAIを評価する。
Sarathi-Serveと比較すると、SLAIは中央のTTFTを53%削減し、中央のTTFTが0.5秒未満であるように最大サービス容量を26%向上する。
関連論文リスト
- How to Train Your LLM Web Agent: A Statistical Diagnosis [102.04125085041473]
LLMウェブエージェントのポストトレーニングにおける計算割当に関する統計学的基礎研究について述べる。
提案手法では,Llama 3.1 8Bの学生を対象に,教師付き微調整(SFT)とオンライン強化学習を用いて,Llama 3.3 70Bの教師を模倣する2段階のパイプラインを用いた。
以上の結果から,SFTとオンラインRLの組み合わせは,WorkArenaとMiniWob++のいずれにおいても,単独でのアプローチよりも一貫して優れていた。
論文 参考訳(メタデータ) (2025-07-05T17:12:33Z) - Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:03:02Z) - ELIS: Efficient LLM Iterative Scheduling System with Response Length Predictor [5.097511974401423]
ELIS (Large Language Models) は、ISRTF(Iterative Shortest Remaining Time First)スケジューラを備えた大規模言語モデル(LLM)のサービスシステムである。
ISRTFスケジューラは、最も短い時間で推論タスクを効率的に管理する。
論文 参考訳(メタデータ) (2025-05-14T04:50:00Z) - Optimizing LLM Inference: Fluid-Guided Online Scheduling with Memory Constraints [14.341123057506827]
大規模言語モデル(LLM)は、今日のアプリケーションでは必須であるが、推論手順は重要な計算資源を必要とする。
本稿では,多段階オンラインスケジューリング問題としてLLM推論最適化を定式化する。
我々は,アルゴリズム設計をガイドするトラクタブルなベンチマークを提供するために,流体力学近似を開発した。
論文 参考訳(メタデータ) (2025-04-15T16:00:21Z) - SCoTT: Strategic Chain-of-Thought Tasking for Wireless-Aware Robot Navigation in Digital Twins [78.53885607559958]
無線対応経路計画フレームワークであるSCoTTを提案する。
SCoTT は DP-WA* の2% 以内で経路ゲインを達成し, 連続的に短い軌道を生成できることを示す。
また,ガゼボシミュレーションにおいて,SCoTTをROSノードとして配置することにより,本手法の実用性を示す。
論文 参考訳(メタデータ) (2024-11-27T10:45:49Z) - ALISE: Accelerating Large Language Model Serving with Speculative Scheduling [7.367068885621016]
大規模言語モデル(LLM)は、現代の人工知能(AGI)の展望における革命的な進歩を表している。
本稿では, ALISE という新しい効率的な LLM 推論サービスフレームワークを提案する。
ALISEは,AlpacaデータセットとShareGPTデータセットと同じレイテンシ制約の下で,最大1.8xと2.1xの推論処理のスループットを向上することを示す。
論文 参考訳(メタデータ) (2024-10-31T00:58:11Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Don't Stop Me Now: Embedding Based Scheduling for LLMs [22.099820814682513]
SRPT(Shortest Remaining Process Time)のようなサイズベースのスケジューリングアルゴリズムは、平均的な要求完了時間を削減することを目的としている。
LLMシステムにおけるメモリオーバーヘッドを考慮した予測型SRPT変種を提案する。
論文 参考訳(メタデータ) (2024-10-01T19:51:07Z) - Efficient LLM Scheduling by Learning to Rank [19.33941579312897]
そこで本研究では,要求の集合における出力長の相対的なランクを,学習者によるランク付けによって予測可能であることを示す。
我々は,LLM推論のための新しいスケジューラを開発し,SJFスケジュールを既存手法よりも高速に近似する。
論文 参考訳(メタデータ) (2024-08-28T13:35:54Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - Better than the Best: Gradient-based Improper Reinforcement Learning for
Network Scheduling [60.48359567964899]
パケット遅延を最小限に抑えるため,制約付き待ち行列ネットワークにおけるスケジューリングの問題を考える。
我々は、利用可能な原子ポリシーよりも優れたスケジューラを生成するポリシー勾配に基づく強化学習アルゴリズムを使用する。
論文 参考訳(メタデータ) (2021-05-01T10:18:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。