論文の概要: FairBatching: Fairness-Aware Batch Formation for LLM Inference
- arxiv url: http://arxiv.org/abs/2510.14392v1
- Date: Thu, 16 Oct 2025 07:43:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.765597
- Title: FairBatching: Fairness-Aware Batch Formation for LLM Inference
- Title(参考訳): FairBatching: LLM推論のためのフェアネスを考慮したバッチ生成
- Authors: Hongtao Lyu, Boyue Liu, Mingyu Wu, Haibo Chen,
- Abstract要約: この研究は、この不公平の根本原因を特定する:時-時-時-(TBT)の非単調性
本稿では,タスクの充足と復号のリソース割り当てを公平に行う新しいシステムであるFair the Prioritizingを提案する。
- 参考スコア(独自算出の注目度): 2.0917668141703207
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM) inference systems face a fundamental tension between minimizing Time-to-First-Token (TTFT) latency for new requests and maintaining a high, steady token generation rate (low Time-Per-Output-Token, or TPOT) for ongoing requests. Existing stall-free batching schedulers proposed by Sarathi, while effective at preventing decode stalls, introduce significant computational unfairness. They prioritize decode tasks excessively, simultaneously leading to underutilized decode slack and unnecessary prefill queuing delays, which collectively degrade the system's overall quality of service (QoS). This work identifies the root cause of this unfairness: the non-monotonic nature of Time-Between-Tokens (TBT) as a scheduling metric and the rigid decode-prioritizing policy that fails to adapt to dynamic workload bursts. We therefore propose FairBatching, a novel LLM inference scheduler that enforces fair resource allocation between prefill and decode tasks. It features an adaptive batch capacity determination mechanism, which dynamically adjusts the computational budget to improve the GPU utilization without triggering SLO violations. Its fair and dynamic batch formation algorithm breaks away from the decode-prioritizing paradigm, allowing computation resources to be reclaimed from bursting decode tasks to serve prefill surges, achieving global fairness. Furthermore, FairBatching provides a novel load estimation method, enabling more effective coordination with upper-level schedulers. Implemented and evaluated on realistic traces, FairBatching significantly reduces TTFT tail latency by up to 2.29x while robustly maintaining TPOT SLOs, achieving overall 20.0% improvement in single-node capacity and 54.3% improvement in cluster-level capacity.
- Abstract(参考訳): 大規模言語モデル(LLM)推論システムは、新しい要求に対するTTFTレイテンシの最小化と、進行中の要求に対して高い安定したトークン生成率(低いタイム・パー・アウトプット・トークン、TPOT)を維持するという基本的な緊張関係に直面している。
サラタイが提案した既存のストールフリーバッチスケジューラは、デコードスケジューラの防止に有効であるが、計算上の不公平さを著しく引き起こす。
彼らは過度にデコードタスクを優先順位付けし、同時に未使用のデコードスラックと不要なプリフィルキューの遅延を発生させ、システム全体の品質(QoS)を低下させた。
この研究は、スケジューリング指標としてのTBT(Time-Between-Tokens)の非単調な性質と、動的ワークロードバーストへの適応に失敗する厳格な復号化ポリシーの根本原因を特定する。
そこで本研究では,FairBatchingを提案する。これは,プリフィルタスクとデコードタスクの間のリソース割り当てを公平に行う,新しいLLM推論スケジューラである。
適応的なバッチ容量決定機構を備えており、計算予算を動的に調整し、SLO違反を引き起こすことなくGPU使用率を改善する。
フェアでダイナミックなバッチ生成アルゴリズムは、デコード優先のパラダイムから切り離され、計算リソースをバーストするデコードタスクから再利用して、事前のサージに役立て、グローバルなフェアネスを達成することができる。
さらに、FairBatchingは、上層階スケジューラとのより効果的な協調を可能にする、新しい負荷推定方法を提供する。
FairBatchingは現実的なトレースに基づいて実装され評価され、TTFTのテール遅延を最大2.29倍まで低減し、TPOT SLOを堅牢に維持し、単一ノードの容量が20.0%、クラスタレベルの容量が54.3%向上した。
関連論文リスト
- Slim Scheduler: A Runtime-Aware RL and Scheduler System for Efficient CNN Inference [0.0]
Slim Schedulerは、PPO(Proximal Policy Optimization)強化学習ポリシーとアルゴリズム的、欲求的なスケジューラを統合し、スクリム可能なモデルに対する分散推論を調整する。
この階層的な設計は、検索空間の複雑さを減らし、特定のハードウェアへの過度な適合を緩和し、効率とスループットのバランスをとる。
論文 参考訳(メタデータ) (2025-10-10T05:44:05Z) - From Tokens to Layers: Redefining Stall-Free Scheduling for LLM Serving with Layered Prefill [8.04085002818041]
大規模言語モデル(LLM)は、TTFT(Time-to-first-token)とTBT(Time-between-token)の両方に対して、厳密なサービスレベル目標を満たす必要がある。
現代のサービスシステムでは、チャンクプリフィルのようなストールフリーなスケジューリング技術を採用している。
本稿では,トランスフォーマ層群を主スケジューリング単位として扱う新しいスケジューリングパラダイムであるLayered Prefillを提案する。
論文 参考訳(メタデータ) (2025-10-09T10:41:35Z) - Intra-request branch orchestration for efficient LLM reasoning [52.68946975865865]
大規模言語モデル(LLM)は、複雑なタスクの正確性を改善するために、推論時推論アルゴリズムにますます依存している。
それまでの作業は、トークンの使用を減らすことを中心に、多くの場合、正確さを犠牲にしつつ、他のレイテンシ要因を見越すことに重点を置いていた。
本稿では,LLMサービスシステムであるDUCHESSについて,予測によって導かれるリクエスト内ブランチオーケストレーションにより,精度を犠牲にすることなく,コストとレイテンシを低減できるシステムを提案する。
論文 参考訳(メタデータ) (2025-09-29T15:52:08Z) - End-to-End On-Device Quantization-Aware Training for LLMs at Inference Cost [53.25965863436039]
量子化対応トレーニング(QAT)は、より原則化されたソリューションを提供するが、バックプロパゲーションに依存しているため、メモリコストは禁じられている。
重み付けとアクティベーション量子化の両方をサポートするゼロオーダー最適化ベースのQATフレームワークであるZeroQATを提案する。
実験の結果、ZeroQATはPTQとQATのベースラインを一貫して上回り、メモリは大幅に削減された。
論文 参考訳(メタデータ) (2025-08-21T01:18:27Z) - CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems [62.24576366776727]
本稿では,全体の推論遅延を最小限に抑えるために,遅延を考慮したスケジューリングフレームワークを提案する。
提案手法は,ベースライン戦略と比較して,コールドスタート遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-08-15T07:49:22Z) - R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [80.104336426172]
CoT(Chain-of- Thought)は、大規模言語モデルの問題解決能力を高める。
CoTは長い自己回帰軌道のためにかなりの推論コストを発生させる。
トレーニング不要なハイブリッドデコーディングフレームワークであるR-Stitchを紹介する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - Digital Twin-Assisted Federated Learning with Blockchain in Multi-tier Computing Systems [67.14406100332671]
産業用 4.0 システムでは、リソース制約のあるエッジデバイスが頻繁にデータ通信を行う。
本稿では,デジタルツイン (DT) とフェデレーション付きデジタルツイン (FL) 方式を提案する。
提案手法の有効性を数値解析により検証した。
論文 参考訳(メタデータ) (2024-11-04T17:48:02Z) - Palantir: Towards Efficient Super Resolution for Ultra-high-definition Live Streaming [29.567573296006515]
Palantirは、きめ細かいパッチレベルのスケジューリングを備えた、最初のニューラルネットワークで強化されたUHDライブストリーミングシステムである。
Palantirは、エンドツーエンドのレイテンシの5.7%未満で、無視可能なスケジュール遅延を発生させる。
論文 参考訳(メタデータ) (2024-08-12T13:48:06Z) - Machine Learning for Fairness-Aware Load Shedding: A Real-Time Solution via Identifying Binding Constraints [1.3345486884341395]
最適化に基づく負荷層問題に対するミリ秒単位の計算を可能にする効率的な機械学習アルゴリズムを提案する。
3バス玩具の例と現実的なRTS-GMLCシステムの両方に関する数値的研究により,提案アルゴリズムの有効性と有効性を示した。
論文 参考訳(メタデータ) (2024-07-25T08:47:11Z) - Client Orchestration and Cost-Efficient Joint Optimization for
NOMA-Enabled Hierarchical Federated Learning [55.49099125128281]
半同期クラウドモデルアグリゲーションの下で非直交多重アクセス(NOMA)を実現するHFLシステムを提案する。
提案手法は,HFLの性能改善と総コスト削減に関するベンチマークよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-11-03T13:34:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。