論文の概要: Adaptive Request Scheduling for CodeLLM Serving with SLA Guarantees
- arxiv url: http://arxiv.org/abs/2506.19677v2
- Date: Wed, 25 Jun 2025 16:13:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 12:28:29.381567
- Title: Adaptive Request Scheduling for CodeLLM Serving with SLA Guarantees
- Title(参考訳): SLA保証付きCodeLLMのアダプティブリクエストスケジューリング
- Authors: Shi Chang, Boyuan Chen, Kishanthan Thangarajah, Hanan Lutfiyya, Ahmed E. Hassan,
- Abstract要約: 既存の大規模言語モデル(CodeMs)は、現代のソフトウェア開発にますます統合されています。
しかし、セルフホスト環境は、リソース制約のあるサービス環境において重要な課題である。
要求毎のSLAの実現可能性と意思決定をリアルタイムで予測する動的戦略であるSABERを提案する。
以上の結果から,SLAを意識した適応スケジューリングが,堅牢で高性能なCodeLL提供の鍵となることを示す。
- 参考スコア(独自算出の注目度): 6.110847503516972
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code Large Language Models (CodeLLMs) are increasingly integrated into modern software development workflows, yet efficiently serving them in resource-constrained, self-hosted environments remains a significant challenge. Existing LLM serving systems employs Continuous Batching for throughput improvement. However, they rely on static batch size configurations that cannot adapt to fluctuating request rates or heterogeneous workloads, leading to frequent SLA (Service Level Agreement) violations and unstable performance. In this study, We propose SABER, a dynamic batching strategy that predicts per-request SLA feasibility and adjusts decisions in real time. SABER improves goodput by up to 26% over the best static configurations and reduces latency variability by up to 45%, all without manual tuning or service restarts. Our results demonstrate that SLA-aware, adaptive scheduling is key to robust, high-performance CodeLLM serving.
- Abstract(参考訳): Code Large Language Models (CodeLLMs)は、現代のソフトウェア開発ワークフローにますます統合されてきていますが、リソースに制約のある自己ホスト型環境でそれらを効率的に提供しています。
既存のLLMサービスシステムでは、スループットの改善にContinuous Batchingを採用している。
しかし、それらは、変動する要求率や不均一なワークロードに適応できない静的なバッチサイズ設定に依存しており、頻繁なSLA違反と不安定なパフォーマンスにつながります。
本研究では,要求毎のSLAの実現可能性を予測し,意思決定をリアルタイムで調整する動的バッチ化戦略であるSABERを提案する。
SABERは最高の静的設定に対して最大26%改善し、手動チューニングやサービスの再起動なしに、レイテンシの可変性を最大45%削減する。
以上の結果から,SLAを意識した適応スケジューリングが,堅牢で高性能なCodeLLM提供の鍵となることが示された。
関連論文リスト
- Efficient and Workload-Aware LLM Serving via Runtime Layer Swapping and KV Cache Resizing [15.386746669464964]
MorphServeは、形態的適応に基づくワークロード対応LLMサービスフレームワークである。
平均的なSLO違反を92.45パーセント削減し、P95 TTFTレイテンシをフル精度サービスと比較して2.2x-3.9倍改善する。
論文 参考訳(メタデータ) (2025-05-24T06:12:31Z) - SpecServe: Efficient and SLO-Aware Large Language Model Serving with Adaptive Speculative Decoding [18.45994543035372]
投機的復号化は、大規模言語モデル推論を加速するための説得力のある手法として登場した。
既存の投機的復号化ソリューションは、様々なワークロードやシステム環境に適応できないことが多い。
本稿では,リアルタイム要求負荷に応じて投機戦略を動的に調整する,効率的なLLM推論システムであるSpecServeを紹介する。
論文 参考訳(メタデータ) (2025-03-07T02:27:51Z) - LADs: Leveraging LLMs for AI-Driven DevOps [3.240228178267042]
LADは、どの条件の下で最適化が機能するかを詳細に分析することで、構成最適化の原則化されたアプローチである。
Retrieval-Augmented Generation、Few-Shot Learning、Chain-of-Thought、Feedback-Based Prompt Chainingを活用することで、LADは正確な構成を生成し、デプロイメント障害から反復的に洗練されたシステム設定を学ぶ。
我々の発見は、パフォーマンス、コスト、スケーラビリティのトレードオフに関する重要な洞察を明らかにし、実践者が異なるデプロイメントシナリオに対して適切な戦略を決定するのに役立つ。
論文 参考訳(メタデータ) (2025-02-28T08:12:08Z) - Dynamic Noise Preference Optimization for LLM Self-Improvement via Synthetic Data [51.62162460809116]
我々は、イテレーション間で一貫した改善を保証するために、動的ノイズ優先最適化(DNPO)を導入します。
Zephyr-7Bでの実験では、DNPOは既存の手法を一貫して上回り、平均性能は2.6%向上した。
DNPOは、GPT-4評価のベースラインに比べて29.4%のウィンロス率差で、モデル生成データの品質が大幅に向上したことを示している。
論文 参考訳(メタデータ) (2025-02-08T01:20:09Z) - AdaServe: Accelerating Multi-SLO LLM Serving with SLO-Customized Speculative Decoding [12.106234303559571]
本稿では,SLO-customized Speculative Decodingによる効率的なマルチSLOサービスを支援するために設計された,最初のサービスシステムであるAdaServeを紹介する。
AdaServeは制約付き最適化問題として機能するマルチSLOを定式化し、ハードウェア対応アルゴリズムを導入した。
システムスループットを最大化しつつ、復号速度のきめ細かい制御を可能にする推測-検証パイプラインを備えている。
論文 参考訳(メタデータ) (2025-01-21T14:15:01Z) - Federated Learning of Large Language Models with Parameter-Efficient
Prompt Tuning and Adaptive Optimization [71.87335804334616]
フェデレートラーニング(FL)は、分散データとの協調モデルトレーニングを可能にする、有望なパラダイムである。
LLM(Large Language Models)のトレーニングプロセスは一般的に重要なパラメータの更新を引き起こす。
本稿では,性能と効率を同時に向上する効率的な部分的プロンプトチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T16:37:59Z) - Reconciling High Accuracy, Cost-Efficiency, and Low Latency of Inference
Serving Systems [0.0]
InfAdapterは、レイテンシSLOを満たすために、リソース割り当てでMLモデルの一連の変種を積極的に選択する。
SLO違反を減らし、業界で人気のオートスケーラと比較して、それぞれ65%と33%に値下げする。
論文 参考訳(メタデータ) (2023-04-21T11:19:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。