Fugu-MT 論文翻訳(概要): Adaptive Request Scheduling for CodeLLM Serving with SLA Guarantees

論文の概要: Adaptive Request Scheduling for CodeLLM Serving with SLA Guarantees

arxiv url: http://arxiv.org/abs/2506.19677v2
Date: Wed, 25 Jun 2025 16:13:14 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-26 12:28:29.381567
Title: Adaptive Request Scheduling for CodeLLM Serving with SLA Guarantees
Title（参考訳）: SLA保証付きCodeLLMのアダプティブリクエストスケジューリング
Authors: Shi Chang, Boyuan Chen, Kishanthan Thangarajah, Hanan Lutfiyya, Ahmed E. Hassan,
Abstract要約: 既存の大規模言語モデル(CodeMs)は、現代のソフトウェア開発にますます統合されています。しかし、セルフホスト環境は、リソース制約のあるサービス環境において重要な課題である。要求毎のSLAの実現可能性と意思決定をリアルタイムで予測する動的戦略であるSABERを提案する。以上の結果から,SLAを意識した適応スケジューリングが,堅牢で高性能なCodeLL提供の鍵となることを示す。
参考スコア（独自算出の注目度）: 6.110847503516972
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Code Large Language Models (CodeLLMs) are increasingly integrated into modern software development workflows, yet efficiently serving them in resource-constrained, self-hosted environments remains a significant challenge. Existing LLM serving systems employs Continuous Batching for throughput improvement. However, they rely on static batch size configurations that cannot adapt to fluctuating request rates or heterogeneous workloads, leading to frequent SLA (Service Level Agreement) violations and unstable performance. In this study, We propose SABER, a dynamic batching strategy that predicts per-request SLA feasibility and adjusts decisions in real time. SABER improves goodput by up to 26% over the best static configurations and reduces latency variability by up to 45%, all without manual tuning or service restarts. Our results demonstrate that SLA-aware, adaptive scheduling is key to robust, high-performance CodeLLM serving.
Abstract（参考訳）: Code Large Language Models (CodeLLMs)は、現代のソフトウェア開発ワークフローにますます統合されてきていますが、リソースに制約のある自己ホスト型環境でそれらを効率的に提供しています。既存のLLMサービスシステムでは、スループットの改善にContinuous Batchingを採用している。しかし、それらは、変動する要求率や不均一なワークロードに適応できない静的なバッチサイズ設定に依存しており、頻繁なSLA違反と不安定なパフォーマンスにつながります。本研究では,要求毎のSLAの実現可能性を予測し,意思決定をリアルタイムで調整する動的バッチ化戦略であるSABERを提案する。 SABERは最高の静的設定に対して最大26%改善し、手動チューニングやサービスの再起動なしに、レイテンシの可変性を最大45%削減する。以上の結果から,SLAを意識した適応スケジューリングが,堅牢で高性能なCodeLLM提供の鍵となることが示された。

関連論文リスト

SLA-MORL: SLA-Aware Multi-Objective Reinforcement Learning for HPC Resource Optimization [0.9026828778470117]
本稿では、ユーザの好みに基づいてリソースをインテリジェントに割り当てる適応型多目的強化学習フレームワークSLA-MORLを提案する。 SLA-MORLは、納期クリティカルなジョブのトレーニング時間を67.2%削減し、予算制約のあるワークロードのコストを68.8%削減し、静的ベースラインと比較してSLA全体の73.4%改善したことを示す。
論文参考訳（メタデータ） (2025-08-05T14:37:24Z)
Win Fast or Lose Slow: Balancing Speed and Accuracy in Latency-Sensitive Decisions of LLMs [48.653022530291494]
大規模言語モデル(LLM)は、様々な推論や生成タスクで顕著なパフォーマンスを示している。この研究は、リアルタイム意思決定タスクにおいて、このレイテンシ品質のトレードオフに関する最初の体系的な研究を示す。実時間要求に基づいてモデルサイズと量子化レベルを動的に選択する適応型フレームワークFPXを提案する。
論文参考訳（メタデータ） (2025-05-26T04:03:48Z)
Efficient and Workload-Aware LLM Serving via Runtime Layer Swapping and KV Cache Resizing [15.386746669464964]
MorphServeは、形態的適応に基づくワークロード対応LLMサービスフレームワークである。平均的なSLO違反を92.45パーセント削減し、P95 TTFTレイテンシをフル精度サービスと比較して2.2x-3.9倍改善する。
論文参考訳（メタデータ） (2025-05-24T06:12:31Z)
DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文参考訳（メタデータ） (2025-03-18T14:02:59Z)
SpecServe: Efficient and SLO-Aware Large Language Model Serving with Adaptive Speculative Decoding [18.45994543035372]
投機的復号化は、大規模言語モデル推論を加速するための説得力のある手法として登場した。既存の投機的復号化ソリューションは、様々なワークロードやシステム環境に適応できないことが多い。本稿では,リアルタイム要求負荷に応じて投機戦略を動的に調整する,効率的なLLM推論システムであるSpecServeを紹介する。
論文参考訳（メタデータ） (2025-03-07T02:27:51Z)
LADs: Leveraging LLMs for AI-Driven DevOps [3.240228178267042]
LADは、どの条件の下で最適化が機能するかを詳細に分析することで、構成最適化の原則化されたアプローチである。 Retrieval-Augmented Generation、Few-Shot Learning、Chain-of-Thought、Feedback-Based Prompt Chainingを活用することで、LADは正確な構成を生成し、デプロイメント障害から反復的に洗練されたシステム設定を学ぶ。我々の発見は、パフォーマンス、コスト、スケーラビリティのトレードオフに関する重要な洞察を明らかにし、実践者が異なるデプロイメントシナリオに対して適切な戦略を決定するのに役立つ。
論文参考訳（メタデータ） (2025-02-28T08:12:08Z)
Dynamic Noise Preference Optimization for LLM Self-Improvement via Synthetic Data [51.62162460809116]
我々は、イテレーション間で一貫した改善を保証するために、動的ノイズ優先最適化(DNPO)を導入します。 Zephyr-7Bでの実験では、DNPOは既存の手法を一貫して上回り、平均性能は2.6%向上した。 DNPOは、GPT-4評価のベースラインに比べて29.4%のウィンロス率差で、モデル生成データの品質が大幅に向上したことを示している。
論文参考訳（メタデータ） (2025-02-08T01:20:09Z)
Confident or Seek Stronger: Exploring Uncertainty-Based On-device LLM Routing From Benchmarking to Generalization [61.02719787737867]
大規模言語モデル(LLM)はますますエッジデバイスにデプロイされ、民主化されている。 1つの有望な解決策は不確実性に基づくSLMルーティングであり、SLM上での低信頼応答が発生すると、高い要求を強いLCMにオフロードする。我々は1500以上の設定でSLMからLLMへの不確実性駆動型ルーティング戦略のベンチマークと一般化を包括的に調査する。
論文参考訳（メタデータ） (2025-02-06T18:59:11Z)
AdaServe: Accelerating Multi-SLO LLM Serving with SLO-Customized Speculative Decoding [12.106234303559571]
本稿では,SLO-customized Speculative Decodingによる効率的なマルチSLOサービスを支援するために設計された,最初のサービスシステムであるAdaServeを紹介する。 AdaServeは制約付き最適化問題として機能するマルチSLOを定式化し、ハードウェア対応アルゴリズムを導入した。システムスループットを最大化しつつ、復号速度のきめ細かい制御を可能にする推測-検証パイプラインを備えている。
論文参考訳（メタデータ） (2025-01-21T14:15:01Z)
SPEQ: Offline Stabilization Phases for Efficient Q-Learning in High Update-To-Data Ratio Reinforcement Learning [51.10866035483686]
強化学習(RL)における高アップデート・トゥ・データ(UTD)比のアルゴリズムは、サンプル効率を改善するが、高い計算コストを伴い、現実世界のスケーラビリティを制限している。我々は、低UTDオンライントレーニングと周期的オフライン安定化フェーズを組み合わせたRLアルゴリズムである、効率的なQ-Learningのためのオフライン安定化フェーズ(SPEQ)を提案する。これらのフェーズでは、Q-関数は固定されたリプレイバッファ上で高いUTD比で微調整され、サブ最適データの冗長な更新が削減される。
論文参考訳（メタデータ） (2025-01-15T09:04:19Z)
Federated Learning of Large Language Models with Parameter-Efficient Prompt Tuning and Adaptive Optimization [71.87335804334616]
フェデレートラーニング(FL)は、分散データとの協調モデルトレーニングを可能にする、有望なパラダイムである。 LLM(Large Language Models)のトレーニングプロセスは一般的に重要なパラメータの更新を引き起こす。本稿では,性能と効率を同時に向上する効率的な部分的プロンプトチューニング手法を提案する。
論文参考訳（メタデータ） (2023-10-23T16:37:59Z)
Reconciling High Accuracy, Cost-Efficiency, and Low Latency of Inference Serving Systems [0.0]
InfAdapterは、レイテンシSLOを満たすために、リソース割り当てでMLモデルの一連の変種を積極的に選択する。 SLO違反を減らし、業界で人気のオートスケーラと比較して、それぞれ65%と33%に値下げする。
論文参考訳（メタデータ） (2023-04-21T11:19:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。