論文の概要: SLO-Guard: Crash-Aware, Budget-Consistent Autotuning for SLO-Constrained LLM Serving
- arxiv url: http://arxiv.org/abs/2604.17627v1
- Date: Sun, 19 Apr 2026 21:48:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.609978
- Title: SLO-Guard: Crash-Aware, Budget-Consistent Autotuning for SLO-Constrained LLM Serving
- Title(参考訳): SLO-Guard: SLO-Constrained LLMサービングのためのクラッシュアウェア、バジェット一貫性自動調整
- Authors: Christian Lysenstøen,
- Abstract要約: 我々は、クラッシュを第一級の観察として扱う、vLLMサービス用のクラッシュ対応オートチューニングであるSLOGuardを紹介する。
SLOGuard Qwen2-1.5B を NVIDIA A100 40GB 上で vLLM 0.19 で提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Serving large language models under latency service-level objectives (SLOs) is a configuration-heavy systems problem with an unusually failure-prone search space: many plausible configurations crash outright or miss user-visible latency targets, and standard black-box optimizers treat these failures as wasted trials. We present SLO-Guard, a crash-aware autotuner for vLLM serving that treats crashes as first-class observations. SLO-Guard combines a feasible-first Thermal Budget Annealing (TBA) exploration phase with a warm-started Tree-structured Parzen Estimator (TPE) exploitation phase; the handoff replays all exploration history, including crashes encoded as extreme constraint violations. We additionally contribute a configuration-repair pass, a GPU-aware KV-cache memory guard, and a four-category crash taxonomy. We evaluate SLO-Guard on Qwen2-1.5B served with vLLM 0.19 on an NVIDIA A100 40GB. Across a pre-specified five-seed study, both SLO-Guard and uniform random search attain 75/75 feasibility with zero crashes under the corrected concurrent harness, and are statistically tied on best-achieved latency (Mann-Whitney two-sided p=0.84). SLO-Guard's advantage is in budget consistency: more trials in the fast-serving regime (10.20 vs. 7.40 out of 15; one-sided p=0.014) and higher post-handoff consistency (0.876 vs. 0.539; p=0.010). Under concurrent load, SLO-Guard's cross-seed standard deviation on best latency is 4.4x tighter than random search's (2.26 ms vs. 10.00 ms). A harness-replication analysis shows that the consistency findings survive an independent sequential-dispatch measurement condition. The central claim is not that SLO-Guard finds a better final configuration, but that it spends a fixed tuning budget more predictably once the fast regime has been found.
- Abstract(参考訳): レイテンシサービスレベルの目的(SLO)の下で大きな言語モデルを実行することは、異常にエラーを起こしやすい検索スペースを持つ、構成が重いシステム問題である。
SLO-Guardは、クラッシュをファーストクラスの観察として扱う、vLLMサービス用のクラッシュ対応オートチューニングツールである。
SLO-Guardは、実現可能な第1熱予算アナーリング(TBA)探査フェーズと、暖かく開始されたツリー構造されたパーゼンエスペクタ(TPE)攻撃フェーズを組み合わせ、ハンドオフは、極端な制約違反として符号化されたクラッシュを含むすべての探査履歴を再生する。
また,コンフィグレーションリペアパス,GPU対応のKVキャッシュメモリガード,および4カテゴリのクラッシュ分類に寄与する。
SLO-Guard on Qwen2-1.5B served with vLLM 0.19 on a NVIDIA A100 40GB。
SLO-Guardと均一なランダム検索の両方が、修正されたコンカレントハーネスの下でゼロのクラッシュで75/75の実現が可能であり、最も達成されたレイテンシに統計的に結びついている(Mann-Whitney two-sided p=0.84)。
SLO-Guardの利点は予算の整合性にある: 高速サービス体制(15の10.20対7.40対一方のp=0.014;一方のp=0.010;一方のp=0.010;一方のp=0.876対0.539;p=0.010)のさらなる試行。
並列負荷下では、SLO-Guardのクロスシード標準偏差は、ランダム検索(2.26ms vs. 10.00ms)よりも4.4倍厳密である。
ハーネス複製解析により, 独立な逐次的ディスパッチ測定条件を維持可能であることが示された。
中心的な主張は、SLO-Guardはより優れた最終構成を見出すのではなく、高速なレシエーションが見つかるとより予測可能な調整予算を費やすというものである。
関連論文リスト
- Asymmetric-Loss-Guided Hybrid CNN-BiLSTM-Attention Model for Industrial RUL Prediction with Interpretable Failure Heatmaps [0.0]
本研究では,Twin-Stage One-dimensional Convolutional Neural Networks (1D-CNN),Bidirectional Long Short-Term Memory (BiLSTM) ネットワーク,Bahdanau Additive Attention 機構を組み合わせたハイブリッドアーキテクチャを提案する。
100基のテストエンジンの実験は17.52サイクルのルート平均正方形誤差(RMSE)と922.06のNASA Sスコアを達成した。
論文 参考訳(メタデータ) (2026-04-15T04:25:38Z) - SOAR: Self-Correction for Optimal Alignment and Refinement in Diffusion Models [48.335262141752715]
拡散モデルのための後トレーニングパイプラインには、キュレートされたデータに対する教師付き微調整(SFT)と報酬モデルによる強化学習(RL)の2段階がある。
本稿では,このギャップを埋めるバイアス補正ポストトレーニング法であるSOAR(Self-Correction for Optimal Alignment and Refinement)を提案する。
オンライン政治であり、報酬なしであり、クレジット割り当ての問題なく、時間ごとの密集した監督を提供する。
論文 参考訳(メタデータ) (2026-04-14T11:45:15Z) - One-for-All: A Lightweight Stabilized and Parameter-Efficient Pre-trained LLM for Time Series Forecasting [4.364999214109123]
One-for-Allは、時系列分析のためにトレーニング済みの大規模言語モデルを適用するためのフレームワークである。
rsLoRAは、低いランクでの証明可能な勾配安定性を可能にする数学的に基底的なランク安定化機構を導入している。
One-for-Allは最先端の効率と精度のトレードオフを達成する。
論文 参考訳(メタデータ) (2026-03-31T13:54:43Z) - LLM Readiness Harness: Evaluation, Observability, and CI Gates for LLM/RAG Applications [51.56484100374058]
評価をデプロイメント決定ワークフローに変換するLLMおよびRAGアプリケーションのための準備性ハーネスを提案する。
このシステムは、最小限のAPI契約の下で、自動ベンチマーク、OpenTelemetryオブザーバビリティ、CI品質ゲートを組み合わせる。
チケットルーティングとBEIRタスクのハーネスを、完全なAzureマトリックスカバレッジで評価する。
論文 参考訳(メタデータ) (2026-03-28T18:03:32Z) - SpectralGuard: Detecting Memory Collapse Attacks in State Space Models [0.0]
Mambaのような状態空間モデル(SSM)は、入力依存の繰り返しによって線形時間シーケンス処理を実現する。
離散化遷移作用素のスペクトル半径rho(A-bar)が有効メモリ水平線を支配していることを示す。
我々は,任意の出力のみの防御に対して,スペクトル崩壊と回避検出を同時に誘発する対向入力が存在することを示すEvasion Existence理論を証明した。
論文 参考訳(メタデータ) (2026-03-12T19:52:37Z) - Trajectory Guard -- A Lightweight, Sequence-Aware Model for Real-Time Anomaly Detection in Agentic AI [0.0]
トラジェクトリガードはシームズ・リカレント・オートエンコーダであり、コントラスト学習によるタスク・トラジェクトリアライメントと、再構成によるシーケンシャル・アライメントを共同で学習するハイブリッド・ロス機能を備えている。
32ミリ秒のレイテンシで、当社のアプローチは LLM Judge のベースラインよりも17-27倍高速で動作し、実運用環境におけるリアルタイムの安全性検証を可能にします。
論文 参考訳(メタデータ) (2026-01-02T00:27:11Z) - On GRPO Collapse in Search-R1: The Lazy Likelihood-Displacement Death Spiral [59.14787085809595]
この障害を引き起こす中核的なメカニズムとしてLazy Likelihood Displacement(LLD)を同定する。
LDDは早期に出現し、自己強化性LDDデススパイラル(LDD Death Spiral)を引き起こす。
本稿では,GRPO のための軽量な確率保存正則化 LLDS を提案する。
論文 参考訳(メタデータ) (2025-12-03T19:41:15Z) - Dynamic Low-Rank Sparse Adaptation for Large Language Models [54.1231638555233]
Low-rank Sparse Adaptation (LoSA)は、低ランク適応をsparse LLM sparsityにシームレスに統合する新しい手法である。
LoSAは、微調整中に対応するスパース重みに基づいてLoRA結果を動的に分散する。
LoSAは、追加の推論負荷を伴わずに、スパースLSMの有効性を数時間で効果的に向上させることができる。
論文 参考訳(メタデータ) (2025-02-20T18:37:32Z) - On the Power of Perturbation under Sampling in Solving Extensive-Form Games [56.013335390600524]
本研究では, サンプリング対象の広義ゲームにおいて, 摂動がいかにしてFTRL(Follow-the-Regularized-Leader)アルゴリズムを改良するかを検討する。
我々は、textitPerturbed FTRLアルゴリズムの統一フレームワークを提案し、PFTRL-KLとPFTRL-RKLの2つの変種について検討する。
論文 参考訳(メタデータ) (2025-01-28T00:29:38Z) - Forecasting Particle Accelerator Interruptions Using Logistic LASSO
Regression [62.997667081978825]
インターロックと呼ばれる予期せぬ粒子加速器の割り込みは、必要な安全対策にもかかわらず、突然の運用変更を引き起こす。
このような中断を予測することを目的とした,単純かつ強力なバイナリ分類モデルを提案する。
このモデルは、少なくとも絶対収縮と選択演算子によって罰せられるロジスティック回帰として定式化される。
論文 参考訳(メタデータ) (2023-03-15T23:11:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。