論文の概要: PROTEUS: SLA-Aware Routing via Lagrangian RL for Multi-LLM Serving Systems
- arxiv url: http://arxiv.org/abs/2601.19402v3
- Date: Tue, 03 Feb 2026 09:00:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:14.890902
- Title: PROTEUS: SLA-Aware Routing via Lagrangian RL for Multi-LLM Serving Systems
- Title(参考訳): PROTEUS: マルチLLMサービングシステムのためのラグランジアンRLによるSLA対応ルーティング
- Authors: Amit Singh Bhatti, Vishal Vaddina, Dagnachew Birru,
- Abstract要約: 本稿では,タウをランタイム入力として正確にターゲットとするルータ PROTEUS を提案する。
単一の訓練されたモデルは、トレーニングをせずに完全な精度のスペクトルを提供する。
RouterBench(11モデル,405Kクエリ)とSPROUT(14モデル,45Kクエリ)について検討する。
- 参考スコア(独自算出の注目度): 1.0978496459260902
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Production LLM deployments serve diverse workloads where cost and quality requirements vary by customer tier, time of day, and query criticality. Model serving systems accept latency SLOs directly. LLM routers do not. They force operators to tune parameters offline and guess what accuracy might result. The relationship between parameters and outcomes is indirect, non-monotonic, and dataset-dependent. Operators need to specify accuracy targets, not infer them from opaque settings. We present PROTEUS (Polymorphic Router for Operational Target Enforcement with Unified SLA), a router that accepts accuracy targets tau as runtime input. PROTEUS uses Lagrangian dual control. A learned dual variable lambda tracks constraint violations during training and conditions the policy network. This lets the router translate specified tau values into routing decisions that satisfy them. A single trained model serves the full accuracy spectrum without retraining.We evaluate on RouterBench (11 models, 405K queries) and SPROUT (14 models, 45K queries). PROTEUS achieves consistent floor compliance where accuracy meets or exceeds tau. The target-response correlation reaches 0.97 to 0.98. The closest baseline, OmniRouter, meets floors only 22% of the time despite also using Lagrangian optimization. PROTEUS operates across tau in [0.85, 0.95] from a single model. On RouterBench it achieves 90.1% accuracy, within 1.3% of oracle. On SPROUT it achieves 94.0% accuracy, within 4.6% of oracle. Cost savings reach 89.8% versus the best fixed model.
- Abstract(参考訳): 運用LLMデプロイメントは、コストと品質要件が顧客層、日時、クエリクリティカルによって異なる多様なワークロードを提供します。
モデルサービスシステムは遅延SLOを直接受け入れる。
LLMルータは使用しない。
彼らは演算子にパラメータをオフラインに調整させ、どの精度が生じるかを推測させる。
パラメータと結果の関係は間接的、非単調的、データセット依存である。
オペレータは不透明な設定から推測するのではなく、精度の高いターゲットを指定する必要がある。
ProTEUS(Polymorphic Router for Operational Target Enforcement with Unified SLA)を提案する。
PROTEUSはラグランジアン二重制御を使用する。
学習されたデュアル変数ラムダは、トレーニング中の制約違反とポリシネットワークの条件を追跡する。
これにより、ルータは指定されたtau値を、それらを満たすルーティング決定に変換することができる。
1つのトレーニングされたモデルは、リトレーニングなしで完全な精度のスペクトルを提供する。我々は、RouterBench(11モデル、405Kクエリ)とSPROUT(14モデル、45Kクエリ)を評価する。
PROTEUSは、精度が Tau を超えるような一貫したフロアコンプライアンスを実現する。
目標応答相関は0.97〜0.98に達する。
最寄りのベースラインであるOmniRouterは、ラグランジアン最適化を使用しているにもかかわらず、フロアの22%しか会っていない。
PROTEUSは1つのモデルから[0.85, 0.95]のタウを横断して動作する。
RouterBenchの精度は90.1%で、オラクルの1.3%以内である。
SPROUTでは94.0%の精度で、オラクルの4.6%以内である。
コスト削減は最高の固定モデルと比べて89.8%に達する。
関連論文リスト
- Dr.LLM: Dynamic Layer Routing in LLMs [55.11953638340419]
Dr.LLMは、事前訓練されたモデルに軽量な層ごとのルータを装備し、ブロックをスキップ、実行、繰り返すように決定する、適合性のあるフレームワークである。
ARC(logic)とDART(math)では、Dr.LLMは平均で5つのレイヤを保存しながら、最大3.4%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-10-14T17:51:26Z) - ProxRouter: Proximity-Weighted LLM Query Routing for Improved Robustness to Outliers [14.831117443453165]
大規模言語モデル(LLM)クエリルータは、現代のAIプラットフォームにとって極めて重要である。
非パラメトリックルータにおけるバイアスと分散のバランスをとるために指数関数的に傾いたアグリゲーション機構を応用したProxを提案する。
論文 参考訳(メタデータ) (2025-10-10T20:28:14Z) - Learning to Route LLMs from Bandit Feedback: One Policy, Many Trade-offs [69.2486294522259]
BaRPはBandit Routing-feedback with Preferencesアプローチであり、デプロイと同じ部分フィードバック制限の下でトレーニングされる。
提案手法は,学習中のオンラインフィードバック設定をシミュレートし,新たなプロンプトに適応する。
論文 参考訳(メタデータ) (2025-10-08T18:24:59Z) - From Score Distributions to Balance: Plug-and-Play Mixture-of-Experts Routing [52.01745035243826]
Mixture-of-Experts (MoE)モデルは、各トークンを専門家のサブセットにルーティングすることで、パラメータキャパシティをスケールすることができる。
条件付きルーティングは、推論メモリの負荷をシフトし、デバイスごとに専門家の数を制限する。
本稿では,精度を保ちながら負荷のバランスをとるプラグイン・アンド・プレイ型推論時ルーティングアルゴリズムLASERを提案する。
論文 参考訳(メタデータ) (2025-09-29T16:29:17Z) - RadialRouter: Structured Representation for Efficient and Robust Large Language Models Routing [27.481573948464987]
Radialは、大規模言語モデルのルーティングのための新しいフレームワークである。
RadialFormerという名前のラジアル構造を持つ軽量なTransformerベースのバックボーンを使用して、クエリとLLMの関係を明確にする。
バランシングとコストファーストのシナリオでは、既存のルーティングメソッドの9.2%と5.8%を大きく上回っている。
論文 参考訳(メタデータ) (2025-06-04T12:16:41Z) - Guarded Query Routing for Large Language Models [2.2349474636722317]
ガードドクエリルーティング問題について検討し、最初にガードドクエリルーティングベンチマーク(GQR-Bench)を導入する。
その結果,ドメイン外検出能力が向上したWideMLPでは,精度(88%)と速度(4ms)のトレードオフが最良であることがわかった。
本研究は,LLMを(保護された)クエリルーティングに自動的に依存させることに挑戦し,実用的なアプリケーションに具体的なレコメンデーションを提供する。
論文 参考訳(メタデータ) (2025-05-20T15:46:59Z) - Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding [74.31981011985681]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも複数のステップを必要とする複雑な推論タスクに苦戦している。
LaTRO(LaTent Reasoning Optimization)は、潜在分布からのサンプリングとして推論を定式化するためのフレームワークである。
複数のモデルアーキテクチャを用いて、GSM8KおよびARC-Challengeデータセットの実験を通してLaTROを検証する。
論文 参考訳(メタデータ) (2024-11-06T22:02:30Z) - Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch [72.97553348776425]
スーパーバイザード・ファインチューニング (SFT) LMの能力に影響を与えることなく、ほとんどのデルタパラメータを設定するためにDAREを導入する。
次に、DAREを汎用プラグインとして使用し、複数のSFTモデルのデルタパラメータを分散し、それらを単一のモデルにマージする。
また、DAREを使用して、Open Leaderboardで70億のパラメータを持つモデルの中で、第1位にランクインした統合LMを作成します。
論文 参考訳(メタデータ) (2023-11-06T13:43:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。