論文の概要: ParetoBandit: Budget-Paced Adaptive Routing for Non-Stationary LLM Serving
- arxiv url: http://arxiv.org/abs/2604.00136v1
- Date: Tue, 31 Mar 2026 18:41:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.682808
- Title: ParetoBandit: Budget-Paced Adaptive Routing for Non-Stationary LLM Serving
- Title(参考訳): ParetoBandit:Non-Stationary LLMServingのための予算適用適応ルーティング
- Authors: Annette Taberner-Miller,
- Abstract要約: LLMは、しばしば530倍のコスト範囲にまたがるマルチモデルポートフォリオに依存している。
プロバイダは価格を見直し、モデルの品質は静かに回復し、新しいモデルはダウンタイムなしで統合する必要がある。
本稿では,費用対効果を考慮した適応ルータを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Production LLM serving often relies on multi-model portfolios spanning a ~530x cost range, where routing decisions trade off quality against cost. This trade-off is non-stationary: providers revise pricing, model quality can regress silently, and new models must be integrated without downtime. We present ParetoBandit, an open-source adaptive router built on cost-aware contextual bandits that is the first to simultaneously enforce dollar-denominated budgets, adapt online to such shifts, and onboard new models at runtime. ParetoBandit closes these gaps through three mechanisms. An online primal-dual budget pacer enforces a per-request cost ceiling over an open-ended stream, replacing offline penalty tuning with closed-loop control. Geometric forgetting on sufficient statistics enables rapid adaptation to price and quality shifts while bootstrapping from offline priors. A hot-swap registry lets operators add or remove models at runtime, with a brief forced-exploration phase for each newcomer, after which UCB selection discovers its quality-cost niche from live traffic alone. We evaluate ParetoBandit across four deployment scenarios on 1,824 prompts routed through a three-model portfolio. Across seven budget ceilings, mean per-request cost never exceeds the target by more than 0.4%. When conditions shift, the system adapts: an order-of-magnitude price cut on the costliest model yields up to +0.071 quality lift, and a silent quality regression is detected and rerouted within budget. A cold-started model reaches meaningful adoption within ~142 steps without breaching the cost ceiling. The router discriminates rather than blindly adopting: expensive models are budget-gated and low-quality models rejected after bounded exploration. End-to-end routing latency is 9.8ms on CPU -- less than 0.4% of typical inference time -- with the routing decision itself taking just 22.5us.
- Abstract(参考訳): プロダクションLLMは、しばしば530倍のコスト範囲にまたがるマルチモデルポートフォリオに依存し、ルーティング決定はコストに対して品質をトレードオフする。
プロバイダは価格を見直し、モデルの品質は静かに回復し、新しいモデルはダウンタイムなしで統合する必要がある。
ParetoBanditというオープンソースの適応ルータは、コストを意識したコンテキスト帯の上に構築され、同時にドル建ての予算を強制し、そのようなシフトにオンラインで適応し、実行時に新しいモデルをオンボードする。
ParetoBanditはこのギャップを3つのメカニズムで埋める。
オンラインの原始的予算ペースメーカーは、オフラインのペナルティチューニングをクローズドループ制御に置き換え、要求ごとのコスト天井をオープンエンドストリームに強制する。
十分な統計量に関する幾何学的忘れは、オフラインの事前からブートストラップしながら、価格と品質の急激な変更を可能にする。
ホットスワップレジストリは、オペレーターが各新参者に対して短時間の強制探索フェーズで、実行時にモデルを追加または削除することを可能にする。
私たちはParetoBanditを,3モデルポートフォリオを経由した1,824のプロンプトで,4つのデプロイメントシナリオで評価した。
7つの予算の天井を越えれば、要求毎のコストが0.4%を超えることはない。
コストのかかるモデルに対するオーダー・オブ・マグニチュードの値下げは、条件が変化すると+0.071品質上昇となり、予算内でサイレント品質の劣化を検出して再帰する。
コールドスタートされたモデルは、コスト天井を破ることなく、約142ステップで有意義な採用に達する。
高価なモデルは予算化されており、境界探索後に低品質のモデルが拒否される。
エンドツーエンドのルーティングレイテンシはCPU上で9.8msであり、典型的な推論時間の0.4%未満である。
関連論文リスト
- RouteMoA: Dynamic Routing without Pre-Inference Boosts Efficient Mixture-of-Agents [91.0187958746262]
RouteMoAは動的ルーティングを備えた効率的な混合エージェントフレームワークである。
軽量スコアラを使用して、クエリから粗い粒度のパフォーマンスを予測することで、初期スクリーニングを行う。
既存のモデル出力に基づいて、軽量な自己評価とクロスアセスメントによってこれらのスコアを洗練し、追加の推論なしで後部修正を提供する。
論文 参考訳(メタデータ) (2026-01-26T04:22:22Z) - e1: Learning Adaptive Control of Reasoning Effort [88.51897900019485]
AIモデルの思考予算の増大は、精度を大幅に向上させるが、すべての質問が同じ量の推論を保証しているわけではない。
ユーザは、アウトプットの品質を、レイテンシやコストに対してどのように評価するかによって、さまざまな理由付けの労力を割り当てる傾向があります。
本稿では,ユーザが指定したトークン数を用いてモデルを学習する自己適応型強化学習手法であるAdaptive Effort Controlを提案する。
論文 参考訳(メタデータ) (2025-10-30T23:12:21Z) - Learning to Route LLMs from Bandit Feedback: One Policy, Many Trade-offs [69.2486294522259]
BaRPはBandit Routing-feedback with Preferencesアプローチであり、デプロイと同じ部分フィードバック制限の下でトレーニングされる。
提案手法は,学習中のオンラインフィードバック設定をシミュレートし,新たなプロンプトに適応する。
論文 参考訳(メタデータ) (2025-10-08T18:24:59Z) - IPR: Intelligent Prompt Routing with User-Controlled Quality-Cost Trade-offs [19.658944117970137]
textbfIngent textbfPrompt textbfRouting frameworkは、予測応答品質とユーザ指定許容レベルに基づいて最適なモデルを動的に選択する。
IPRは43.9%のコスト削減を実現し、クロード家の最強モデルに匹敵する品質を維持している。
論文 参考訳(メタデータ) (2025-09-08T01:46:27Z) - Cost-Aware Contrastive Routing for LLMs [57.30288453580456]
我々は、プロンプトとモデルの両方を共有埋め込み空間にマッピングする軽量フレームワークであるコストスペクトルコントラストルーティング(CSCR)を紹介します。
CSCRはベースラインを一貫して上回り、精度とコストのトレードオフを最大25%改善した。
論文 参考訳(メタデータ) (2025-08-17T20:16:44Z) - Keeping Up with the Models: Online Deployment and Routing of LLMs at Scale [6.911384287238722]
次段のモデルに対して最大$M_max$のモデルを選択する階層的アルゴリズムを,報酬高信頼と低コスト低信頼境界を用いて提案する。
ここで,StageRoute が次数$T2/3$ の後悔を達成し,一致した下界を提供し,ほぼ最適性を確立することを証明した。
論文 参考訳(メタデータ) (2025-06-08T12:25:26Z) - On Optimal Caching and Model Multiplexing for Large Model Inference [66.50550915522551]
大きな言語モデル(LLM)や他の大きな基盤モデルは注目すべき成功を収めているが、そのサイズは既存のリソース消費とレイテンシーの問題を悪化させている。
キャッシュを用いて以前のクエリを格納し、モデルの多重化を学習し、クエリ処理のためのモデルの集合から選択する。
論文 参考訳(メタデータ) (2023-06-03T05:01:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。