論文の概要: Keeping Up with the Models: Online Deployment and Routing of LLMs at Scale
- arxiv url: http://arxiv.org/abs/2506.17254v1
- Date: Sun, 08 Jun 2025 12:25:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-29 09:28:14.829195
- Title: Keeping Up with the Models: Online Deployment and Routing of LLMs at Scale
- Title(参考訳): モデルに追従する - LLMを大規模に展開するオンラインデプロイメントとルーティング
- Authors: Shaoang Li, Jian Li,
- Abstract要約: 次段のモデルに対して最大$M_max$のモデルを選択する階層的アルゴリズムを,報酬高信頼と低コスト低信頼境界を用いて提案する。
ここで,StageRoute が次数$T2/3$ の後悔を達成し,一致した下界を提供し,ほぼ最適性を確立することを証明した。
- 参考スコア(独自算出の注目度): 6.911384287238722
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid pace at which new large language models (LLMs) appear -- and older ones become obsolete -- forces LLM service providers to juggle a streaming inventory of models while respecting tight deployment capacity and per-query cost budgets. We cast the reality as an online decision problem that couples stage-wise deployment, made at fixed maintenance windows, with per-query routing among the models kept live. We introduce StageRoute, a hierarchical algorithm that (i) optimistically selects up to $M_max$ models for the next stage using reward upper-confidence and cost lower-confidence bounds, then (ii) solves a budget-constrained bandit sub-problem to route each incoming query. We prove that StageRoute achieves a regret of order $T^{2/3}$ and provide a matching lower bound, thereby establishing its near-optimality. Moreover, our experiments confirm the theory, demonstrating that StageRoute performs close to the optimum in practical settings.
- Abstract(参考訳): 新たな大規模言語モデル(LLM)が出現し、古いものが陳腐化したという急速なペースにより、LLMサービスプロバイダは、厳格なデプロイメント能力とクエリ毎のコスト予算を尊重しながら、モデルのストリーミングインベントリをジャグリングせざるを得なくなった。
私たちは、ステージワイドなデプロイメントを固定されたメンテナンスウィンドウで実施し、モデル間のクエリごとのルーティングをライブで維持する、オンライン上の決定問題として現実を論じました。
階層型アルゴリズムであるStageRouteを導入する。
(i)報酬高信頼と低コスト低信頼境界を用いて、次段のM_max$モデルに対して楽観的に最大$M_max$を選択する。
(ii) 予算制約付きBanditサブプロブレムを解決し、各入力クエリをルーティングする。
我々はStageRouteが$T^{2/3}$の残差を達成し、一致した下界を提供し、それによってそのほぼ最適性を確立することを証明した。
さらに,本実験では,StageRouteが実用的な設定で最適に近い性能を示すことを示すことにより,この理論を検証した。
関連論文リスト
- RadialRouter: Structured Representation for Efficient and Robust Large Language Models Routing [31.446419903916425]
Radialは、大規模言語モデルのルーティングのための新しいフレームワークである。
RadialFormerという名前のラジアル構造を持つ軽量なTransformerベースのバックボーンを使用して、クエリとLLMの関係を明確にする。
バランシングとコストファーストのシナリオでは、既存のルーティングメソッドの9.2%と5.8%を大きく上回っている。
論文 参考訳(メタデータ) (2025-06-04T12:16:41Z) - OmniRouter: Budget and Performance Controllable Multi-LLM Routing [31.60019342381251]
大規模言語モデル(LLM)は優れた性能を提供するが、かなりの計算資源を必要とし、比較的低効率で運用する。
マルチLLMサービスのための制御可能なルーティングフレームワークであるOmniを紹介する。
実験の結果、Omniは応答精度を最大6.30%改善し、同時に計算コストを少なくとも10.15%削減した。
論文 参考訳(メタデータ) (2025-02-27T22:35:31Z) - Streaming Looking Ahead with Token-level Self-reward [50.699168440048716]
本稿では,トークンレベルの自己回帰モデリング(TRM)機能を備えたポリシーモデルを提案する。
さらに,検索効率を向上し,並列化を向上するストリーミング・ルック・アヘッド (SLA) アルゴリズムを提案する。
SLAとDPOなどの強化微調整技術を組み合わせると、全体の勝利率は89.4%となる。
論文 参考訳(メタデータ) (2025-02-24T22:35:53Z) - Universal Model Routing for Efficient LLM Inference [72.65083061619752]
我々は,これまで観測されていなかった新しいLLMがテスト時に利用可能となる動的ルーティングの問題を考察する。
本稿では,各LSMを特徴ベクトルとして表現する手法を提案する。
これらの戦略が理論的に最適なルーティングルールの推定であり、エラーを定量化するための過剰なリスクを提供する。
論文 参考訳(メタデータ) (2025-02-12T20:30:28Z) - CARROT: A Cost Aware Rate Optimal Router [22.786863130994217]
本稿では,コストAware Rate Optimal rouTerを提案する。
いくつかの代替ルータに対してCARROTの性能を実証的に検証する。
論文 参考訳(メタデータ) (2025-02-05T15:17:25Z) - Pareto Low-Rank Adapters: Efficient Multi-Task Learning with Preferences [49.14535254003683]
本稿では,機械学習におけるマルチタスクトレードオフに対処するパラメータ効率の高い新しい手法PaLoRAを紹介する。
実験の結果、PaLoRAは様々なデータセットで最先端のMTLとPFLのベースラインを上回っていることがわかった。
論文 参考訳(メタデータ) (2024-07-10T21:25:51Z) - Optimising Calls to Large Language Models with Uncertainty-Based Two-Tier Selection [80.63946798650653]
決定は、より優れた性能を持つ大型LCMを使うか、より少ないコストで使用するかに重点を置いている。
我々は,LLMの世代間不確実性のみを意思決定基準として,より単純な解を提案する。
実験の結果、この単純な解はコストと性能を最適にバランスさせ、27の試験装置中25の既存手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-03T14:38:59Z) - Which LLM to Play? Convergence-Aware Online Model Selection with
Time-Increasing Bandits [43.65904435249823]
本稿では,モデルの性能向上を効果的に予測する帯域幅増加アルゴリズムTI-UCBを提案する。
本研究は,より効率的かつ経済的なモデル選択のために,増大する収束パターンを活用することの重要性を強調した。
論文 参考訳(メタデータ) (2024-03-11T23:52:46Z) - LASER: LLM Agent with State-Space Exploration for Web Navigation [57.802977310392755]
大規模言語モデル(LLM)は、Webナビゲーションのようなインタラクティブな意思決定タスクにうまく適応している。
以前のメソッドでは、モデルに対して前方のみの実行モードを暗黙的に仮定しており、そこでは、オンコンテキストの例として、オラクルのトラジェクトリのみを提供する。
本稿では,対話型タスクを状態空間探索としてモデル化することを提案する。
論文 参考訳(メタデータ) (2023-09-15T05:44:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。