論文の概要: Dynamically Learned Test-Time Model Routing in Language Model Zoos with Service Level Guarantees
- arxiv url: http://arxiv.org/abs/2505.19947v1
- Date: Mon, 26 May 2025 13:11:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.4488
- Title: Dynamically Learned Test-Time Model Routing in Language Model Zoos with Service Level Guarantees
- Title(参考訳): サービスレベル保証付き言語モデル動物園における動的に学習されたテスト時間モデルルーティング
- Authors: Herbert Woisetschläger, Ryan Zhang, Shiqiang Wang, Hans-Arno Jacobsen,
- Abstract要約: オープンウェイトなLLM動物園は、多くの高品質なモデルへのアクセスを提供する。
ほとんどのユーザーは、モデル技術に気を使わずに、事実的正確で安全で満足な応答を欲しがっている。
本稿では,コスト-最適要求ルーティングのためのコスト-最適最適化アルゴリズムであるMESS+を紹介する。
- 参考スコア(独自算出の注目度): 21.2175476090125
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Open-weight LLM zoos provide access to numerous high-quality models, but selecting the appropriate model for specific tasks remains challenging and requires technical expertise. Most users simply want factually correct, safe, and satisfying responses without concerning themselves with model technicalities, while inference service providers prioritize minimizing operating costs. These competing interests are typically mediated through service level agreements (SLAs) that guarantee minimum service quality. We introduce MESS+, a stochastic optimization algorithm for cost-optimal LLM request routing while providing rigorous SLA compliance guarantees. MESS+ learns request satisfaction probabilities of LLMs in real-time as users interact with the system, based on which model selection decisions are made by solving a per-request optimization problem. Our algorithm includes a novel combination of virtual queues and request satisfaction prediction, along with a theoretical analysis of cost optimality and constraint satisfaction. Across a wide range of state-of-the-art LLM benchmarks, MESS+ achieves an average of 2x cost savings compared to existing LLM routing techniques.
- Abstract(参考訳): オープンウェイトLLM動物園は、多くの高品質なモデルへのアクセスを提供するが、特定のタスクに適したモデルを選択することは困難であり、技術的専門知識を必要とする。
ほとんどのユーザは、モデル技術に関係なく、事実的正当で安全で満足な応答を欲しがっている。
これらの競合する関心は通常、最小限のサービス品質を保証するサービスレベル合意(SLA)を通じて仲介されます。
本稿では,コスト最適LLM要求ルーティングのための確率的最適化アルゴリズムであるMESS+を紹介する。
MESS+は、ユーザがシステムと対話するときのLCMの要求満足度確率をリアルタイムで学習する。
提案アルゴリズムは,仮想キューと要求満足度予測の新たな組み合わせと,コスト最適性と制約満足度の理論解析を含む。
MESS+は、最先端のLLMベンチマークの幅広い範囲で、既存のLLMルーティング技術と比較して平均2倍のコスト削減を実現している。
関連論文リスト
- Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - Smart Routing: Cost-Effective Multi-LLM Serving for Multi-Core AIOS [31.60019342381251]
既存のスケジューリングフレームワークは主にレイテンシの最適化をターゲットとしている。
本稿では,マルチLLMサービスのための高効率能率協調スケジューリングフレームワークECCOSを提案する。
論文 参考訳(メタデータ) (2025-02-27T22:35:31Z) - Dynamic LLM Routing and Selection based on User Preferences: Balancing Performance, Cost, and Ethics [0.6999740786886538]
本稿では,タスクを最適大言語モデル(LLM)に動的に選択・ルーティングする,高度なモデルルーティングエンジンであるOptiRouteを紹介する。
OptiRouteは、機能的(例えば、精度、速度、コスト)と非機能的(例えば、有用性、無害性、正直性)の両方の基準を捉え、最適なモデルとタスクを効率的に一致させる。
これにより、クラウドベースのMLプラットフォーム、パーソナライズされたAIサービス、規制業界におけるリアルタイムアプリケーションに理想的になります。
論文 参考訳(メタデータ) (2025-02-23T19:23:22Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - MixLLM: Dynamic Routing in Mixed Large Language Models [57.309520357563215]
大規模言語モデル(LLM)は、最近、人工知能の可能性を秘めている。
問合せ-LLM代入のための動的コンテキスト帯域ベースのルーティングシステムであるMixLLMを開発した。
論文 参考訳(メタデータ) (2025-02-09T02:26:15Z) - EVOLvE: Evaluating and Optimizing LLMs For Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。
多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。
最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-08T17:54:03Z) - Optimising Calls to Large Language Models with Uncertainty-Based Two-Tier Selection [80.63946798650653]
決定は、より優れた性能を持つ大型LCMを使うか、より少ないコストで使用するかに重点を置いている。
我々は,LLMの世代間不確実性のみを意思決定基準として,より単純な解を提案する。
実験の結果、この単純な解はコストと性能を最適にバランスさせ、27の試験装置中25の既存手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-03T14:38:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。