論文の概要: Routing, Cascades, and User Choice for LLMs
- arxiv url: http://arxiv.org/abs/2602.09902v1
- Date: Tue, 10 Feb 2026 15:39:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.648944
- Title: Routing, Cascades, and User Choice for LLMs
- Title(参考訳): LLMのルーティング, カスケード, ユーザ選択
- Authors: Rafid Mahmood,
- Abstract要約: ユーザ行動に対するLLMルーティングの効果について検討する。
2つのモデルを持つLLMプロバイダと,タスクの再実行や放棄が可能なユーザとの間でのゲームを提案する。
ユーザの目的は、モデルの使用の遅延を抑えるためにユーティリティを最大化することであり、一方、プロバイダは、ユーザをサービスするコストを最小限にすることである。
- 参考スコア(独自算出の注目度): 9.28138618885869
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To mitigate the trade-offs between performance and costs, LLM providers route user tasks to different models based on task difficulty and latency. We study the effect of LLM routing with respect to user behavior. We propose a game between an LLM provider with two models (standard and reasoning) and a user who can re-prompt or abandon tasks if the routed model cannot solve them. The user's goal is to maximize their utility minus the delay from using the model, while the provider minimizes the cost of servicing the user. We solve this Stackelberg game by fully characterizing the user best response and simplifying the provider problem. We observe that in nearly all cases, the optimal routing policy involves a static policy with no cascading that depends on the expected utility of the models to the user. Furthermore, we reveal a misalignment gap between the provider-optimal and user-preferred routes when the user's and provider's rankings of the models with respect to utility and cost differ. Finally, we demonstrate conditions for extreme misalignment where providers are incentivized to throttle the latency of the models to minimize their costs, consequently depressing user utility. The results yield simple threshold rules for single-provider, single-user interactions and clarify when routing, cascading, and throttling help or harm.
- Abstract(参考訳): パフォーマンスとコストのトレードオフを軽減するため、LLMプロバイダは、タスクの難易度とレイテンシに基づいて、ユーザタスクを異なるモデルにルーティングする。
ユーザ行動に対するLLMルーティングの効果について検討する。
本稿では、2つのモデル(標準と推論)を持つLLMプロバイダと、ルーティングされたモデルで解決できない場合のタスクの再実行や破棄が可能なユーザとの間でのゲームを提案する。
ユーザの目的は、モデルの使用の遅延を抑えるためにユーティリティを最大化することであり、一方、プロバイダは、ユーザをサービスするコストを最小限にすることである。
我々は,このStackelbergゲームにおいて,ユーザのベストレスポンスを完全に表現し,プロバイダの問題を単純化することで解決する。
ほぼすべてのケースにおいて、最適ルーティングポリシーは、ユーザが期待するモデルの実用性に依存するカスケードのない静的ポリシーを伴っている。
さらに,ユーザと提供者のモデルランキングが,実用性やコストの相違により異なる場合に,提供者最適経路と利用者優先経路の相違を明らかにする。
最後に、コストを抑えるためにモデルの遅延を抑えるためにプロバイダにインセンティブを与え、結果としてユーザの有用性を低下させる、極端な調整の条件を示す。
その結果、シングルプロジェクタ、シングルユーザインタラクションのための単純なしきい値ルールが得られ、ルーティング、カスケード、スロットリングが助けになるか危害があるかが明確になる。
関連論文リスト
- When Routing Collapses: On the Degenerate Convergence of LLM Routers [46.01380774114097]
ユーザのコスト予算が増加するにつれて、ルータは体系的に最も有能で最も高価なモデルにデフォルトとなる。
モデルランキングを直接学習する決定対応ルータであるEquiを提案する。
RouterBenchでは、最強の先行ルータと比較して、GPT-4レベルのパフォーマンスでコストを約17%削減する。
論文 参考訳(メタデータ) (2026-02-03T12:51:55Z) - RouteMoA: Dynamic Routing without Pre-Inference Boosts Efficient Mixture-of-Agents [91.0187958746262]
RouteMoAは動的ルーティングを備えた効率的な混合エージェントフレームワークである。
軽量スコアラを使用して、クエリから粗い粒度のパフォーマンスを予測することで、初期スクリーニングを行う。
既存のモデル出力に基づいて、軽量な自己評価とクロスアセスメントによってこれらのスコアを洗練し、追加の推論なしで後部修正を提供する。
論文 参考訳(メタデータ) (2026-01-26T04:22:22Z) - Learning to Route LLMs from Bandit Feedback: One Policy, Many Trade-offs [69.2486294522259]
BaRPはBandit Routing-feedback with Preferencesアプローチであり、デプロイと同じ部分フィードバック制限の下でトレーニングされる。
提案手法は,学習中のオンラインフィードバック設定をシミュレートし,新たなプロンプトに適応する。
論文 参考訳(メタデータ) (2025-10-08T18:24:59Z) - Adaptive LLM Routing under Budget Constraints [12.432635540782874]
大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、その様々な能力とコストは、実用的なアプリケーションにおいて課題を引き起こしている。
従来のアプローチでは、最適なクエリ-LLMペアリングの完全な知識を前提として、これを教師付き学習問題として扱う。
本稿では,LLMルーティングを文脈的帯域幅問題として検討し,帯域幅フィードバックを用いて適応的な意思決定を可能にすることを提案する。
論文 参考訳(メタデータ) (2025-08-28T18:18:19Z) - Cost-Aware Contrastive Routing for LLMs [57.30288453580456]
我々は、プロンプトとモデルの両方を共有埋め込み空間にマッピングする軽量フレームワークであるコストスペクトルコントラストルーティング(CSCR)を紹介します。
CSCRはベースラインを一貫して上回り、精度とコストのトレードオフを最大25%改善した。
論文 参考訳(メタデータ) (2025-08-17T20:16:44Z) - OmniRouter: Budget and Performance Controllable Multi-LLM Routing [31.60019342381251]
大規模言語モデル(LLM)は優れた性能を提供するが、かなりの計算資源を必要とし、比較的低効率で運用する。
マルチLLMサービスのための制御可能なルーティングフレームワークであるOmniを紹介する。
実験の結果、Omniは応答精度を最大6.30%改善し、同時に計算コストを少なくとも10.15%削減した。
論文 参考訳(メタデータ) (2025-02-27T22:35:31Z) - Universal Model Routing for Efficient LLM Inference [69.86195589350264]
モデルルーティングは,大規模言語モデル(LLM)の推論コストを削減する手法である
動的ルーティング問題に対する新しいアプローチであるUniRouteを提案する。
これらは理論的に最適なルーティングルールの推定であり、過大なリスクバウンドによってそれらのエラーを定量化する。
論文 参考訳(メタデータ) (2025-02-12T20:30:28Z) - MixLLM: Dynamic Routing in Mixed Large Language Models [57.309520357563215]
大規模言語モデル(LLM)は、最近、人工知能の可能性を秘めている。
問合せ-LLM代入のための動的コンテキスト帯域ベースのルーティングシステムであるMixLLMを開発した。
論文 参考訳(メタデータ) (2025-02-09T02:26:15Z) - iServe: An Intent-based Serving System for LLMs [0.34998703934432684]
iServeは、分散大言語モデル(LLM)推論のためのインテントベースのシステムである。
手動でデプロイメント設定を選択する代わりに、開発者は単純にインテントを指定する。
iServeは最先端のシステムと比べてユーザー意図に最も合う。
論文 参考訳(メタデータ) (2025-01-08T14:38:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。