論文の概要: Learning to Route and Schedule LLMs from User Retrials via Contextual Queueing Bandits
- arxiv url: http://arxiv.org/abs/2602.02061v1
- Date: Mon, 02 Feb 2026 13:01:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.15712
- Title: Learning to Route and Schedule LLMs from User Retrials via Contextual Queueing Bandits
- Title(参考訳): コンテキスト待ち帯域を用いたユーザリトライアルからのLCMの経路とスケジュールの学習
- Authors: Seoungbin Bae, Junyoung Son, Dabeen Lee,
- Abstract要約: 我々は,ユーザの再審行動から推定される暗黙のフィードバックを活用する共同ルーティングとスケジューリングアルゴリズムを開発した。
我々は、ACQBがルーティングに対して$widetildemathcalO(sqrtt)$の累積後悔と、大きな$t$に対して$widetildemathcalO(t-1/4)$のキュー長後悔を同時に達成していることを示す。
- 参考スコア(独自算出の注目度): 1.3982866095610877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Explosive demands for LLMs often cause user queries to accumulate in server queues, requiring efficient routing (query-LLM matching) and scheduling (query prioritization) mechanisms. Several online algorithms are being deployed, but they overlook the following two key challenges inherent to conversational LLM services: (1) unsatisfied users may retry queries, increasing the server backlog, and (2) requests for ``explicit" feedback, such as ratings, degrade user experiences. In this paper, we develop a joint routing and scheduling algorithm that leverages ``implicit" feedback inferred from user retrial behaviors. The key idea is to propose and study the framework of contextual queueing bandits with multinomial logit feedback (CQB-MNL). CQB-MNL models query retrials, as well as context-based learning for user preferences over LLMs. Our algorithm, anytime CQB (ACQB), achieves efficient learning while maintaining queue stability by combining Thompson sampling with forced exploration at a decaying rate. We show that ACQB simultaneously achieves a cumulative regret of $\widetilde{\mathcal{O}}(\sqrt{t})$ for routing and a queue length regret of $\widetilde{\mathcal{O}}(t^{-1/4})$ for any large $t$. For experiments, we refine query embeddings via contrastive learning while adopting a disjoint parameter model to learn LLM-specific parameters. Experiments on SPROUT, EmbedLLM, and RouterBench datasets confirm that both algorithms consistently outperform baselines.
- Abstract(参考訳): LLMの爆発的な要求は、しばしばユーザークエリをサーバキューに蓄積させ、効率的なルーティング(クエリ-LLMマッチング)とスケジューリング(クエリ優先順位付け)のメカニズムを必要とする。
本稿では,(1)不満足なユーザがクエリをリトライしたり,サーババックログを増大させたり,(2) "Explicit" フィードバックの要求(レーティングやユーザエクスペリエンスの劣化など)をすることで,ユーザの再審行動から生じる "implicit" フィードバックを活用する共同ルーティングとスケジューリングアルゴリズムを開発する。
鍵となる考え方は、多項ロジットフィードバック(CQB-MNL)を用いたコンテキスト待ち行列帯域のフレームワークの提案と研究である。
CQB-MNLは、再審理をクエリし、LLMよりもユーザの好みをコンテキストベースで学習する。
このアルゴリズムは,トンプソンサンプリングと強制探索を減衰速度で組み合わせることで,待ち行列安定性を維持しながら効率的な学習を実現する。
我々は、ACQBがルーティングに対して$\widetilde{\mathcal{O}}(\sqrt{t})$の累積後悔と、任意の大きな$t$に対して$\widetilde{\mathcal{O}}(t^{-1/4})$のキュー長後悔を同時に達成していることを示す。
実験では,LLM固有のパラメータを学習するために不整合パラメータモデルを採用しながら,コントラスト学習によるクエリ埋め込みを洗練する。
SPROUT、EmbedLLM、RouterBenchデータセットの実験では、両方のアルゴリズムがベースラインを一貫して上回ることが確認されている。
関連論文リスト
- Rethinking On-policy Optimization for Query Augmentation [49.87723664806526]
本稿では,様々なベンチマークにおいて,プロンプトベースとRLベースのクエリ拡張の最初の体系的比較を示す。
そこで我々は,検索性能を最大化する擬似文書の生成を学習する,新しいハイブリッド手法 On-policy Pseudo-document Query Expansion (OPQE) を提案する。
論文 参考訳(メタデータ) (2025-10-20T04:16:28Z) - Adaptive LLM Routing under Budget Constraints [12.432635540782874]
大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、その様々な能力とコストは、実用的なアプリケーションにおいて課題を引き起こしている。
従来のアプローチでは、最適なクエリ-LLMペアリングの完全な知識を前提として、これを教師付き学習問題として扱う。
本稿では,LLMルーティングを文脈的帯域幅問題として検討し,帯域幅フィードバックを用いて適応的な意思決定を可能にすることを提案する。
論文 参考訳(メタデータ) (2025-08-28T18:18:19Z) - BQSched: A Non-intrusive Scheduler for Batch Concurrent Queries via Reinforcement Learning [7.738546538164454]
データパイプライン全体の規模を最小化する上で重要な問題は、並列クエリの効率的なスケジューリングである。
我々の知る限り、BQSchedは強化学習による最初の非侵襲的なバッチクエリスケジューラである。
大規模な実験により、BQSchedはバッチクエリスケジューリングの効率と安定性を大幅に改善できることが示された。
論文 参考訳(メタデータ) (2025-04-27T07:49:01Z) - PickLLM: Context-Aware RL-Assisted Large Language Model Routing [0.5325390073522079]
PickLLMは、RL(Reinforcement Learning)を使用してオンザフライクエリを利用可能なモデルにルーティングする軽量フレームワークである。
学習速度の違いに対する収束の速度と,クエリ毎のコストや全体の応答遅延といったハードメトリクスの改善を実証する。
論文 参考訳(メタデータ) (2024-12-12T06:27:12Z) - Multi-Bin Batching for Increasing LLM Inference Throughput [19.652542432683234]
大規模言語モデル(LL)は、システムの効率性を向上させるために人気が高まっている。
リクエストはサーバ上のジョブをスケジューリングする重要なステップです。
リクエストは、しばしば異なる生成長を持ち、リソースの未利用を引き起こす。
我々は、この問題をキューイング理論の観点から形式化し、スループット制御ポリシーを設計することを目的とする。
論文 参考訳(メタデータ) (2024-12-03T03:16:12Z) - Grounding by Trying: LLMs with Reinforcement Learning-Enhanced Retrieval [55.63711219190506]
大きな言語モデル(LLM)は、しばしば適切な検索クエリのポーズに苦労する。
私たちは$underlineLe$arningを$underlineRe$trieveに$underlineT$rying (LeReT)を導入します。
LeReTは、絶対精度を最大29%向上し、下流ジェネレータの評価を17%向上させることができる。
論文 参考訳(メタデータ) (2024-10-30T17:02:54Z) - Beyond the Turn-Based Game: Enabling Real-Time Conversations with Duplex Models [66.24055500785657]
従来のターンベースのチャットシステムは、ユーザが応答を生成している間に、システムが言葉で対話することを防ぐ。
これらの制限を克服するため,既存のLCMをユーザを聴きながら出力を生成し,ユーザに対して即時フィードバックを提供する。
クエリとレスポンスの時間スライスを交互に行うデータセットを構築し、インスタントインタラクションにおける典型的なフィードバックタイプをカバーする。
論文 参考訳(メタデータ) (2024-06-22T03:20:10Z) - Context Aware Query Rewriting for Text Rankers using LLM [5.164642900490078]
テキストランキングタスクのクエリ書き直し改善のための大規模モデルの有用性を解析する。
私たちは、コンテキスト対応クエリ書き換え(CAR)と呼ばれる、シンプルだが驚くほど効果的なアプローチを採用しています。
書き直しクエリを使ってランク付けを行うと、パスランキングタスクでは最大33%、ドキュメントランキングタスクでは最大28%の大幅な改善が得られます。
論文 参考訳(メタデータ) (2023-08-31T14:19:50Z) - Allies: Prompting Large Language Model with Beam Search [107.38790111856761]
本研究では,ALIESと呼ばれる新しい手法を提案する。
入力クエリが与えられた場合、ALLIESはLLMを活用して、元のクエリに関連する新しいクエリを反復的に生成する。
元のクエリのスコープを反復的に精錬して拡張することにより、ALLIESは直接検索できない隠れた知識をキャプチャし、利用する。
論文 参考訳(メタデータ) (2023-05-24T06:16:44Z) - Query Rewriting for Retrieval-Augmented Large Language Models [139.242907155883]
大規模言語モデル(LLM)は、検索対象のパイプラインで強力なブラックボックスリーダーを動作させる。
この作業では、検索拡張LDMに対する以前の検索テーマ読み込みの代わりに、新しいフレームワークであるRewrite-Retrieve-Readを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。